基于余弦相似度的文件比较工具

站长

2023年09月15日 20:15 · 阅读数 78

介绍

最近我们的项目需要对目录中的文件进行相似度比较，总结出整体的差异化。然而，我发现网络上现有的工具无法满足我们的需求。因此，我尝试着开发了一个用于比较目录文件相似度的工具。

这个工具的核心算法是余弦相似度，它可以帮助我们度量两个文本文件之间的相似度，从而判断它们之间的相似程度。余弦相似度是一种用于比较两个向量夹角的方法，其取值范围在-1到1之间，其中-1表示完全不相似，而1表示完全相似。

工具截图

基于余弦相似度的文件比较工具

工具地址：github.com/itc-1118/Bo…

基础概念

使用自然语言处理库的分词器将文本内容分词为单词： 分词是自然语言处理中的一项基本任务，它将文本分解成单个词汇单元，通常是单词或子词。在这个步骤中，代码使用了自然语言处理库中的分词器，通常是一个预训练的模型或算法，用于将输入的文本内容分成单词。分词的目的是将文本内容转化为更小的语义单位，以便后续处理。例如，将句子 "我喜欢学习自然语言处理" 分词为 ["我", "喜欢", "学习", "自然语言处理"]。
创建一个包含两个文本中所有不重复词汇的集合（tokenSet）： 在这一步，代码会将两个文本内容分别分词，并将所有不重复的单词（词汇）存储在一个集合中，通常是一个数据结构，确保其中不会包含重复的词汇。这个集合通常被称为 "tokenSet"，其中的 "token" 是指文本分词后的单词或子词。这个步骤的目的是建立一个用于后续计算的词汇表，该词汇表包含了两个文本中的所有不同的词汇。
将文本内容表示为二进制向量，其中每个词汇的存在用1表示，不存在用0表示： 在这一步，针对每个文本内容，代码会将其表示为一个二进制向量。向量的长度等于词汇表的大小（即不重复词汇的数量），每个位置上的值表示对应词汇的存在或缺失。如果某个词汇在文本中存在，那么对应位置的值为1，否则为0。这个过程将文本内容编码成了一个稀疏向量，其中大多数元素为0，只有一小部分为1。这种表示方法有助于比较文本之间的相似性，因为它考虑了词汇的存在与否。
计算两个二进制向量之间的余弦相似度，得到相似度分数： 余弦相似度是一种用于度量两个向量之间夹角的方法，通常用于比较文本之间的相似度。在这一步，代码会计算两个文本内容的二进制向量之间的余弦相似度。余弦相似度的计算涉及向量之间的点积（内积）和向量的长度（模）的概念。具体而言，余弦相似度分数的计算公式如下：

余弦相似度 = (向量1与向量2的点积) / (向量1的长度 * 向量2的长度)

这个分数的取值范围通常在 -1（不相似）到 1（完全相似）之间，其中1表示两个向量的方向相同，-1表示方向完全相反，0表示没有相似性。余弦相似度分数越接近1，表示文本内容越相似。

总之，这四个步骤描述了如何将文本内容转化为二进制向量，并使用余弦相似度来度量文本之间的相似性。这种方法允许比较两个文本的内容，考虑到它们包含的词汇以及这些词汇的存在与否，从而得出一个相似度分数，用于衡量它们的相似程度。

余弦相似度计算

首先，让我们看一下代码中的 calculateCosineSimilarity 函数。这个函数的主要任务是计算两个文本内容的余弦相似度。

const natural = require("natural");
const tokenizer = new natural.WordTokenizer();

function calculateCosineSimilarity(content1, content2) {
  // 将文本内容分词
  const tokens1 = tokenizer.tokenize(content1);
  const tokens2 = tokenizer.tokenize(content2);

  // 创建词汇集合
  const tokenSet = new Set([...tokens1, ...tokens2]);

  // 创建文本内容的二进制向量
  const vector1 = Array.from(tokenSet).map((token) =>
    tokens1.includes(token) ? 1 : 0
  );

  const vector2 = Array.from(tokenSet).map((token) =>
    tokens2.includes(token) ? 1 : 0
  );

  // 计算向量点积
  let dotProduct = 0;
  for (let i = 0; i < vector1.length; i++) {
    dotProduct += vector1[i] * vector2[i];
  }

  // 计算向量长度
  const magnitude1 = Math.sqrt(
    vector1.reduce((sum, val) => sum + val * val, 0)
  );
  const magnitude2 = Math.sqrt(
    vector2.reduce((sum, val) => sum + val * val, 0)
  );

  // 计算余弦相似度
  const similarity = dotProduct / (magnitude1 * magnitude2);

  return isNaN(similarity) ? 1 : similarity;
}

文件比较

接下来，让我们看一下 compareFiles 函数，它用于比较两个文件的相似性。

const fs = require("fs").promises;

async function compareFiles(file1, file2) {
  const content1 = await fs.readFile(file1, "utf-8");
  const content2 = await fs.readFile(file2, "utf-8");
  const similarity = calculateCosineSimilarity(content1, content2);

  return { file1, file2, similarity };
}

总结

通过开发这个用于比较目录文件相似度的工具，我们可以轻松地分析和比较文本文件之间的相似性，这在许多文本处理和信息管理任务中都非常有用。余弦相似度作为核心算法，能够有效地度量文本之间的相似性，帮助我们理解文件之间的关系和差异。这个工具为处理文本数据提供了一个有力的工具，有助于解决许多实际问题。

转载自:https://juejin.cn/post/7278119481364381736