什么是余弦相似度算法

简介: 什么是余弦相似度算法

余弦相似度(Cosine Similarity)是一种常用的度量两个非零向量之间相似度的方法,广泛应用于文本挖掘、推荐系统等领域。该算法通过测量两个向量之间的夹角的余弦值来评估它们的相似度。理论上,两个向量的方向越接近,它们的余弦相似度就越高。余弦值为 1 表示两个向量方向完全相同,为 0 表示两者正交,而为 -1 则表示两者方向完全相反。

工作原理

给定两个向量 AB,它们之间的余弦相似度 cos(θ) 可以通过下面的公式计算得出:

cos(θ) = (A · B) / (||A|| * ||B||)

其中,(A · B) 表示 AB 的点积,而 ||A||||B|| 分别表示 AB 的欧氏范数(即向量的长度)。

点积 (A · B) 计算公式为:

A · B = Σ(ai * bi)

向量的欧氏范数 ||A|| 计算公式为:

||A|| = sqrt(Σ(ai^2))

其中,aibi 分别是向量 AB 中的元素。

举例说明

假设有两个用户对三部电影的评分向量,用户 X 的评分向量为 [4, 0, 5],代表用户 X 对第一部电影的评分为 4 分,对第二部电影未进行评分,对第三部电影的评分为 5 分。用户 Y 的评分向量为 [5, 1, 4],代表用户 Y 对第一部电影的评分为 5 分,对第二部电影的评分为 1 分,对第三部电影的评分为 4 分。

根据余弦相似度的公式,我们首先计算两个用户评分向量的点积:

A · B = (4 * 5) + (0 * 1) + (5 * 4) = 20 + 0 + 20 = 40

接下来,计算两个向量的欧氏范数:

||A|| = sqrt((4^2) + (0^2) + (5^2)) = sqrt(16 + 0 + 25) = sqrt(41)
||B|| = sqrt((5^2) + (1^2) + (4^2)) = sqrt(25 + 1 + 16) = sqrt(42)

然后,将点积的结果除以两个向量欧氏范数的乘积,得到余弦相似度:

cos(θ) = 40 / (sqrt(41) * sqrt(42)) ≈ 0.989

这个结果表明,用户 X 和用户 Y 对电影的评分趋势非常相似,他们的兴趣和偏好可能相近。

余弦相似度的优点

  1. 归一化度量:余弦相似度考虑的是向量间的夹角,而不是向量的大小,这意味着即使两个向量在长度上不同,它们的方向相似度依然可以被有效度量。
  2. 适用性广泛:适合于稀疏数据的场景,如文本数据和用户评分数据。在这些场景中,数据的维度往往很高,而且大部分值为零。
  3. 计算简便:相对于其他相似度度量方法,余弦相似度的计算相对简单,适合大规模数据处理。

应用场景

余弦相似度在许多领域都有广泛应用,特别是在信息检索、文本挖掘和推荐系统中。例如,在文本挖掘中,文档或文章可以转换为词频向量,通过计算文档向量之间的余弦相似度,可以找到内容相似的文档。在推荐系统中,通过计算用户或物品特征向量之间的余弦相似度,可以实现精准的个性化推荐。

结论

余弦相似度提供了一种有效的方法来度量两个向量间的相似度,尤其是在处理高维稀疏数据时。通过计算向量间的夹角余弦值,可以忽略向量的长度差异,仅关注向量的方向相似度。这使得余弦相似度成为文本处理、推荐系统等领域的一种重要工具。尽管如此,选择合适的相似度度量方法还需根据具体的应用场景和数据特性来定。

相关文章
|
机器学习/深度学习 算法
余弦相似度算法进行客户流失分类预测
余弦相似性是一种用于计算两个向量之间相似度的方法,常被用于文本分类和信息检索领域。
117 0
|
算法 计算机视觉
ML之Cosin:基于输入图片RGB均值化转为单向vector利用Cosin(余弦相似度)算法进行判别
ML之Cosin:基于输入图片RGB均值化转为单向vector利用Cosin(余弦相似度)算法进行判别
ML之Cosin:基于输入图片RGB均值化转为单向vector利用Cosin(余弦相似度)算法进行判别
ML之Cosin:基于输入图片RGB均值化转为单向vector利用Cosin(余弦相似度)算法进行判别
ML之Cosin:基于输入图片RGB均值化转为单向vector利用Cosin(余弦相似度)算法进行判别
ML之Cosin:基于输入图片RGB均值化转为单向vector利用Cosin(余弦相似度)算法进行判别
|
5天前
|
算法 数据安全/隐私保护 计算机视觉
基于二维CS-SCHT变换和LABS方法的水印嵌入和提取算法matlab仿真
该内容包括一个算法的运行展示和详细步骤,使用了MATLAB2022a。算法涉及水印嵌入和提取,利用LAB色彩空间可能用于隐藏水印。水印通过二维CS-SCHT变换、低频系数处理和特定解码策略来提取。代码段展示了水印置乱、图像处理(如噪声、旋转、剪切等攻击)以及水印的逆置乱和提取过程。最后,计算并保存了比特率,用于评估水印的稳健性。
|
1天前
|
算法
m基于BP译码算法的LDPC编译码matlab误码率仿真,对比不同的码长
MATLAB 2022a仿真实现了LDPC码的性能分析,展示了不同码长对纠错能力的影响。短码长LDPC码收敛快但纠错能力有限,长码长则提供更强纠错能力但易陷入局部最优。核心代码通过循环进行误码率仿真,根据EsN0计算误比特率,并保存不同码长(12-768)的结果数据。
19 9
m基于BP译码算法的LDPC编译码matlab误码率仿真,对比不同的码长
|
3天前
|
算法
MATLAB|【免费】融合正余弦和柯西变异的麻雀优化算法SCSSA-CNN-BiLSTM双向长短期记忆网络预测模型
这段内容介绍了一个使用改进的麻雀搜索算法优化CNN-BiLSTM模型进行多输入单输出预测的程序。程序通过融合正余弦和柯西变异提升算法性能,主要优化学习率、正则化参数及BiLSTM的隐层神经元数量。它利用一段简单的风速数据进行演示,对比了改进算法与粒子群、灰狼算法的优化效果。代码包括数据导入、预处理和模型构建部分,并展示了优化前后的效果。建议使用高版本MATLAB运行。
|
5天前
|
算法 计算机视觉
基于高斯混合模型的视频背景提取和人员跟踪算法matlab仿真
该内容是关于使用MATLAB2013B实现基于高斯混合模型(GMM)的视频背景提取和人员跟踪算法。算法通过GMM建立背景模型,新帧与模型比较,提取前景并进行人员跟踪。文章附有程序代码示例,展示从读取视频到结果显示的流程。最后,结果保存在Result.mat文件中。
|
5天前
|
资源调度 算法 块存储
m基于遗传优化的LDPC码OMS译码算法最优偏移参数计算和误码率matlab仿真
MATLAB2022a仿真实现了遗传优化的LDPC码OSD译码算法,通过自动搜索最佳偏移参数ΔΔ以提升纠错性能。该算法结合了低密度奇偶校验码和有序统计译码理论,利用遗传算法进行全局优化,避免手动调整,提高译码效率。核心程序包括编码、调制、AWGN信道模拟及软输入软输出译码等步骤,通过仿真曲线展示了不同SNR下的误码率性能。
9 1
|
5天前
|
存储 算法 数据可视化
基于harris角点和RANSAC算法的图像拼接matlab仿真
本文介绍了使用MATLAB2022a进行图像拼接的流程,涉及Harris角点检测和RANSAC算法。Harris角点检测寻找图像中局部曲率变化显著的点,RANSAC则用于排除噪声和异常点,找到最佳匹配。核心程序包括自定义的Harris角点计算函数,RANSAC参数设置,以及匹配点的可视化和仿射变换矩阵计算,最终生成全景图像。
|
5天前
|
算法 Serverless
m基于遗传优化的LDPC码NMS译码算法最优归一化参数计算和误码率matlab仿真
MATLAB 2022a仿真实现了遗传优化的归一化最小和(NMS)译码算法,应用于低密度奇偶校验(LDPC)码。结果显示了遗传优化的迭代过程和误码率对比。遗传算法通过选择、交叉和变异操作寻找最佳归一化因子,以提升NMS译码性能。核心程序包括迭代优化、目标函数计算及性能绘图。最终,展示了SNR与误码率的关系,并保存了关键数据。
17 1
http://www.vxiaotou.com