stata计算余弦相似度.docx
《stata计算余弦相似度.docx》由会员分享,可在线阅读,更多相关《stata计算余弦相似度.docx(2页珍藏版)》请在第一文库网上搜索。
1、stata计算余弦相似度余弦计算相似度度量相似度度量(SimiIarity),即计算个体间的相似程度,相似 度度量的值越小,说明个体间相似度越小,相似度的值越大 说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之 间的相似度如何,一个好的做法就是将这些文本中词语,映 射到向量空间,形成文本中文字和向量数据的映射关系,通 过计算几个或者多个不同的向量的差异的大小,来计算文本 的相似度。下面介绍一个详细成熟的向量空间余弦相似度方 法计算相似度向量空间余弦相似度(COSine Similarity)余弦相似度用向量空间中两个向量夹角的余弦值作为衡量 两个个体间差异的大小。余弦值越接
2、近1,就表明夹角越接 近0度,也就是两个向量越相似,这就叫“余弦相似性”。上图两个向量a,b的夹角很小可以说a向量和b向量有很高 的的相似性,极端情况下,a和b向量完全重合。如下图: 如上图二:可以认为a和b向量是相等的,也即a, b向量 代表的文本是完全相似的,或者说是相等的。如果a和b向 量夹角较大,或者反方向。如下图如上图三:两个向量a,b的夹角很大可以说a向量和b向量 有很底的的相似性,或者说a和b向量代表的文本基本不相 似。那么是否可以用两个向量的夹角大小的函数值来计算个 体的相似度呢?向量空间余弦相似度理论就是基于上述来计算个体相似度 的一种方法。下面做详细的推理过程分析。想到余弦公式,最基本计算方法就是初中的最简单的计算公式,计算夹角
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- stata 计算 余弦 相似