[GloVe]论文实现：GloVe: Global Vectors for Word Representation*-阿里云开发者社区

[GloVe]论文实现：GloVe: Global Vectors for Word Representation*

2024-05-09 20

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： [GloVe]论文实现：GloVe: Global Vectors for Word Representation*

一、完整代码

稍后补充

二、论文解读

2.1 当前存在的两种word2vec模型

word2vec的两个主要处理方法：

1) Matrix Factorization Methods，如潜在语义分析（LSA）

2) Shallow Window-Based Methods，如CBOW和Skip-gram

目前，这两个模型方法都存在明显的缺陷。虽然像LSA这样的方法很有效地利用了统计信息，但它们在单词类比任务上做得相对较差，这表明了一个次优的向量空间结构。像skip-gram这样的方法可能在类比任务上做得更好，但它们很少利用语料库的统计数据，因为它们训练的是单独的局部上下文窗口，而不是全局共现计数。

而GloVe能结合两种优点，通过只训练词共现矩阵中的非零元素，而不是训练整个稀疏矩阵或大型语料库中的单个上下文窗口，有效地利用了统计信息。产生了一个具有有意义的子结构的向量空间；

2.2 GloVe的原理

2.2.1 构建词共现矩阵

与LSA利用word和top构建词共现矩阵不同的是，GloVe利用的是word和word构建的词共现矩阵，实现原理很简单，利用Shallow Window-Based Methods 即n-gram构建词共现矩阵，接下来我们开始下一步的推导；

2.2.2 定义和推导

首先我们定义词共现矩阵为 X,其表示为中出现的次数；定义即所有词包含出现的次数之和；最后定义 ,表示出现在包含的上下文出现次数的可能性；

从图中我们可以看出，虽然k在ice和steam出现的概率不高，但是两者的概率的比值根据k值都有一定的变化，再根据k为solid或者gas的结果中我们可以看出，solid大于1对应分子，gas小于1对应分母；再从water和fashion两个与solid和gas几乎无相关的词的值在1附近可以看出，该比率能更好地区分相关单词和不相关单词；

在这里我们定义和这两个词的词向量为，随便定义一个映射函数,包含，不需要在意是怎么映射的；