Word Embedding
· 3 min read
info
在谈到 Embedding 不得不谈到 Word Embedding
单词的表达
One Hot Representation
类似于图像分类任务中的 One Hot 编码,我们可以对于单词施行 One Hot Representation.
实例
有 1000 个词汇量。排在第一个位置的代表英语中的冠词 “a”,那么这个 “a” 是用 ,只有第一个位置是 1,其余位置都是 0 的 1000 维度的向量表示,如下图中的第一列所示。

也就是说,
info
One Hot 编码的每个单词就是一个维度,每个单词之间是 independent 的
Distributed Representation
但是上面的编码方式很稀疏,丧失了单词之间的联系,有没有一种编码方式能够隐式的嵌入单词之间的关系?
考虑这样的表格:
| 0 | 1 | ||
|---|---|---|---|
| 0 | gender | female | male |
| 1 | age | child | adult |
这个表格中的 , 可以视为 “ 特征 “,而 则是该特征的特征值
我们手动寻求这四个单词之间的关系 ,然后可以使用在两个特征上的值去表示四个单词
info
