字体:大 中 小
护眼
关灯
上一页
目录
下一页
第155章 步步紧逼的追赶者(中) (第7/8页)
识别自然语言,往往将自然语言数值化。 而将这些数值进行属性区分则必须进行向量化。 这种方法已经有很长时间历史了,伊芙·卡莉记得在1977年(这个时空)就有研究人员首次提出向量空间模型VSM了。 一经提出这种研究方法就比较受欢迎。 虽然很快这种方法就被发现了有不小的漏洞。 利用VSM方法的话,当文本量很大时,生成的文本向量是非常稀疏的,这就导致了空间和计算资源的浪费; 另外VSM为达到简化模型的效果忽略了词语间的关系,而在很多情况下词语之间是存在联系的,因此简单地认为词语间相互独立是不合理的。 尽管有着明显的漏洞,但在之后近四十年的历史中,人们仍然要引入向量进行语义文本相似度分析。请下载小说app阅读最新内容 以伊芙·卡莉先前的团队,虽然他们在先前用的是基于网络知识计算文本相似度的方法。 但本质上也只是将Wiki百科中的网页内容映射为高维向量, 再通过基于向量空间的方法进行语义文本相似度计算。 可以说依旧没能离开向量空间的壳子。 虽然四十年后,当年遇到的所谓的“空间和计算资源浪费”某种程度上可以通过硬堆计算力可以暴力解决。 但这仅仅是能解决当年遇到的难题而已。 现在文本处理时面对的信息量复杂程度和当年完全不可同日而语。 此时的向量化面对着全新的困难——维度爆炸! 维度灾难(又名维度的诅咒)是一个最早由理查德·贝尔曼在考虑优化问题时首次提出来的术语,用来描述当数学空间维度
上一页
目录
下一页