第156章步步紧逼的追赶者(下)_穿越：2014(猪熊)全文无弹窗在线阅读-福利书屋

　　第156章步步紧逼的追赶者(下) (第6/10页)

处理方式又是引入降维。1

    这就会陷入一个疯狂套娃的循环之中。

    总而言之，对高维数据进行降维是一件超级麻烦的事情。

    在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。

    而不是等出现高维数据之后再进行低维处理。

    高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。

    很多东西因为麻烦就足以让人说再见了。

    繁复的过程意味着容易出错。

    而美好的事物所呈现的形式应该是简洁的。

    就像欧拉公式一般。

    正因为如此，伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。

    如果林灰想表达的意思不是对高维数据做手脚。

    而是说对传统的向量空间模型做文章？

    将高维向量空间模型转化为维度较低的空间向量模型？

    这种思路倒是不错。

    但这种尝试先前并不是没人做过。

    很早之前就有人进行了尝试。

    早在上世纪末期就有人提出了潜在语义分析模型。

    潜在语义分析模型是基于空间向量模型（VSM）而提出的。

    潜在语义分析模型其基本思想是在得到文本的空间向量表示后。

    通过奇异值分解，将高维且稀疏的空间向量映射到低维的潜在语义空间当中。

    在得到低维的文本向量和单词向量之后。

    再用余弦相似度等度量方式来计算文本间的语义相似度。

    潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音，从而提高计算