第156章步步紧逼的追赶者(下)_穿越：2014(猪熊)全文无弹窗在线阅读-福利书屋

　　第156章步步紧逼的追赶者(下) (第7/10页)

准确度。

    虽然这种思路不错，但这种方法并没有普适性。

    这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。

    这种做法使得计算复杂度增高，并且可移植性较差。

    在这种方法提出来之后。

    并不是没人尝试对这种方法进行过改进。

    同样是上世纪末。

    有研究人员提出了概率潜在语义分析模型。

    这种模型是基于概率，而不是基于奇异值分解。

    这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。

    而后使用期望最大化算法训练主题，并找到一个概率性的潜在主题模型。

    以此用来预测文本空间向量中的观察数据。

    在这种概率潜在语义分析模型中，多义词被归入不同的主题下，而同义词被归入同一主题下。

    这样可以避免同义词和多义词对文本相似度计算的影响。

    然而，概率潜在语义分析模型的参数随着文档数量的增加而线性增长。

    很容易出现过拟合和泛化不良。

    这种情况很大程度又是因为维度爆炸。

    因为过拟合只在高维空间中预测相对少的参数和低维空间中预测多参数这两种情况下发生。

    一个为了避免维度爆炸而提出的模型却出现了维度爆炸。

    多少有点悲剧。

    事实上，并不是只有上述两个模型提出来。

    这之后还有很多研究团队都在从模型层面的做了不同程度的尝试。

    但这些模型要么是南辕北辙，不利于降维。

    要么是在降维的同时又带来了新的问题。

    总之，这些模型都有各