第172章行业标杆？_穿越：2014(猪熊)全文无弹窗在线阅读-福利书屋

　　第172章行业标杆？ (第7/8页)

和一个异性聊一上午处理高维数据这种应用数学方面的东西。

    估计也兴不起什么异样的想法。

    和伊芙·卡莉的这次沟通，林灰稍稍有些意外。

    伊芙·卡莉领悟的很快，她已经大致了解了先前林灰给他说的应用分布式词向量处理原始数据。

    并且初步按照林灰先前所介绍的理论弄了一个分布式词向量的模型。

    这个模型虽然效率还不是很高，但已经有内味了。

    但她还是不是太明白究竟是如何做到的。

    其实这就涉及到监督学习和非监督学习之辩了。

    基于监督学习的方法:使用人工或半人工方式构建一批所研究领域内的文档的语料(用专用标记在文中标出要出现在最终的摘要中的句子)，然后选取适当特征训练相应的分类器或序列标注器，再用训练好的分类器或序列标注器对新的文档的每个句子进行标注，将标为候选的句子取出后拼接成摘要。

    基于非监督学习的方法:无需训练语料，直接使用某种启发式的打分机制(如tfidf、图算法等)为每个句子(或词)打分，以表名其在文章中的重要程度，选取分值最高的前若干个句子作为候选，将其拼接成摘要。对选词类的方法而言，则是选择分值最高的若干词作为文章的关键词，再使用这些关键词以一定的策略选择句子(如按含有关键词的数量等)，之后拼接所选句子成为摘要。

    基于监督学习的方法尽管能够更容易地捕捉更多细节，达到较好的精度，但其可扩展性也不高，因为不同领域内的规律也不尽相同，而对一个新的领