字体:大 中 小
护眼
关灯
上一页
目录
下一页
第243章 拔剑四顾心茫然? (第4/6页)
标注数据量较小的情况下,很多时候是不足以训练一个性能优异的机器学习算法的。 从这个角度出发,就不难理解数据为什么可以换钱。 很多时候甚至可以完全可以把数据理解为是一种隐性的知识。 而数据标注的过程实际上就是将散漫自有的离散数据结构化、标签化的过程。 在算法和数据之外,所谓的狭义知识是什么呢? 狭义知识一般指通过规则或词典等形式由人工定义的显性知识。 狭义知识主要包括三种: ——即语言知识、常识知识和世界知识。 其中,语言知识是指对语言的词法、句法或语义进行的定义或描述。 其主要特色是定义了同义词集合。每个同义词集合由具有相同意义的词组成。 常识知识是指人们基于共同经验而获得的基本知识。 世界知识包括实体、实体属性、实体之间的关系等。 或许有人不理解? 为什么这类知识能换钱呢? 这些东西不都是显而易见吗? 这些知识虽然本质上依旧是人们所能理解的显性知识。 但对人们来说显而易见的显性知识,不等于对机器是显而易见的。 对于这类知识往往要通过规则化或者是词典化将这些知识整理成让机器理解的形式。 这类知识往往通过知识图谱的形式加以描述和存储。 常识往往是不言自明的,并没有记录为文字,所以很难从文本中挖掘到。 著名的Cyc项目试图将上百万条知识编码成机器可用的形式,用以表示人类常识。 狭义知识也被称为专家知识。 最早涉及到自然语言处理方面的模型数据的时候
上一页
目录
下一页