穿越:2014_第243章 拔剑四顾心茫然? 首页

字体:      护眼 关灯

上一页 目录 下一章

   第243章 拔剑四顾心茫然? (第6/6页)

员的工作是使用相应的工具从互联网上抓取、收集数据,包括文本、图片、语音等等。

    然后对抓取的数据进行整理与标注。

    这些数据标注员工具体的工作流程一般很明确:

    首先,标注人员经过培训,确定需要标注的样本数据以及标注规则;

    而后,根据事先安排好的规则对样本数据进行打标;

    其次,对标注完以后的结果进行合并。

    而算法数据标注员稍稍有别于一般的数据标注员。

    相比于一般的数据标注猿,算法数据标注猿往往在完成以上的步骤之后。

    还要通过标注的数据喂模型进而调试模型。

    尽管工作流程只是多了这一步,但专业的算法数据标注员依旧是凤毛麟角。

    从先前罗列的任务也可以看出算法数据标注员的任务不仅仅是数据标注。

    往往还需要根据标注的数据进一步评估算法模型。

    如此一来很多时候对书记标注员的要求是这些人不光要进行数据标注。

    还得懂相应的算法。

    而这样的人很多时候可以说是凤毛麟角。

    而且因为这种专业标注的人员很少。

    往往专家级标注只能够胜任千量级的数据。

    对于大规模数据标记和超大规模数据的标记任务想要依靠专家标记很多时候只能是力不从心。

    对于大规模数据标记和超大规模数据标记往往只能寻求众包了。

    众包模式是将零散的个人(包括兼职)、小标注团队,整合到平台上,完成一个完整项目的服务模式。

    这种模式的主要优势成本很低,且比较灵活。

    通常情况下,这两种模式的区分并不大。猪熊的穿越:2014

加入书签 我的书架

上一页 目录 下一章