字体:大 中 小
护眼
关灯
上一页
目录
下一章
第254章 风起赫尔辛基(5) (第5/5页)
是结构化进行过一定处理的数据。 而暗数据很大程度上是未被结构化处理甚至很是“乱糟糟”的数据。 此二者的价值是不可同日而语的。 单位标注数据的价值往往几十倍甚至于几百倍于单位暗数据。 两三亿美元就算是换取较为昂贵的跨语种语言类标注数据都能换上几亿条。 更何况说拿几亿美元去换暗数据呢? 可想而知,两三亿美元涉及到的暗数据是一笔相当可观的暗数据。 林灰那有很多前世的信息。 但也绝不可能有满足蘋淉胃口的暗数据。 不要说是林灰前世那点信息了。 就是像國内有的忝居互联网巨头之列外强中干的互联网公司所拥有的暗数据规模也未必能满足蘋淉的胃口。 这种情况下如果林灰对蘋淉的这笔巨额收购感兴趣的话似乎只能去收集暗数据了。 至于如何去收集呢? 暗数据的收集方式多种多样。 因为暗数据包括用户活动日志、客户对话或电子邮件记录、服务器监控日志、视频文件、物联网产生的机器和传感器信息。 暗数据还可能包括由于存储在过时设备上而无法再访问的数据。 这种情况下很多时候清理活动日志或者说收集存储碎片的时候都有可能顺手牵羊搞到一些暗数据。 除此之外还有很多种收集暗数据的方式。 说起来虽然很容易。 但正所谓抛开剂量谈毒性都是耍流氓。 同样的道理抛开数据规模谈咋挖掘数据同样是耍流氓。猪熊的穿越:2014
上一页
目录
下一章