捕捉互联网中的有效信息

  如何从海量的互联网信息中获取有用信息?中国工程院院士、东南大学未来网络研究中心主任李幼平带领团队制订的一种针对网络搜索的“统一内容标签”,可以帮助人们在海量信息中直抓要害。目前,以东南大学作为第一起草单位制定的国家标准《统一内容标签格式规范》,已由国家质量监督检验检疫总局、国家标准化管理委员会正式批准颁布,为我国大数据规范标引、高效共享等提供了关键标准支持。

  什么是“统一内容标签”?举例来说,打开一个网络搜索引擎,输入“企鹅”,可以看到搜索结果里有直播平台、游戏、电影、动物等,“统一内容标签”可以通过统一“关键词”“信息分类”等规范,剔除80%“文题不符”信息,通过与之前统计的用户搜索习惯、搜索兴趣等,推送用户感兴趣的话题。

  “统一内容标签”从解决互联网资源难找、难管和失序等问题入手,采用内容驱动理念对内容标识进行全新设计,形成生产、消费和管理的三位一体的内容大数据创新标识体系,提高海量内容的聚合和分析能力,建立“内容自寻网民”的主动服务机制。

  东南大学计算机科学与工程学院副教授杨鹏介绍,比如还是搜索“企鹅”,各大网站加了“统一内容标签”后,每个信息中企鹅的分类,是什么、干什么、什么时间地点发生的,都有明确划分;根据用户之前的搜索兴趣,自动把有针对性的内容推送给用户。例如早前的网络谣言,“碘盐可以预防核辐射”,如果各大门户网站启用了“统一内容标签”,在用户搜索此事时,就会把“碘盐和核辐射的关系”“权威部门对此事的发声”“其他门户网站的相关报道”等信息打包进行推送。这样一来用户就能看到各方观点,也就对信息有了更全面的判断。“其实,就是把散货变成集装箱。”杨鹏说。