深圳市少年宫

当谷歌遇上流感:透视网络技术监测传染病优劣

当谷歌遇上流感:透视网络技术监测传染病优劣
 
■本报实习生 段歆涔
 
今年流感在美国的暴发比往年要早,在肆虐的流感面前,一项用来监测流感暴发的尖端技术也暴露出了自身的缺陷。和传统监测系统的对比数据显示,通过和流感相关的互联网搜索,来估计流感传播状况的谷歌流感趋势系统(Google Flu Trends),大大高估了流感的峰值水平。专家说,对于这项具有前景的战略来说,这次的故障不仅仅是一个暂时的挫折,更意味着谷歌需要改善它的算法系统。由于流感跟踪技术是基于网络数据挖掘和社会媒体扩散,谷歌发生的这个插曲也是个适时的提醒:如今的技术并不能完全取代传统的流行病学检测网络,它们只能起到补充作用。
 
挑战传统
 
法国监控网络创始人、巴黎第六大学的流行病学家Alain-Jacques Valleron说:“脱离现有的系统是无法进行疾病检测的。新系统的运行在很大程度上依赖于过去的检测系统。”
 
自2003年以来,今年是美国流感暴发最早的一年,从2012年11月起流感开始蔓延,圣诞节刚过似乎就直逼上限。这也导致了更多严重的疾病和死亡案例,尤其是对老年人的杀伤力更大。因为正如2003年一样,今年引发流感的病毒也是H3N2——它是3个主要季节性流感病毒中最致命的一种。
 
传统的流感监测在一定程度上取决于来自内科医生所报告的病例。他们通过国内网络报告疑似流感病例(ILI)。这类病人通常具有一系列症状,例如高烧。这些病征可用来确诊是否罹患流感。这种监测在随后得到了改进:通过检测一定数量具有类似症状的群体,来确定哪些人患有流感,哪些人不是。
 
自从1984年建立起监控网络以来,法国成为第一个开展电脑化监控的国家。之后许多国家也开发了类似的网络:例如由位于亚特兰大的疾病控制和预防中心(CDC)监控的美国系统包括2700个医疗中心,每年约发现3000万例患者。
 
然而,当今几乎覆盖全球的互联网和迅速发展的社交媒体平台(例如推特)让人们看到了希望:这些技术可以更容易、更快速地估评ILI,并覆盖更广泛的人群。
 
这些新系统源自谷歌在2008年推出的技术。基于谷歌和CDC的研究,新系统依赖数据挖掘记录和计算机模型的结合,谷歌搜索引擎会显示与流感相关的搜索字词。该系统得出数据的准确性和CDC自身的监测数据不相上下,而且它的速度比CDC快,可以提前CDC数日发布数据。该系统已被推广到全球29个国家,并被拓广到监测另外一种疾病——登革热。
 
出师不利
 
谷歌流感趋势系统运行得相当好,多个国家的研究者证实,其对ILI的估计是准确的。但是最近美国流感季节的到来似乎让谷歌的算法有些措手不及。它估计的流感峰值几乎是CDC的两倍,有些地方的数据甚至显示出更大的差距。
 
这并不是流感给谷歌的第一个下马威。早在2009年,H1N1(猪流感)流行伊始,谷歌模型严重低估了ILI的数量,迫使该系统不得不修改算法。在当年那个罕见流感肆虐的大背景下,这个故障被认为是人们搜索行为的变化所导致的。
 
谷歌不会对今年的困难作出任何评论。但是研究者暗示:这些问题可能归因于媒体今年对美国面临的严峻的流感季节的广泛报道,例如纽约州上月发布的公共健康紧急状态的公告。这些发布的报告可能会使很多未患病的人加入到与流感有关的研究中来。但是,对于谷歌流感趋势能在改进模式之后重新获得原先的领头地位,一些人持怀疑态度。
 
来自哈佛医学院的流行病学家John Brownstein说:“你需要持续地去调试这些模式,他们不能独立于大环境工作,你每年都需要重新校准它们。”
 
与其他很多研究者一样,Brownstein尝试利用网络的力量,设立一种由普通民众自愿参与,而非医生组成的卫生网络,民众可以在网站上报告自己或者有流感疑似症状的家人的情况。于2011年创建的“流感在你身边”系统现拥有4.6万名参与者,已覆盖了7万人,由Brownstein最初创立的波士顿儿童医院的“健康地图”负责运营。
 
风起云涌
 
类似的系统在欧洲如雨后春笋般出现。例如,仅仅于一年前设立的、由法国研究者与国家卫生机构联合运营的GrippeNet.fr已经吸引了超过5500名参与者,并且每周都有60~90名新人加入。
 
CDC流行性感冒监督与疫情应对小组负责人Lyn Finelli认为,这类大众外包技术具有极高的可信度,特别是由于问卷是根据ILI的临床定义所设计,数据非常准确。并且,无论是“流感在你身边”还是GrippeNet.fr的参与者,年龄都分布在不同的区间。为促进其发展,CDC与“流感在你身边”已经展开了联手协作,Finelli自己也加入进来并表示:“我每周都在网站提交我家人的数据。”
 
其他研究者则把目光投向了推特网。它可能是除社交媒体外,可供公众选择的一个获取信息的最大渠道。一些团队的研究显示:推特网上发布的流感相关模型可以近乎完美地替代ILI的官方数据,并且它还提供多种多样的服务,例如MappyHealth以及Sickweather,可以实时地测试天气并对流感的危害程度给出可靠的评估。
 
但是Finelli对此持怀疑态度。她说:“推特网分析的可信度远远不如谷歌流感趋势系统和‘流感在你身边’。”她认为推特网上的信噪比非常低,并且大多数推特网的活跃用户是年轻人,因此不能代表社会大众的状态。
 
来自马里兰州巴尔的摩市约翰斯·霍普金斯大学的电脑科学家Michael Paul不认同Finelli的观点。他是开发基于推特网的疾病监控服务的小组成员之一,他说,谷歌搜索词汇的数据可能具有同样多的噪音。而且,尽管基于互联网的调查可以减少无用信息,但是由于较少的样本容量因此极易导致样本误差。Paul说:“我不认为来自社会媒体的被动监控总是可以比来自民众自发参与的调查获得更多的数据。”
 
为了减少无用信息,约翰斯·霍普金斯大学的团队最近已经对几千条与流感相关的推特信息进行了分析,以便梳理出哪些信息是由真正患有流感的民众所发布,哪些仅仅只是在发布流感新闻的链接。团队继而利用这些信息去重新整理他们的模型,将与流感不相关的信息剔除出去。Paul说,一篇被接受了的论文可以体现他们改进工作的成果。
 
网络数据挖掘和大众外包跟踪系统已经成为流感监控的重要手段。Finelli说:“我负责美国的流感监控,一直都关注谷歌流感趋势系统和‘流感在你身边’;此外,还密切关注美国政府设立的监控系统。我想了解最新的事态以及确认是否有我们遗漏的地方,或者判断来自其他系统的不同观点是否有我们值得借鉴之处。”

 
图片来源:《自然》
 
《中国科学报》 (2013-02-21 第3版 国际)

收藏 打印文章 点击: