一、大数据与我们的生活
我第一次接触电脑是1982年大学毕业分到中科院理论物理所当研究实习员。所长周光召教授花了250美元从美国带来了一台刚面世的苹果电脑,让我第一次看到了电脑视窗,第一次意识到电脑里的数据是可以看得见、看得懂,而且还可以用来玩游戏。而在此之前的六十年代,周光召、于敏、何祚庥等科学家做核武器的理论设计,使用的还是手摇计算机。
研究生毕业以后,我被分配到新华社做记者,恰好赶上新华社全面采用电脑终端编辑英文新闻,使英文新闻的编发工作实现了电脑化。在此之前,记者要靠纸笔、打字机、传真机和电传机进行手工作业,编辑部门要把编好的稿件送到发稿部门,由报务人员按稿件先打字作电传孔条,然后再在各条线路的发送机上发出。使用终端机后,编辑记者可以在电脑上直接对稿件进行编辑修改。
我买的第一台个人电脑是中关村的组装机。那台电脑的操作系统是UCDOS,使用的是5.25英寸的软盘,容量是360K。我的第二台个人电脑的软盘已经更新成3.5寸的,容量也增加到1.44M,我的办公室现在还有上百张3.5寸的软盘,可惜现在已经不太容易找到能够读软盘的电脑了。光驱、移动硬盘、U盘打败了软盘,成为数据存储的主流,存储介质的容量也越来越大,几年前的U盘一般都是16M的,而如今64G的U盘都嫌不够用。
过去20年,我每次出国都要逛电子产品商店,看看有没有容量更大的移动硬盘或U盘。我现在使用的是两块1TB(1TB=1024GB)的移动硬盘,分别存储不同的文件。其中一块移动硬盘里存储着Foxmail邮件客户端,数据容量已经达到30GB,存储着我所有的电子邮件,我用Foxmail对邮件信息进行了分类,它就像我的一个私人图书馆一样,随时可以方便地查找资料。
我对“网络数据”的直观感受就是它的增长速度像原子弹链式反应一样,至今仍在加速膨胀。从2010年到现在这3年的时间,就积累了2T的数据,与前15年数据的容量相当。
我的办公室有一面墙的书架都是存放录音带、录像带、光盘和各类软盘的,存储着我从教书以来的所有影像、课件、资料,但是查找文件就像大海捞针一样。现在许多软件对数据分类和查找都支持得很好,如果能在一张移动硬盘上集中存储这些数据,自然要方便很多。但移动硬盘也不安全,既有被盗的风险,也担心使用中损坏。所以最终的解决方案还是要依靠云存储,所有的文件都存储在虚拟空间里,随时可以通过互联网找出来。
作为一名研究人员,我从事研究工作的基础是文献检索和综述,离不开数据的收集、分类、综述、摘要,这些工作在过去都是依靠纸质的报刊、图书文献,工作的方法是“剪报”,我从小学三年级开始剪报,一直到读研究生还保持着这个习惯。后来到新华社当记者,查找文献还是依靠剪报。再后来出现了电脑,的确给文献的收集和使用带来了方便,但由于太相信电脑,一旦系统崩溃了或硬盘坏了,数据就没了。
云计算的发展不仅使得通过互联网获取个人信息更加容易、可获取的内容也更多,而且在云技术环境下,大量用户的数据不再存放于个人电脑或移动硬盘中,而是存储在远在天边的云储存器提供商的服务器里。越来越多的像百度、腾讯、新浪微博、谷歌提供的网络信息服务,正在变成超级信息工厂和仓库。由于智能手机、平板电脑、社交媒体网站、电子邮件和其他形式的数字通讯的广泛使用,全球每天产生250亿字节的新数据。据IBM估计,在全球现存数据中,有90%是过去两年中产生的。据国际数据公司(International Data Corporation)预计,从现在起到2020年,数字世界的规模将每两年翻一番,和爆炸性的数据增长相伴随的,是大数据技术的快速发展。
大数据技术是指运用搜索引擎、社交媒体、各类网络数据库,实时聚集数以百万本书那么厚的文本和图像,用一种搜索、分类、分析的软件,通过高速的计算机运算和业内专家的研判,精确描绘现状并预测未来。比如,利用谷歌、腾讯、百度、微博提供的数据预测今年的流感、预测社会舆论的趋势。大数据正在彻底改变我们对政治、新闻、商业、健康、教育的认识。
大数据技术使对规模巨大的数字信息进行自动及瞬时的分析变成可能。而掌握这种技术的公司,就会成为别人数字资产的事实上的拥有者,这些公司运用大数据软件,跟踪分析社交媒体或搜索引擎,就有可能跟踪世界上几乎任何地方的人的活动和往来。运用大数据分析事物,其最大的特点,是帮助我们发现两个看上去毫不相关的事或人之间暗藏的关联。数据挖掘技术的提高使得目标信息能够被还原得更加准确。近年来,以微博、微信为代表的社交媒体受到热捧。人们热衷于在这些社交媒体上发布自己的照片、心情、行踪等各类信息。与此同时,服务器还会记录下用户的登录时间、信息消费习惯、地理位置等大量后台数据。以这些信息为基础进行数据挖掘,便能够准确地掌握需要的个人信息。目前为止,位置数据的使用者多是第三方——程序开发员,知名品牌和广告公司;“第二方”(电信商和设备管理者)拥有这些数据,而“第一方”,即我们每个人既无法得到数据也无法支配这些信息。中国移动推出的手机地图服务,通过你或朋友的手机号吗,即可找到你自己的位置或你好友的位置,体验大数据拥有者的概念,发现电信或网络公司是如何利用大数据对你的日常生活进行跟踪、监测和控制的。例如,美国国家情报局花更多的钱去挖掘元数据,而不再是窃听和偷听通讯内容。元数据指的是关于谁在打电话或发邮件的信息。美国法律和美国政策把通讯内容视为最为私密且最有价值的,但这在今天已经过时了。美国情报和执法部门使用大数据技术,能从手机蜂窝塔得到的数据跟踪一个人所在的海拔高度,精度足以确定该人在某栋建筑的某一层,甚至能够通过分析手机数据,寻求预测一个人最可能采取的路线。
当不同的数据流被整合到大型数据库中后,例如把使用手机的时间和地点与信用卡购物、银行卡电子收费系统的数据相匹配,数据分析师能获得一个人生活的不同侧面,而在过去,仅靠偷听他们的谈话绝对无法得到这么多。《自然》杂志发表的报告显示,打一次移动电话的地点、时间和内容等数据,足以在95%的情况下确定打电话者的身份。通过大数据,数据分析可以发现各种各样的关联。
英国《卫报》在2011年英国伦敦暴乱事件中成立了“解读暴乱”团队,广泛使用大数据,帮助读者更好地理解事态进展和背后原因。与此同时,《卫报》还与学界进行合作,邀请曼彻斯特大学的Rob Procter带领的学术团队一起研究社交媒体在暴乱中的作用。后者一共分析了260万条关于暴乱的推特(Twitter),观察谣言如何在推特上传播,不同的用户在宣传和散布信息中的功能,以确定推特和其他组织是否煽动了暴乱。《卫报》的“解读暴乱”数据团队使用简单的地图,显示暴乱发生地点的贫困程度,让“暴乱与贫困没有关系”的主流政治话语不攻自破。他们还制作了一段视频,将暴乱发生地和参与群众的家庭住址联系起来,显示出“暴乱通勤路线”,建模预测暴乱者最有可能采取的路线。此外,他们还展示出网络流言的传播途径。研究者按照话题将关于暴乱的推特分类,编码为重复、驳斥、质疑和评论,然后进行可视化处理。该研究发现了主流媒体在流言传播中的明显角色以及推特在矫正流言中的作用。
通过大数据的应用程序,人们可发掘大数据的意义。国外已经开发出软件查询所处地区的犯罪趋势,社区医生的安全执业记录,或是为他们选出的候选人的政绩。
二、大数据时代的舆论宣传
但是,研究人员在研究了谷歌、推特、百度、腾讯、新浪等搜索引擎和社交网络媒体后,开始预言大数据带给人类的危害:不会自我删除有害、仇视、无用、虚假信息和个人隐私的信息。 虚假、仇视和个人隐私的信息往往更容易聚集大量的信息和人群。如果有害的、仇视的和虚假的信息聚集得愈来愈多,大数据制造的人类大脑空间会带来一种世界末日的恐惧。牛津大学互联网学院网络治理与管理教授肖恩博格在其不久前出版的《删除》一书中指出,大数据让人类获得了前所未有的巨大能量,但是大数据同时带来严重的不良后果。例如,各类搜索引擎、社交媒体诬蔑他人的信息会永久性地留在那里。腾讯、谷歌、百度会记住我们搜索任何信息的内容、时间和地点。搜索引擎会记住你的那些你个人认为最好永远被遗忘的东西 —— 媒体断章取义报道的你的谈话、电脑合成的你的不雅照片和视频,这些虚假的内容和图像就如同你身上的纹身一样永远地把你留在大数据里了。在这样的大数据时代,我们生活在这样一个无边无际的时空里:无网络尽头的点击、无时间尽头的翻页、无边界尽头的信息聚集,越来越多的无用信息淹没相关信息,越来越远离自身真实需求的阅读。
2013年暑假,我带着学生,来到印度洋的一个海岛上,在无手机和网络信号的地方,听世界著名传播大师Miles Young讲大数据时代的新闻传播。他说,“如果你被手机和网络媒体利用,你就成了白痴。”
在网络上、在微博里看到温州动车事故大照片和200多万条围攻高铁的微博,是什么感觉?多数人这时想到的是:乘坐动车的风险太大!而没有想到其在现实生活中发生的概率。在这种时刻,很少有官员或记者有一种强大的内定力,不被这种具有强大的新闻价值、高情感的事件左右自己独立的思考和判断。更多的是跟随着高情感的故事去激动地发泄,而不是去冷静思考。科学家与媒体对风险的不同评估。科学家用数学模型和概率评估风险,媒体对风险判断基于新闻价值判断,而不是科学判断。天天发生的事情不是新闻,极少发生的事情成了大新闻。每年近十万人死在公路上不是新闻,而每年死在铁路上的十几个人就是天大的新闻。2011年7月22日“信阳大巴失火事故”死亡41人,但是在百度的新闻网页搜索中,只显示了19条搜索结果。而第二天发生的温州动车死亡39人的事故,在百度的新闻网页搜索中,出现了116万条新闻。
经过上面这一番分析,我们想想看,过去十年里,哪一条网上热炒的新闻让你变得聪明?你是希望理性认知世界?还是感性认知世界?
超过全国人口半数的人使用移动通讯设备,其中很多人每天早上醒来,第一件事就是看微博、查微信。这些人无论乘车、上班、上课、开会、吃饭、喝茶、聊天,每四分钟低一下头,一天要低头两百次,都是在转入“云端”去获取第一时间的新闻。
处在云端、靠大数据舞台支撑的社交媒体呈现给我们的内容越来越与我们的现实生活不相关。媒体和网络认为新闻的价值在于“新”,而不在于这条新闻对你个人的生活、职业、工作、教育、住房、看病、养老、收入等的“相关性”。多数社交媒体和网络的消费者在看新闻事件时,看不到这条新闻与自己的“无关性”。他们看到的,更多的是事件的“新鲜性”、“趣味性”。媒体和网络机构的口号是,让你第一时间获得新闻。好像你如果比别人早在媒体上看到这条新闻,你就比别人优秀和幸福。但是,我们每一个人问一问自己:我有必要第一时间看到这条新闻吗?第一个看到这条新闻的读者比最后一个看到这条新闻的读者真的更幸福吗?有人说,如果你不看新闻,你就会与现实舆情和主流社会脱节。但是,今天的越来越备受关注的网络舆情,更多的是媒体上的诡辩家和舆论领袖煽动乌合之众,为了某种个人的目的制造出来的。今天的舆情更多地依存于影星式的学者、影星式的记者、影星式的商人和影星式的政客为中心的伪舆情。正像美国哲学家埃里克?霍弗所描绘的,“一个国家最不活跃的人群,为占大多数的中间层次。他们是在城市工作和在乡间务农的正派老百姓,然而,他们的命运却受分据社会光谱两头的少数人——最优秀的人和最低劣的人所左右。”
在网上看社交媒体新闻,有点像得了白内障,失去大部分视野,只保留中央视力,只专注一件事,忽略了一个意义重大的趋势。只关注社交媒体的人,观点会非常狭隘,大脑集中在一个单一的想法、意见等,排除不同观点。社交媒体轰炸性地重复那些受众无能为力的新闻,受众越来越感觉被网络牵着走。我们一直这样被动地被网络牵着鼻子走下去,直到有一天,我们对社会产生了悲观的、麻木的、玩世不恭的和宿命论的世界观。我们最终患上了一种心理学上的抑郁症“习得性无助”,在看到网络对某件事的轰炸性报道后,会产生无助感,通常会从三个角度来处理问题:将个人投射到问题上,针对问题来内化自己;认为问题是普遍的,影响了生活中每个层面;认为问题是永恒的,不可能被改变。
社交网络媒体上的新闻好像是专门用来扰乱你的思考,不断用短时记忆把你的长期记忆偷走。人类有两种记忆力:长期记忆和短时记忆。长期记忆储存着无限的信息,短时记忆是瞬间即逝的信息片段。从短时记忆进入长期记忆要经过一个瓶塞,如果你要提高对事物的理解力,你必须进入长期记忆。但是,片段化的、瞬间社交网络新闻阻碍你进入长期记忆的通道,就像一部只有内存、没有硬盘的电脑,让人无法全面地、历史地、完整地、准确地把握一件事、一个人。
新闻传播的信息多是短时记忆,是今天或近期刚刚发生的瞬间的孤立事件,经过媒体聚焦、放大、炒作,变成了一件网上人人传播的关于一个人的真实事件。大数据的挖掘和舆情研判是关于一个人、一件事的完整画面和全部事实,是客观存在的,而不是媒体主观选择的。准确完整的科学判断比夸张和主观选择的舆情判断更重要。
运用大数据研判和预测社会舆情,必须坚持客观性和价值中立。价值中立是在大数据研究中不让学者的价值偏好对舆情的分析与结论产生影响。但当前,要防止某些部门和舆情公司呈送给党政有关部门的舆情报告往往刻意选取某些数据、剔除另一些数据。
三、大数据时代的舆情研判与舆论引导
习近平同志8.19讲话是做好社会重大舆情准确研判的指导思想。习近平说,“各级党委要负起政治责任和领导责任,加强对宣传思想领域重大问题的分析研判和重大战略性任务的统筹指导,不断提高领导宣传思想工作能力和水平。要树立大宣传的工作理念,动员各条战线各个部门一起来做,把宣传思想工作同各个领域的行政管理、行业管理、社会管理更加紧密地结合起来。”因此,大数据时代的舆情研判的基础必须是完整、准确和极速的信息抓取。准确的舆情报告需要纯粹的事实、一手的材料,是不经过修饰、篡改的事实性信息。但是,今天的舆情是可以被各方利益集团的政治力量和经济力量所操纵的,是主观选择的。完整的信息暴露的是赤裸的事实,这包括一手的文本、图片、音频、视频等。目前,向中央各部门报送舆情的机构很多。各利益集团也都在试图向中央呈送有利于自己政治议程的舆情报告,从内部影响高层。重大敏感事件发生后,一方面,某些网管用最快的速度封堵主观上认定的“有害信息”;另一方面,某几个有影响的舆情机构又依据某些利益集团的隐藏议程需要,选择性地编撰所谓“舆情报告”,向上呈送,影响高层对形势的研判。舆论的形成不是社会公众理性讨论的结果,而是网络媒体建构的‘意见环境’的压力作用于人们惧怕被群体孤立的心理,强制人们对所谓的‘优势意见’采取趋同心理和行动”。多数网民属于中下层社会,但网上的意见领袖和大V却是一个特殊群体。网上大V不代表社会不同阶层的全部民意,他们更多的是某既得利益集团的代言人,但他们以民意代表自居。一些利益集团精心扶植培育自己的网络代言人,引导网民去思考哪些问题、怎么去思考这些问题。结果,利益集团的代言人和舆论领袖对关键事件和问题的片面观点,导致很多网民和群众对事实真相的了解产生巨大的偏差。而这些片面、偏激观点却被包装成了“主流民意”或所谓的“真实的舆情”。网络媒体通过突出某些观点、忽视某些观点、给某些观点贴上“主流”和“正确”的标签、给某些观点贴上“非主流”和“谬误”的标签来影响和制约舆论。有的政府官员为了维护个人的形象,在舆论面前,把被利益集团精心策划的“网络多数人的意见“当成全部事实,用网上突发的新闻炒作这种短时记忆埋葬了头脑里更为真实、更为全面、更有价值的长期记忆。
正确的大数据环境下的舆情搜集是:不留死角、360度全视角、分秒不停地抓取全部的赤裸裸的数据,用大数据消除新闻制造的短时记忆,恢复科学的、真实的长期记忆。
在获取完整的全部数据的基础上,正确的舆情研判包括6个要素:
1.What:发现了什么敏感信息,这些敏感信息内容是什么?严重程度如何?关系到哪些部门和个人?
2.Who: 谁在撰写、发表、阅读、转载、评论、搜索这些敏感信息?
3.Where:在哪里可以找到敏感的信息?搜索引擎、网站、博客、微博、微信、论坛……
4. How:这些信息将(已经)如何传播?怎样去正确引导它在互联网上的影响?
5.When:你是不是可以第一时间得到这些敏感信息?
6.So what:这些信息传播到社会上又怎样?究竟有何严重的不良影响?值得我们或上级领导去花时间和人力去关注和干预吗?不进行舆论干预和引导又会怎样?
在大数据形势下开展社会舆情收集、研判和预警工作在于以数据挖掘、分词技术、语义分析、情感识别等技术为手段,建立高效灵敏的社会舆情软件系统并安排配套的工作机制,及时辨别舆情风险并发出预警信号,科学研判舆情热度、烈度、敏感度和扩散度,行之有效地干预应对。其中舆情研判的实现目标包括:
1、实现媒体报道、论坛贴文、博客文章、微博文章和新媒体互动讨论的全面舆情抓取和数据实时更新,舆情监测无死角。
2、实现对文本数据、图片数据、音频数据和视频数据的综合处理,攻克目前舆情处理局限于文本报道的技术瓶颈,舆情监测全覆盖。
3、实现对舆情数据的可视化展示,用图表呈现舆情的时间走势、地域分布、主题分布、文章排行、热度聚集、热词发现等舆情分析结果,辅助决策。
4、实现对相关热点话题的自动识别、智能聚类以及对传播路径的追溯、对议题漂移的捕捉和核心观点的摘要。
5、实现对舆情背后核心人物、核心媒体、核心机构的智能发现,以及关系分析和意见阵营分析。
6、实现对负面突发敏感舆情的及时预警,做到早发现、早预警、早引导。
舆情系统的风险预警应建立在对社会舆情大数据进行充分的数据挖掘、分析和研判的基础上,应用社会学、政治学、传播学、管理学等交叉学科的理论、原则、规律和方法,通过互联网和计算机软件技术平台,坚持定量研判、科学决策、多重模拟、人机结合的原则,对舆情风险进行预测、预警和干预,并应用虚拟现实技术,将警源、警兆、警情实行模拟预测,对于重大突发事件提供有针对性的危机处理对策。根据中国科学院牛文元教授的“社会燃烧理论”,把各种各样反社会主流的议论、见解和诉求作为“燃烧物质”的集合,随着时间的演变,舆论“场”中开始呈现出等级分布,将会催生向一致意见靠拢的机会,这可以理解为社会“助燃剂”在起作用,最终引发舆论形成的是某个突发事件或舆论领袖的言论,这就是具有临界阈值的“点火温度”。
舆情风险预警机制能否科学、准确地实现危机预警,是整个舆情系统成功的关键。在大数据时代,预警子系统的设计应遵循以下原则:
第一,重点监测原则。网络舆情的酝酿、发酵过程中,各方舆论领袖起到了关键性的作用,因此,要敏锐识别和观察各方舆论领袖;此外,既要对互联网进行全面信息扫描,又要重点扫描重点网站,一方面避免漏报信息,另一方面大大地减轻服务器的负荷。
第二,可操作性原则。网络舆情涉及多个变量,有些变量是难以进行量化测量的,因此预警指标应具有可操作性,并能够客观、准确地反映网络舆情风险的本质。可操作性是舆情系统的必然要求, 舆情系统的研究不能只停留在理论上,要论证预警指标体系能否符合实际需要, 指标的数量不宜过多, 层次不能过于复杂, 评估方法应该能够实现自动化。
第三,人机结合原则。再智能的计算机软件也难以匹敌经验丰富的专家人脑。一方面,舆情分析、研判、预警属于前沿探索技术,软件的准确率需要一定的时间和突发事件检验;另一方面,舆情隶属于社会科学范畴,诸如社会心理、网络情绪等纯主观舆情指标,很难分解为具体可量化指标。这些因素导致目前阶段舆情系统必须辅以一定的专家人工服务,尤其是在舆情预警、研判方面,能够提高舆情管理的效率和水平。
总而言之,在舆情研判和舆论引导中,要充分利用大数据技术,通过网络数据搜集的爬虫技术,360度全视角获取纯粹的事实、一手的材料,即不经过修饰、篡改的全部的事实性数据,去做出准确的舆情研判,为党和国家的科学决策服务。