广外—密苏里新闻工作坊 Reuben Stern：数据新闻的力量与前景-新闻与传播硕士教育中心

12月15日，广东外语外贸大学新闻与传播学院与美国密苏里大学新闻学院主办的“2016广外-密苏里媒体融合与数据新闻工作坊”开展的第三天。密苏里新闻学院Reuben stern教授，在本次工作坊中带来了题为《数据新闻的力量与前景》的演讲。

密苏里大学新闻学院Reuben Stern教授

在之前的几天演讲中，教授多是谈论了什么是数据的可视化，怎样可视化的呈现数据以及数据可视化的益处，Stern教授在演讲刚开始就说了今天要多说些数据少说可视化。

首先教授进一步阐释了什么是数据新闻？教授用一个数轴图表将新闻简要分成了几大类别，并介绍了质化新闻的特征——偏向于口头访谈，感性化随性化，以此引出了和它呈现特征相反的数据新闻，严谨和实验性是数据新闻的主要特征。教授强调，数据新闻只是多种类型的新闻中的一小部分，是一个特殊的新闻类别。记者在对新闻数据进行分析的过程中有偏向质化的奇闻异事或者感性化的人物访谈，也可以嵌入到数据新闻中。

那么完成数据新闻需要干些什么呢？教授给出了几个步骤。收集数据，清理数据，分析数据，提炼出数据中的新闻，当然也不能忘了数据的可视化，并非每一条数据新闻都要进行可视化的最后操作，但是前面的步骤是不可缺少的。

做数据新闻，就要了解计算机代码和语言的使用。使用计算机代码，我们可以收集，组织和架构代表性的数据，并且自动化生成新闻，但不是每一次的新闻生成都需要计算机。我们使用电脑以及用可视化的方式呈现新闻只是想用更好的方式解释事实。Stern教授举出了《卫报》对于阿富汗战争数据的新闻报道，来自维基解密的9万行数据被《卫报》的工作坊人员进行了有效的清理和整合，利用不同颜色的圆点呈现战争交火点的分布、死伤人数、军队冲突等要素，每个圆点都附有相关的新闻链接。同时，《卫报》也设置了关键词的搜索，利于记者以及用户搜索需求信息。《卫报》在进行数据分析的同时，也对战争的相关人士进行了采访，量化和质化相结合。

接着，Stern教授列举出了八种数据新闻的类型。介绍的始末都以地方政府购买文件夹子为例。八种类型分别是度量、比例、内部比较、外部比较、历史性（时间性）比较、团队列表、分类分析、合作。

1、度量。政府在文件夹子上支出了许多费用，这个可以直接用数据经性统计；

2、比例。例如地方政府在夹子上的花费是总花费的三分之二；

3、内部比较。政府在夹子上的花费比帮助老人的福利开支要多；

4、外部比较。地方政府去年在夹子上的花费比对国外的海外救援花费要多；

5、历史性的比较。文具的花费与过去五年相比而翻倍；

6、团队列表。该国家的地区政府和其他类型或者全国的平均值相比较，就能看出该地区政府在夹子花费支出方面的异常性；

7、分类分析。可以对比不同区域的文具开支；

8、合作。帮助人们看到联系，发现联想性和关联性，数据显示该地区政府是因为获得捐赠而支出较大，他们比没有获得捐赠的地区在文件夹子上的花费要多得多。教授强调要给于这一类型更多的关注，要产生关联，就要重视因果关系和相关关系。记者应该注意数据间的巧合，不应该只是报导数据，或者进行分析，更应该看到数据间的联系，或者看到数据联系的背景和结果，才能够进行采访以及全面和多角度的报道。

这八类数据新闻的类型，也要具体情况具体分析，与不同的新闻相匹配，选择最合适的数据呈现方式。

接着，教授介绍了如何获得数据。首先通过下载格式合适的文件如：CXV、SML、EXCEL、JSON格式；其次可以通过人际获得相关的数据，但是这方面牵扯到部分任务的可实施性比较低，比如要获取到政府内部的数据就比较困难，但是如果其他公司或者是组织的数据相对来说会比较容易；第三，记者可以自己进行数据爬虫，搜索数据进行清理和架构。这个方法会花费较多的时间和精力，但好处也是显而易见的，自己建立的数据链条有其独特性，可以进行不同的分析形成多角度的报道；第四种方式就是众筹，网上通知各个群体而获取需要的数据。

那么如何进行数据搜索呢？Stern教授表示有些网站的数据并不是开放的，对方网站对数据的访问可能并不那么友好，这个时候我们就要编写代码对网络后台的数据进行重新的编写，并对网络语言进行分析。

那么如何建立自己的数据链？教授对这一问题的回答是运用了两个数据分析的例子。第一个例子是人们对于食物安全性的体验。在谷歌上做了健康食物前50的搜索，就可以看到普通民众认为的最健康的食物。通过数据的搜索也可以得出这样一些结论：营养师所认为的健康食物和普通人认为的健康食物有趋向上的一致，但对有些事物的认同感有非常大的区别比如能量棒。教授认为这一类事关人们健康的新闻，值得赞赏和推广，新闻界可以通过这种方式揭示一些普通的新闻报道难以发现的事情。

第二个例子是关于唐纳德特朗普在Twitter上的侮辱性话语分析，在Twitter这样一个重要的社交媒体平台上，特朗普的话语对几乎所有处于公共空间的人都进行了侮辱，这在政府官员中是很不常见的。《纽约时报》对特朗普的1000推送话语进行了量化分析。特朗普的推特话语被各个媒体所刊载，比如CNBC/ABC，在进行搜索和分析之后，《纽约时报》对他所做的语言和攻击做了可视化的展示，清晰的展示了每天侮辱了多少人，侮辱了什么类型的人，或者什么团体。可视化的方式也很多样，散点图分布，以及小集群图表的展示，能看到对希拉里克林顿或对不同的报纸媒体的攻击频率和时间。教授认为这种可视化方式也显示了《纽约时报》该媒体报道的水平。

关于众筹数据，教授用ProPublic——一个关于深度报道、数据新闻的网站为例，为我们展示了如何众筹出来所需要的数据。首先要选择一些人们真正关心的事情，或者对未来很重要的事情；其次要设置有趣的参与方式；第三要问到个人的经验和知识。

关于清理数据的步骤，教授介绍到首先要修正或者移除无效的数据；第二步就要对有效的数据进行排序和整理；第三我们需要借助计算机的帮助，用软件清理异常的变量。分析数据首先要估量价值的可信性，比如信源的可行性，其次一旦结束了分析，应该让一些数据专家检验一下看是否正确或者是否有遗漏以免使自己尴尬。

演讲进行到这个阶段，教授转换了方向，开始讲解新闻应用这个有趣的话题。什么是新闻应用？新闻应用允许用户用软件根据自身的情况联系数据。那么我们为什么要在新闻应用上花费时间？首先我们可以应用新闻应用打造数据工程，教授举了医疗、红外线摄像头、巴拿马文件泄露等几个例子。同时特别强调了《洛杉矶时报》的数据工程，数据工程的打造不仅可以和其他领域的新闻相结合，而且这种自动算法新闻可以省去我们的简单工作，人类记者可以有更多时间参与策划那些让我们可以获得普利策奖的报道。人类可以运用算法或者是电脑写故事。比如2014年，由机器人撰写的第一个关于洛杉矶的地震问世。伤亡人数、与其他地震的比较等首批类似于消息式的新闻都可以由机器人撰写完成，人类记者可以忙于其他类型的新闻报道。

提问环节

现场有学者对教授提出了这样一个问题：机器人写作是完成整篇文章还是只给出统计结果？教授表示机器人可以独立完全一篇基础性的消息类新闻，机器人或者是计算机有其模板和程式，可以报道震源深度、伤亡人数、震感、震级等基础的消息。模板会比较详细，也可以与上一次的地震相比较。但是要注意的是机器人完成的稿件也要经过编辑审核，并不能直接发表。

教授最后说道这样看起来荒谬的事情确实正在发生。洛杉矶时报的网站可以搜索到相关的机器人写作稿件。人工智能在新闻写作中的报道是一步一步来的，这种数据的填写还是比较初级的，但是还会不断地成长。我们应该思考作为人类记者所能增添的价值在什么地方？我们的新闻任务在什么地？计算机可以解答人类提出的问题，可是计算机在最初并不知道要关注什么问题，电脑需要人类给予问题，给出最初的趋势或者是框架来搜索和解答事件，这是人类的任务。这也是人工智能在未来新闻报道方面所要解决的主要问题。

认真做笔记的同学