English / 中文
博客:
【资源】数据新闻实用法宝——入门篇

“2014年亚洲数据新闻工作坊”上,导师课上演示了多个数据新闻工具,现为大家带来几个入门级工具的介绍、使用方法、经典案例等资料。这些工具都十分直接易用,并且没有技术要求,尤其适合初学者。

作者陈嘉慧为财新数据可视化实验室助理。

请关注微信公众号:“财新数据可视化实验室”或“caixinvislab”

屏幕快照 2015-02-16 上午10.59.47

文章原刊载于数据新闻网(djchina.org),点击原文可连接至数据新闻网文章页面,获取文中工具、案例的链接。如需转载,请按数据新闻网要求标明版权。

不久之前撰文分享过,我在“2014年亚洲数据新闻工作坊”的所学所得,文末列举了一系列导师们在课中演示过的数据新闻工具,惟当时介绍得比较简单,所以希望再借这个平台,更具体地介绍各工具的使用方法、经典案例等资料。这些工具都十分直接易用,而且均为免费资源,并且没有技术要求,尤其适合初学者。

数据挖掘工具

1. Import.io

一句话介绍:Import.io自动识别网页结构,抓取内容,并转化成表格供使用者下载,不要求使用者写任何代码,最适合用于内容量大,并且内容格式统一的网站,产品展示网页是一个典型例子。同类型工具有Kimono。

最近跟朋友讨论东南亚的电商市场,提到有“亚洲亚马逊”之称的Lazada。这家电商已经横扫包括新加坡、泰国和印尼等东南亚新兴市场,亦有人将之视为中国品牌登陆东南亚市场的最佳平台。既然耳闻这现象,不如就统计一下有多少部中国品牌手机已经进驻这个网站。

11-315x194

商品资料排得方方正正,虽然适合展示,却不适用于数据分析,需要用Import.io将内容导成表格。

2-1024x528

Import.io自动识别网页的结构,并将内容转化成表格,同类型内容会自动归类排列,如Import.io抓取了不需要的资料,可以将之删除。 把表格导入MicrosoftExcel,进行更进一步的数据清洗与分析。

案例:
WhatMusic Matters Most to KEXP
美国西雅图的地区广播电台KEXP,在其官方网站上提供一个实时更新的播放列表,将电台自所播放过的音乐都记录下来。数据分析家兼音乐爱好者Jewel Loree统计了2013年KEXP所有播放过的音乐。她用Import.io抓取了网站的数据,利用Tableau(将于下一部分对此作介绍)制作成可视化图表,并以不同角度作分析,例如统计不同时期,电台的音乐总播放率。

3

按星期统计的电台音乐播放率,可以看到有些日子的音乐播放次数特别少。

2. Cometdocs
一句话介绍:Cometdocs将PDF文档转换成MicrosoftWord, Excel, PowerPoint等格式文档。同类型工具有:Cloudconvert。

许多机构发表公开报告时,都会选择以PDF文档形式发布,以确保文档内容与格式,在不同的设备和平台上都能够忠实再呈现,杜绝内容缺失、格式错位等情况。以PDF文档发表资料显得正式,也符合读者的阅读习惯,但PDF文档却不太支持数据分析,拷贝表格到其他程序常错格式,逐字敲打又费时失事。当记者收到PDF格式的数据表格时,可使用Cometdocs将表格转成Excel或其他格式的文档,方便分析。

4-1024x588

以上是2014年全球各国的人类发展指数,刊载于同年的人类发展报告,报告以PDF格式发布。 5-1024x630

Cometdocs能将PDF文档转成不同格式的文档,如MicrosoftWord、Microsoft Excel、Microsoft PowerPoint等。

3. Wayback Machine

一句话介绍:WaybackMachine提供网站历史备份查询服务,适合用于需要长期追踪的调查报道。

之前的文章提到,任何人或机构只要上网,都必定留下“网上足印”,Wayback Machine能帮你翻出这些脚印。这个工具自1996年起,定期访问全球网站,抓取信息,收录并备份,不过它不保证能把网站每一个版本全部抓取。

7-978x1024

只要将网址输进Wayback Machine,就能查看网页的备份历史备份。

数据可视化工具

4. Batchgeo

一句话介绍:Batchgeo能批量标注地图位置标记,最适合用于分析和呈现具有区域特征的数据。同类型工具有:地图汇。

地图可视化是数据可视化的重要分支,此项技术将不同区域或地点的数据,标注在地图上,旨在让读者更容易明白数据在不同地域中的分布和规律。地图可视化尤其适合用于对地区社会问题的研究和报道,例如贫穷与社会保障网络的分布,基础设施在富人区是否更完善等。大家都会关心,自己生活的地方附近,医疗设施是否完善,想查证的话,可以运用Batchgeo,批量把城市的公共医院、诊所在地图上标注出来,再作分析。

10

把公共医院的地址(先用其中4家医院举例),根据Batchgeo给的格式,制作成Excel表格。Batchgeo调用Google Map,批量标注地点。记者得出地图后,可以加入其他参数,如各地区的平均收入、平均年龄等,深入探讨一个城市的医疗网络。

案例:
SexOffender Data by ZIP Code
美国新闻网站Detroit Free Press利用Batchgeo,将密歇根州的性犯罪者分布,制作成数据新闻。密歇根州法律要求警方公开性犯罪者名册,市民可在名册网站,输入地址,查看附近社区的性犯罪者的资料。报道中,记者查考该州份的性犯罪者名册,并按社区人口,计算出每1000人口中,性犯罪者(服刑中的性犯罪者除外)的数字,批量标注在地图上。

111

5. Tableau

一句话介绍:Tableau支持快速海量数据分析,可视化图表制作和共享。同类型工具有:Silk、Plot.ly。

Tableau简单易用,十分适合初学者。它的另外一个优点是,国内有公司专门代理,并提供中文版,而且网上有许多讨论群组和资源分享,要搜寻教学资料和案例,绝无难度。Tableau能接入多种、多项数据源,图表的选择亦非常丰富,自由度高,记者可灵活根据数据特征制定可视化图标。Tableau在国内有收费版,亦提供免费版Tableau Public,惟免费版用户无法在电脑本地保存图表,接入数据源的类型和大小都亦有所限制。

屏幕快照 2015-02-16 下午4.43.12

Tableau界面简单,容易操作。

案例:
Metro Vancouver Commuting Pattern
除了之前介绍过的WhatMusic Matters Most to KEXP外,在这个数据新闻案例中,加拿大新闻网站Vancouver Sun收集了大温哥华地区里居民的通勤数据,在Tableau中进行处理,并制作成可视化图表。

13

读者可选择城市,并查看当地市民的通勤目的地与人次。

以上工具均简单易用,并且免费,在资金和时间都紧缺的新聞編輯室里,绝对是记者的好帮手;亦是新手了解数据结构和可视化呈现的入门法宝。

财新数据可视化实验室 | Caixin Data Visualization Lab联系我们财新网 caixin.com