English / 中文
三公消费龙虎榜
2013年08月14日 14:47

大家平时经常谈论三公消费,但什么是三公消费,三公消费到底包含哪些内容,怎么组成,如何评估多或少,这些问题没什么人给过仔细的说法。所以,实验室决定做这个选题,把三公消费从各个角度分析了一下。

《三公消费龙虎榜》是一个相对大型的作品,制作时间也比较长,需时一个月。三公消费非常适合用作数据新闻的题材,原因有三个:第一,三公消费数据量非常丰富,做数据新闻最怕的是数据不丰富、不准确。然而,各中央单位的三公消费数据在官方网站均有公布,所以实验室决定以此为作品选题。第二个原因是大家经常谈论三公消费,但什么是三公消费,三公消费到底包含哪些内容,如何组成,如何评估多或少,很少媒体对此作出详细解答。有见及此,实验室决定做这个选题,把三公消费从各个角度作出分析,发现三公消费超出预算的情况并不多,因为各单位在上报预算时已经控制三公消费支出,而且还能从作品中看到整体三公消费支出正在下降。

三公消费数据新闻是以中央数据为准,没有包含地方数据,因为中央数据比较全,地方数据不齐全。值得留意的是,虽然三公消费没有超出预算,但仔细分析其构成,还是很有意思的。比如,我们发现国家信访局的出国支出很高,宋庆龄基金会的招待费很高等等。但是在这些方面,实验室并没有尝试去下什么结论,因为要得出结论性,只有数据不行,还必须得有调查,才能够得出结论。我们纯粹根据数据挖掘去反映一些东西,这些东西是客观存在的,可能以前没有注意到的。

数据挖掘与处理
这个案例,数据量并不算大,数据挖掘是以人工采集的方式完成。其他情况下,对于数据量比较大的项目,实验室会运用脚本去抓取数据;比如《星空彩绘诺贝尔》,必须要通过脚本抓取数据,否则效率会很低。

<<返回
相关作品:
财新数据可视化实验室 | Caixin Data Visualization Lab联系我们财新网 caixin.com