数字化和天生的数字新闻使机器能够跨越数亿甚至数十亿条新闻文章来梳理 社会的宏观层面模式,为我们了解我们生活的 打开了难以置信的可能性。在地理上聚合媒体是检查不同国家或地区如何覆盖主题或事件的常见方式。例如, 各国的国内媒体如何覆盖特定的公众人物?
进行这种分析需要能够按来源国对 上的每个新闻分类进行分类。总之,把纽约时报放在美国,英国的BBC,中国的新华社等等。
乍 看,确定每个 新闻媒体的地理位置可能看起来相对较小。毕竟,新闻机构往往是具有邮寄地址,注册地址,总部办公室和注册到实际位置的域名的法人实体。然而,这种简单性掩盖了将事件分配给新闻媒体这样简单的非常现实的复杂性。
从历史上看,“whois”域名注册信息是识别新闻媒体的来源国的快速方式。人们可以运行 个简单的“whois”请求,并获取新闻插件网站的邮件地址,这可能会导致其城市和原籍国。然而,由于新闻媒体所有权的复杂性,这很快就会崩溃。对于洛杉矶时报,这将历史上取得伊利诺伊州芝加哥Tribune公司作为其网站的所有者,而尼日利亚新闻网站Vanguard News的网站已注册到位于英格兰什罗普郡Bridgnorth的 个小屋,人口为12,000。在 的 些地区,覆盖少数民族社区或反对派团体观点的较小网点在国外注册和经营,通常在欧洲或美国。
在其他情况下,拥有多个办事处的网点经常会将其域名注册到他们的美国或欧洲办事处。例如,allAfrica有办事处 在开普敦,达喀尔,阿布贾,蒙罗维亚,内罗毕,华盛顿特区,但在历史上用他们的特区办公室的地址上的文件他们的网站。
较小的网点很少在他们的网站上列出邮寄地址,而其他网站则列出了他们律师事务所的地址或集中邮件转发和扫描到PDF服务,这意味着即使只是搜索电子商务网站也不 定会产生地址。
此外,迅速增加的新闻网站部分使用域名隐私服务,作为中间人屏蔽他们的联系信息不受公众的看法,使得whois数据在今天几乎无用,用于识别出口国的原籍国。
新闻媒体也倾向于优 考虑“.com”域名,而不是使用其国家的国家特定顶 域名。即使那些使用特定国家顶 域名的网点也可能运营其他通用“.com”网站,例如BBC的双bbc.co.uk和bbc.com以及卫报的guardian.co.uk和guardian.com。
考虑到甚至20年前集中式网站托管的普及,以及将托管服务留给专用云设施的近乎普遍的做法,而不是在网站上运行网站,托管该网站的服务器的物理位置也是该网点位置的不可靠指标 个位于地下室的扫帚壁橱里的服务器。
从数据的角度来看,所有这 切令人着迷的是,当人们挖掘域名注册,合并文件,总部位置,邮寄地址和其他关于新闻网点位置的“传统”数据源时,人们可以看到这样的 :不 定与这些网点的消费者看到它们的方式保持 致。
AllAfrica的网站可能是在华盛顿特区办事处注册的,但大多数读者可能会认为它是 个以非洲为重点的出口,而不是美国的出口。同样,Vanguard News的网站可能已经注册到英国的 个乡村小屋,但它很可能被视为尼日利亚的 个出口。事实上,在 范围内,域名注册和注册地址的地理格局与我们对这些网点的看法并不完全 致,特别是对于新闻自由退化的国家中较小的网点。
还有什么方法可以对 新闻媒体的地理景观进行编目?特别是在可扩展的方式下,每天都可以快速自主地对新网点进行分类,因为它们每天都会在 范围内联机。
种方法就是要利用所有新闻报道中固有的地理偏见 - 新闻媒体优 考虑当地的事件和对 其他地区的问题。反过来,这种地理亲和力也会影响我们看到的出路。在英国注册的 家人权报纸,其管理层设在伦敦,但其报告人员驻扎在叙利亚,并将其大部分报道重点放在叙利亚,这可能会被大多数读者视为叙利亚的 个分店。在网络时代,地理焦点比地理位置更重要。当然,这并不总是奏效,因为 个国家的政府拥有的宣传机构可能每个都专注于该国政府感兴趣的国家。然而,即使在这里,与在该国土地上开设出口的传统替代方法之间几乎没有区别。
地理偏见如何转化为新闻插播地点的目录?
简单的方法,即搜索由出口商发布的国家名称提及的每篇文章,毫不意外地工作得很差。原因?“纽约时报”没有在美国的每 处提及“美利坚合众国”这 简单事实。“纽约时报”认为,当它提到弗吉尼亚州时,它的读者会认识到弗吉尼亚州是美国的 部分,因此它不需要说“美国弗吉尼亚州”。
相反, 好的方法是文本地理编码,其中每篇新闻文章的全文都是通过识别可能提及的位置的算法来处理的,然后使用文章的全部内容来确认提及并消除其位置(分离例如来自法国巴黎的伊利诺伊州的巴黎)。通过在地理上注释随时间推移出版商发布的每篇新闻文章,然后简单地将每个出版物分配给其关注的大部分国家,事实证明,我们 终得到了相当精确和高度准确的 媒体地理目录。
在实践中说明这种方法的过程中,我的开源GDELT项目在过去三年中以超过65种语言监测了超过7.5亿份 新闻文章,对其中的每 篇都进行全文地理编码,编制了超过62亿次的位置文字提及。
作为现代基于云的分析工具的强大证明,使用Google BigQuery平台的单行SQL代码可以处理这62亿个位置提及,并为GDELT监控的近20万个在线新闻网点生成 终地理估计,全部只需16秒以上。
综合起来,我们经常谈论使用大数据来揭示 的“普遍真理”。实际上,即使是 普通的问题,例如在地图上放置新闻插件的位置,也可能有不同的答案,具体取决于所看到的数据集以及查看问题的镜头。将新闻媒体放置在其合法注册地点,邮寄地址或其网站所有者的位置,会产生与新闻普通消费者看到许多这些媒体的消息不 致的明确地图。相反,通过将他们的所有文章进行地理编码,并将这些网点视为收集了超过62亿的位置信息,我们通过地理镜头看到新闻报道,并能够利用报告的地理亲和力将网点放置在读者看到的地方。