大数据增强了瑞士的统计系统
在过去的几年中,已经从社交媒体,地理定位系统以及无人机和卫星的航拍图像等资源中收集,存储和共享了大量数字数据,这为研究人员提供了许多新的方法来研究信息和解密我们的世界。在瑞士,联邦统计局(FSO)对大数据革命及其为社会造福而产生预测性统计数据的可能性引起了兴趣。
普查和调查等常规方法仍然是在市政,州和国家各级生成社会经济指标的基准。但是,现在可以用来自手机订户和信用卡等来源的辅助数据(主要是预先存在的数据)对这些方法进行补充。根据FSO的2017年数据创新战略,“数据创新的目标是提高统计产品的质量,范围和成本效率,并减轻家庭和企业的响应负担。”
匿名数据
在此背景下,EPFL的城市系统人与环境关系实验室(HERUS)的一组科学家对保险公司持有的数据的新颖用途进行了开创性研究。该实验室的主要合作伙伴公司LaMobilière提供了成千上万保单持有人的匿名数据。这些数据包括年龄,住宅邮政编码,汽车和房屋所有权以及就业状况等因素。
“我们想看看我们是否可以使用这些数据来预测特定的社会经济指标,这些指标可以使我们更好地了解瑞士城市地区的质量。保险公司持有的数据的一大优势是,只要他们愿意共享它是因为它们已经存在,使用起来便宜,并且可以免费进行年度调查。”该研究的主要作者埃马努埃莱·马萨罗(Emanuele Massaro)说,该研究于3月3日发表在《PLOS ONE》上。
研究小组使用数据挖掘技术,提取了相关信息并将其汇总,以覆盖170个人口最多的瑞士城镇。他们总共获得了将近60万个配置文件,每个配置文件均由唯一的代码标识。“ LaMobilière的数据集非常完整;它包含广泛的信息,使我们能够考虑30多个变量,我们主要用来选择与每个社会经济指标最匹配的变量,”硕士生Lorenzo Donadio说。该研究的第一作者是EPFL的环境科学与工程专业的博士。
空间回归模型
科学家开发了一种空间回归模型,可以准确预测六个类别中的十二个变量:人口,运输,工作,空间和区域,住房和经济。“当然,我们的预测不能取代官方的人口普查,但它们可以用作年度路标。我们还想表明,保险公司的数据集除了用于营销和市场研究之外,还包含大量与社会相关的信息,以及保险公司应考虑与研究人员更紧密地合作。”马萨罗说。
该小组的统计模型仅出于研究目的而开发,因此没有实际应用。它可以用来帮助指导决策者,但是仍然需要定期的人口普查数据。LaMobilière的数据缺少某些信息,例如18岁以下的年轻人,但仍然代表了很大一部分人口。Massaro说:“城市决策者和政府统计部门可以使用我们的模型,这些模型可以将此类信息纳入其现代化工作中。保险公司的数据集非常精细,因为它们包含有关其客户的非常具体的信息。”