尽管人类还没有成为 cyborg,但你的网页浏览记录,正在从“数字脚印”变成“互联网指纹”。

来源:数据实战派

图片出处:unsplash.com 图片出处:unsplash.com 

通常,网页浏览器会记录用户访问过的网站列表,即网页浏览历史记录,这对很多人来说也是特别熟悉的日常之一。

但是,如果网页浏览历史记录可以用来识别每个个体呢?我们下面要介绍的研究,恐怕会让你对这件习惯的事情有新的认识。

就在本月举行的 USENIX 会议上,Mozilla 的研究人员发现了其中的异样:他们对 5.2 万名(事先同意)的Firefox 用户在两周内的浏览历史数据集进行了分析,结果显示,48,919 份浏览资料具有可区分性,即 99% 的浏览历史是独一无二的。超过八成用户可通过浏览历史被识别身份。而且,只需要考虑 50 个最常用网站就足矣。

如此看来,尽管人类还没有成为 cyborg,但你的网页浏览记录,正在从“数字脚印”变成“互联网指纹”。

“互联网指纹”的

Mozilla 此项研究名为“Replication: Why We Still Can‘t Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories[1]“ ,其实是对2012年一项研究的进一步拓展。

此次论文。图片出处:usenix.org此次论文。图片出处:usenix.org

在 2012 年的研究中,研究者首先建立了一个测试网站,并使用 CSS 代码从 6000 个域名列表中识别出参与者访问过的网站。当时的研究结果显示,基于这 6000 个域名,参与的受试者,97%都形成了非常具有独特性的浏览历史,仅此数据就可以用来追踪确认这些参与者。

而 Mozilla 这一次研究所采用的数据则更精确,因为它收集了 5.2 万名参与者的全部浏览记录,数据包括对 66 万个独特域名的 3500 万次网站访问,也是该领域规模最大的一次研究。

参与者首先和 Mozilla 团队分享他们的浏览历史,然后,Mozilla 团队开始试验他们是否能从大量数据中重新识别出这些用户。令人惊讶的是,99%的浏览记录被发现具有独特性,能与用户“对号入座”。

有趣的是,2012年和2020年的两次研究,还证明了时代在不断“进步”:八年前,对于用户访问量最大的前50个网站,识别用户的准确率为38%,对于500个网站的数据集,准确率为70%;今天,以50个网站为基础的重新识别准确率为50%,以150个网站为基础的重新识别准确率为90%。

图片出处:usenix.org图片出处:usenix.org

事实上,网页浏览历史的性不难理解,因为用户偏好通常是固定的,一段时间的浏览习惯也会比较稳定,网页历史记录往往不会随着时间的推移而发生重大变化,而且某种程度上,它们能传达用户的丰富信息,甚至能捕捉用户的心理或用作人口统计数据。

由于网页历史记录的独特性和稳定性,在某些方面,它们确实类似于生物识别数据。

Mozilla 团队表示,“通过网页和第三方可见的浏览历史记录重新识别用户是充分可行的,而浏览历史汇总对个人隐私的潜在威胁也得到了证明”。

网页浏览记录会被明确划为“个人信息”吗?

更坏的消息是,团队观察到,众多互联网机构正无孔不入地收集这类信息,从而利用浏览记录建立用户档案或者作为标记符,在整个互联网上追踪用户及用户行为。

研究团队发现Alphabet、FaceBook理论上有着最高的访问记录识别率,图片出处:usenix.org研究团队发现Alphabet、FaceBook理论上有着最高的访问记录识别率,图片出处:usenix.org

而且和 2012 年相比,现在用户的访问历史记录规模又更大了,在过去十年中,网站运营商和广告商可获得的网页浏览历史数据的数量明显增加了,几乎所有网络都会记录用户的访问历史,例如搜索引擎、社交媒体、视频网站等网络平台等,几乎都能够看到自己的浏览历史,平台则会收集、利用这些数据,以提高自身服务,并进行更精准的广告投放。像谷歌、Facebook 这样的流量帝国,处理这些信息的次数和程度肯定会更多。

隐私研究人员、2012年论文作者之一的 Lukasz Olejnik 一语道破之:这项最新研究的发现能带来更深远的影响,因为它证实了网络浏览历史所具有的可被用于牟利的属性。

如果根据这些信息有可能从许多人中识别出特定的用户,这些信息也就具有了个人数据的属性。

目前,全球最权威的数据隐私法规之一《通用数据保护条例》(General Data Protection Regulation,GDPR),给出了判断某数据信息是否属于个人数据的技术标准:

(26) 经过假名化(pseudonymisation)处理的个人数据(如果结合其他数据)仍然有合理的识别到具体自然人的可能性,属于GDPR定义的个人数据。而已经匿名化(anonymous)的数据将无法识别数据主体,因此不属于GDPR定义的个人数据。需要注意,假名化处理是GDPR推荐企业采用的个人数据保护方式之一,但经过假名化处理的个人数据仍然属于GDPR管辖的范畴。

简而言之,当该数据能识别出个人时,这类数据将自动受该法规(GDPR)管辖。

而在我国,与个人数据隐私保护最直接相关的法律——《个人信息保》——尚未正式出台,但2019年10月发布的专家意见稿中,也已将“网络浏览历史”划入个人信息范围。

围绕这个话题,2020年国内也有一起非常典型的案例:爱奇艺的超前点播多重收费机制被其用户吴先生起诉,在败诉之后,又被指侵犯隐私,因为爱奇艺在案件庭审中提交了原告用户吴先生的观影记录,目前,对该案件的的审理还在进行中。无论最终结果如何,互联网平台的权限边界都应该退一退了。

最新文章
浅谈只要css就能实现的骨架屏方案

浅谈只要css就能实现

这篇文章主要介绍了浅谈只要css就能实现的骨架屏方案,
Dreamweaver代码怎么自动排版? dw代码格式化的技巧

Dreamweaver代码怎么

Dreamweaver代码怎么自动排?Dreamweaver中的代码看上去
网页简单布局之结构与表现原则分享

网页简单布局之结构与

一般来说html结构 css表现 javascrip行为,网页布局要考
隐藏 Web 中的元素方法及优缺点教程详解

隐藏 Web 中的元素方

这篇文章主要介绍了隐藏 Web 中的元素方法及优缺点教
ps怎么给图片添加放射性效果?

ps怎么给图片添加放射

ps怎么给图片添加放射性效果?ps中想要给图片添加放射效
PS怎么设计球形花朵状线条图案?

PS怎么设计球形花朵状

PS怎么设计球形花朵状线条图案?ps中想要设计一款立体的
最新资讯
南大西洋,地磁有个“坑”,需不需要担心?

南大西洋,地磁有个“坑

最近有些朋友在网上转,说美国国家航空航天局(NASA)公布的
为什么今年冬天新冠肺炎疫情可能会恶化?

为什么今年冬天新冠肺

现在要说新冠肺炎是否像流感一样是季节性的还为时过早
日(J)本(P)新研究:多喝绿茶和咖啡,可显著降低糖尿病患者死亡风险

日(J)本(P)新研究:多喝绿茶和

研究提出,每天既喝绿茶又喝咖啡或许能够帮助糖尿病患者
新方法描摹艾滋病病毒含糖屏障

新方法描摹艾滋病病毒

科学家发明了一种新方法,可以绘制出艾滋病病毒(HIV)光滑
新研究揭示:运动不仅能预防疾病,还能抗癌!

新研究揭示:运动不仅能

一项新研究阐明了运动抗肿瘤的生物学机制。T细胞识别
耳机可检测表情?戴口罩也行,华人科学家新发明让人脸变成"表情包"

耳机可检测表情?戴口

无需打字、无需搜索表情,只需对着手机微笑,就能发出微笑