5 亿份简历数据被爬取后出售，领英诉爬取者为何陷入困局？_数智化讯_新闻

5 亿份简历数据被爬取后出售，领英诉爬取者为何陷入困局？

日期：2021-07-01 浏览：294 评论：0

核心提示：6月14日，美国最高法院要求下级法院重审领英诉讼竞争对手抓取用户公开资料一案。此前的裁决认为，领英不应禁止竞争对手hiQ Labs从领英用户公开的个人资料中收集用户信息。领英认为，运用“机器人”对用户资料进行大规模抓取会严重威胁用户隐私。而对手hiQ Labs则辩称，自己并未出售用户信息，领英的诉讼目的是垄断公共数据

6月14日，美国最高法院要求下级法院重审领英诉讼竞争对手抓取用户公开资料一案。此前的裁决认为，领英不应禁止竞争对手hiQ Labs从领英用户公开的个人资料中收集用户信息。

领英认为，运用“机器人”对用户资料进行大规模抓取会严重威胁用户隐私。而对手hiQ Labs则辩称，自己并未出售用户信息，领英的诉讼目的是垄断公共数据，会伤害互联网的开放和创新。

尽管hiQ Labs未出售抓取的用户信息，但对领英来说，数据被各种爬虫工具抓取导致的“用户隐私风险”确实存在。今年4月，有媒体报道，从5 亿份领英简历中抓取的数据存档在一个黑客论坛上被出售。

对手抓取用户公开数据，领英认为威胁隐私

领英是微软旗下拥有7亿多用户的职场社交平台，大量用户在该平台上公开自己的教育背景、从业经历等个人信息。hiQ Labs是一家数据分析公司，该公司官网介绍“运用机器学习技术向企业提供员工离职风险和技能分析，帮助HR更好地做决策”。

领英对hiQ Labs的诉讼始于2017年，反对hiQ Labs用“机器人”在网站上抓取用户资料。在该诉讼中，领英援引了美国反黑客的《计算机欺诈和滥用法案》（CFAA），该法案禁止未经授权访问他人计算机。领英称，hiQ Labs对用户数据的大规模自动抓取，违反了领英用户协议中的访问和使用限制，等同于黑客行为，威胁到用户的隐私。

hiQ Labs 辩称，公共数据必须保持公开，大公司不应以垄断的方式囤积公共数据，领英的诉求会影响互联网的开放和创新。而且，hiQ Labs只将抓取的信息用于宏观分析，并未售卖用户的个人资料。

2019年，法院做出判决，领英败诉。判决理由是，CFAA法案不禁止公司抓取可在互联网上公开访问的数据。

值得一提的是，该法案于1996年颁布，在近几年引发越来越多的争议，被很多人批评“已跟不上时代发展”。

随后，领英诉至最高法院，认为hiQ Labs的自动抓取软件“机器人”可以大规模收集数据，远远超出任何个人查看公共资料可带来的后果，不能等同于互联网的一般访问。

最高法院要求上诉法院重审此案，这或许将给领英一个机会保有对用户数据的控制权。

事实上，不论领英诉讼的真正动机是垄断还是保护用户隐私，其主张的数据抓取风险已被证实。今年4月，微软发布公告称，领英的一些数据已被抓取并发布出售，包括可公开查看的用户个人资料。尽管微软没有说明多少用户的资料被售卖，但有媒体报道，从5 亿份领英简历中抓取的数据存档在一个黑客论坛上被出售。

四年诉讼无果，数据爬虫是否违法难界定

从2017年至今，领英的反数据抓取诉讼已经过了4年，至今未有结论。有律师认为，如果法律禁止“机器人”对互联网上的公开数据进行抓取，那么所有的搜索引擎都将不复存在。

领英曾在2019年起诉100个未具名的数据抓取者，请求法院揭露这100个IP地址背后的爬虫者身份。这份诉讼书中介绍，领英通过拦截工具来防止数据抓取行为，这些工具可以监控用户的网络流量，并限制用户查看的个人资料的数量以及用户查看这些个人资料的速度。因此，当爬虫软件访问网站时，会被识别为异常流量而被拦截。

但领英会将谷歌这样的搜索引擎网站设置到“白名单”中，这些受信任网站在访问领英时，可以抓取公开数据，不会受爬虫拦截工具影响。2019年，在面对媒体询问“好的抓取”和“坏的抓取”的区分标准时，领英没有给出明确答案。

一方面，搜索引擎作为互联网非常重要的一部分，其对网页的抓取正是利用爬虫工具。如果禁止爬取数据，搜索引擎将不能使用。另一方面，进入大数据时代，非法的数据爬取带来的负面影响正不断显现。

2019年，南都曾报道大数据爬虫黑产，揭秘非法抓取用户数据的黑色产业链——“专业老手”编写爬虫软件、提供软件定制服务、黑产团伙购买软件批量生成“大数据”信息再转手出售。

2020年，美国的人脸识别公司Clearview AI声称其从公开的社交网络上收集了超过30亿张人脸照片，引发外界强烈批评，Facebook、linkedIn 和 Twitter 均要求该公司停止收集行为。今年2月，加拿大隐私监管机构裁定，Clearview AI的行为违反了加拿大隐私法。此前，Clearview AI已经因违反美国伊利诺伊州的生物识别保护法而面临集体诉讼。

打赏

免责声明：
本网站部分内容来源于合作媒体、企业机构、网友提供和互联网的公开资料等，仅供参考。本网站对站内所有资讯的内容、观点保持中立，不对内容的准确性、可靠性或完整性提供任何明示或暗示的保证。如果有侵权等问题，请及时联系我们，我们将在收到通知后第一时间妥善处理该部分内容。

5 亿份简历数据被爬取后出售，领英诉爬取者为何陷入困局？二维码

扫扫二维码用手机关注本条新闻报道也可关注本站官方微信账号："chrmers",每日获得互联网最前沿资讯，热点产品深度分析！

0 条相关评论

• 联想控股：打造创新创业生态圈，长期陪伴中国硬	• 德科集团与Salesforce携手推出新公司，助力企业
• IBM携手英伟达AI数据平台，加速企业AI规模化应	• 讯飞智能办公本X3功能升级，搭载讯飞星火x Deep
• 持续推进"人工智能+"行动，‌天津石化携手中控	• 万古科技值人力资源管理系统推出27周年之际，召
• 易路iBuilder智能体平台：AI进化关键之年，AI+H	• 易路《AI在企业人力资源中的应用白皮书2.0》重
• 上海外服人力资源AI智能助手“云知道”接入Deep	• 禾蛙接入DeepSeek，关注AI技术新趋势与猎头价值

BSI最新研究发现，中	IBM 发布 2024 年第一
Oracle 推出新一代 Fu	北森发布iTalentX7.0