设为首页 加入收藏

TOP

【K哥爬虫普法】百度、360八年恩怨情仇,robots 协议之战终落幕(一)
2023-07-25 21:23:59 】 浏览:61
Tags:】百度 360 八年 robots 终落幕

00

我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用爬虫技术,警钟长鸣,做一个守法、护法、有原则的技术人员。

前情提要

《互联网搜索引擎服务自律公约》(简称《自律公约》)系在工业和信息化部的指导下,由中国互联网协会牵头组织十二家互联网企业于2012年11月1日在北京举行签订,参与企业包括:百度、即刻搜索、盘古搜索、奇虎 360、盛大文学、搜狗、腾讯、网易、新浪、宜搜、易查无限、中搜等。该公约第七条第一款规定:遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots 协议)。第八条规定:互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。

案情介绍

一审受理:2013年1月28日、二审终判:2020年7月3日,为期时长八年!

上诉人:

北京百度网讯科技有限公司(简称百度网讯公司)

百度在线网络技术(北京)有限公司(简称百度在线公司)

被上诉人:

北京奇虎科技有限公司(简称奇虎公司,360)

百度网讯公司和百度在线公司称,其相关网站均通过 robots 协议设置了访问限制,其 robots 协议采取的是“白名单”制度,即只有该文件中明确列举的搜索引擎的网络机器人才能抓取百度旗下相关网站的内容,未列举的其他搜索引擎均不能抓取。2012年8月16日,360 搜索引擎上线运营,但百度网讯公司和百度在线公司的相关网站的 robots 协议均未将 360 搜索引擎列入其“白名单”中。百度方面认为,360 搜索在未获得百度公司允许的情况下,违反业内公认的 robots 协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔1亿元

百度方面称,奇虎公司利用 360 搜索引擎等,强行抓取网民的浏览数据和信息到搜索服务器,完全无视 robots 协议,这一做法目前已经导致大量企业内网信息被泄露。2012年年底,百度工程师通过一个名为“鬼节捉鬼”的测试,证明了 360 浏览器存在私自上传“孤岛页面”等隐私内容到 360 搜索的行为。

360 方面则认为,360 搜索索引这些内容页面并不涉嫌侵犯百度的权益,实际上还为百度带来了大量的用户和流量,百度应该感谢 360。

百度公司在本案中指控奇虎公司的 360 搜索存在以下不正当竞争行为:

  1. 无视百度公司设置的 robots 协议,擅自抓取、复制百度网站相关页面并生成网页快照复制件存储于奇虎公司自身服务器中;

  2. 在明确得知百度公司拒绝其抓取百度网站内容后,仍然继续抓取、复制百度网站内容并生成网页快照复制件存储于奇虎公司自身服务器中;

  3. 在网络用户点击 360 搜索的搜索结果页中来自于百度网站的链接的标题时,直接向网络用户提供其复制存储在自身服务器上的“网页快照”等,上述行为构成不正当竞争。

奇虎公司也认为百度网讯公司、百度在线公司存在不正当竞争行为,奇虎公司提交的(2013)京方圆内经证字第00364号公证书、(2013)京方圆内经证字第06932号公证书、(2013)京方圆内经证字第11476号公证书及(2015)京方圆内经证字第00228号公证书显示,自2012年8月以来,百度网讯公司、百度在线公司一直在其相关网站的 robots 协议中排除 360 搜索引擎。百度网讯公司、百度在线公司对上述事实予以认可,但认为 robots 协议是国际通行的行业惯例和商业道德,允许和/或限制全部和/或特定搜索引擎抓取是 robots 协议的应有之义,百度 robots 协议的“白名单”制度仅允许特定的几家搜索引擎抓取,对除此之外的所有其他搜索引擎均不允许抓取,不存在不正当竞争行为。

奇虎公司提交的(2013)京方圆内经证字第05960号公证书显示,使用 360 搜索引擎搜索到百度的相关网站后,在点击访问时,会出现访问被阻断并跳转到百度搜索引擎网站的现象。奇虎公司认为百度采取的相关技术措施会导致网络用户在使用 360 搜索引擎时的用户体验度下降。百度网讯公司、百度在线公司对上述事实予以认可,但认为这是针对奇虎公司不遵守百度 robots 协议而采取的自力救济措施。

法院观点

百度网讯公司、百度在线公司通过设置 robots 协议的方式限制 360 搜索引擎对其相关网页的抓取与 robots 协议的初衷背道而驰。robots 协议的初衷是为了指引搜索引擎的网络机器人更有效的抓取对网络用户有用的信息,从而更好的促进信息共享,而百度网讯公司、百度在线公司的行为会造成网络用户通过 360 搜索引擎无法得到完整的搜索结果,人为设置了信息流动的障碍。需要强调的是,360 搜索引擎属于通用搜索引擎,而通用搜索引擎的网络机器人进入一个对公众开放的网站抓取信息通常并不会损害网站的利益,反而有利于其宣传推广。事实上,目前绝大多数网站对通用搜索引擎持开放、欢迎的态度,因为如果被搜索到,就意味着更多的网页浏览量以及由此而带来的潜在用户。也正是由于这个原因,绝大多数网站非但不会使用 robots 协议禁止通用搜索引擎抓取,反而希望能够更快的被搜索出来并展示在搜索结果中较为前列的位置,这也促成了搜索引擎竞价排名等商业模式的产生。而百度网讯公司、百度在线公司却在允许国内外主流搜索引擎抓取其网页内容的情况下,限制 360 搜索引擎抓取,其行为显然有悖于robots协议的初衷

就我国目前互联网搜索行业的发展现状来看,百度搜索引擎在市场份额上占据绝对优势,而 360 搜索所占的市场份额较小。在这种情况下,百度网讯公司、百度在线公司通过设置 robots 协议的方式限制 360 搜索引擎对其相关网站内容的抓取,会导致网络用户在使用 360 搜索引擎时无法及时获取所需信息,转而使用百度搜索引擎,这不仅会降低 360 搜索的用户满意度,损害奇虎公司的合法权益,也会在客观上增强百度搜索引擎的市场优势地位。不难想象,如果国内各主要网站都针对某一特定的搜索引擎以设置 robots 协议的方式限制其抓取,这一搜索引擎必然无法在市场上立足。事实上,包括互联网工程任务组在内的一些重要的国际组织拒绝采纳 robots 协议作为行业标准的原因就是考虑到少数行业巨头可能会利用 robots 协议本身的漏洞而将其作为垄断的工具。因此,百度网讯公司、百度在线公司以设置 robots 协议的方式限制 360 搜索引擎抓取的动机难谓正当

百度网讯公司、百度在线公司还主张其设置 robots 协议是针对奇虎公司的侵权行为而采取的自力救济措施,对此,如果网站所有者认为搜索引擎的抓取侵犯了其某项具体的民事权利,应当通过相应的法律途径寻求救济,而不应以限制互联网信息流动的方式进行所谓的自力救济,故百度网讯公司、百度在线公司的主张不能成立。

法院认为:百度在线公司、百度网讯公司在缺乏合理、正当理由的情况下,以对网络搜索引擎经营主体区别对待的方式,限制奇虎公司的 360 搜索引擎抓取其相关网站网页内容,影响该通用搜索引擎的正常运行,损害了奇虎公司的合法权益和相关消费者的利益,妨碍了正常的互联网竞争秩序,违反公平竞争原则,且违反诚实信用原则和公认的商业道德而具有不正当性,不制止不足以维护

首页 上一页 1 2 下一页 尾页 1/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇类属性和对象属性 下一篇odoo 给列表视图添加按钮实现数据..

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目