设为首页 加入收藏

TOP

记一次博客园随笔被爬经历(一)
2023-07-23 13:34:50 】 浏览:57
Tags:经历

上篇随笔发布后,一天内,十几个爬虫网站爬取了我的随笔,有些网站非但没有注明来源,反而将自己标为博文的原创者,并更改了图像水印,这篇被爬的随笔虽浏览量不大,但好歹是自己一字一字认真码出来的,被偷实在令人心情不爽,在本篇随笔记录一下。

目录

1 爬取事件时间线

1.1 【2022-11-21 09:39】本人发布随笔 C++ using 编译指令与名称冲突

该随笔地部分节选如下图。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

2022-11-23 晚上心血来潮,百度了一下自己的这篇随笔标题,发现在搜索结果的前几页没找到自己的随笔,反而看到了这些网站。

image-20221123233753252

1.2 【2022-11-21 09:47】被1024搜爬取 C++ using 编译指令与名称冲突

这个网站没注明来源,也没注明原文作者,光秃秃地爬取博客原文。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.3 【2022-11-21 10:02】被copyfuture爬取 C++ using 编译指令与名称冲突

这个网站注明了来源,并给出了原文链接以及原作者的版权声明,符合转载规范。由于防盗链的设置,图片没有被盗取。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.4 【2022-11-21 10:02】被soolco爬取 C++ using 编译指令与名称冲突

这网站没注明来源,也没注明原作者,图片没有被盗取,谷歌浏览器访问这个网站还会提示存在风险。

image-20221124003044615

1.5 【2022-11-21 10:05】被脚本之家爬取 C++ using 编译指令与名称冲突

这个网站注明了原作者,但没有给出原文链接。图片链接地址的格式为 https://img.jbzj.com/file_images/article/202211/xxxxx.png,他将图片盗取后放在了自己的网站上。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.6 【2022-11-21 10:13】被秒客网爬取 C++ using 编译指令与名称冲突

这个网站没注明来源,也没注明原文作者,光秃秃地爬取博客原文。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.7 【2022-11-21 10:39】被易采站长站爬取 C++ using 编译指令与名称冲突

这网站不仅没注明来源,还将文章作者以及图像水印都改为“易采站长站”。本人博客图片使用的是阿里云OSS,并设置了防盗链,图片依然被这个网站盗取,经查发现他把图片弄到了自己的网站上,图片链接地址的格式为 https://www.easck.com/d/file/p/2022/11-21/xxxxxxx.jpg,看来为了盗取完整的博客,这个网站还是下了一番功夫的。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.8 【2022-11-21 10:50】被编程客栈爬取 C++ using 编译指令与名称冲突

这网站只注明了原作者,但没有给出原文链接,图片也被爬取后放在了自己的网站上。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.9 【2022-11-21 11:46】被凤凰社爬取 C++ using 编译指令与名称冲突

这网站没注明来源,将作者更改为“凤凰社小编”,并将图片爬取后放在了自己的OSS上。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.10 【2022-11-21 11:48】被IT大王爬取 C++ using 编译指令与名称冲突

这网站也没注明来源,还将文章作者改为“IT大王”,甚至写了个版权声明,要求转载注明他是原作者。不过原博文的图片没有被偷,查看丢失的图片链接地址,发现就是自己的阿里云OSS地址,看来设置的图片防盗链起到了作用。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.11 【2022-11-21 时刻不明】被易学编程网爬取 C++ using 编译指令与名称冲突

这网站也没注明来源,文章作者被写为 admin,原博文的图片也被他偷了,不过水印还在,查看图片链接地址,发现是自己的阿里云OSS地址,按 F12 查看请求图片时的 Referer,发现并没有设置 Referer,即 Referer 为空,由于设置的防盗链与 Referer 有关,因此防盗链没有起到作用。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.12 【2022-11-21 时刻不明】被BBSMAX爬取 C++ using 编译指令与名称冲突

这网站也没注明来源,将原作者写在了很不起眼的地方,原博客的图片没有被偷,图片链接地址的格式为 https://pic.ikafan.com/imgp/xxxxxx.jpg,看来这个盗图的技术不如易采站长站,图片没有被偷过去。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.13 【2022-11-21 时刻不明】被IT学院爬取 C++ using 编译指令与名称冲突

这个网站注明了来源,并给出了原文链接,符合转载规范。图片链接地址的格式为 https://imgs.itxueyuan.com/xxxxxxx.png,同易采站长站一样,将博客图片弄到了自己的网站上。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.14 【2022-11-21 时刻不明】被花朝爬取 C++ using 编译指令与名称冲突

这个网站注明了来源,并给出了原文链接,符合转载规范,图片没有被爬取。

Oh Shit!-图片走丢了-打个广告-欢迎来博客园关注“木三百川”

1.15 【2022-11-21 时刻不明】被云海天教程爬取 C++ using 编译指令与名称冲突

这个网站连带着博文的签名也爬取了,同时额外地给出了原文链接,符合转载规范,图片链接地址的格式为 https://www.yht7.com/upload/image/2022/11/21/xx

首页 上一页 1 2 下一页 尾页 1/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇<一>继承的基本意义 下一篇<九>理解虚继承和虚基类

最新文章

热门文章

Hot 文章

Python

C 语言

C++基础

大数据基础

linux编程基础

C/C++面试题目