设为首页 加入收藏

TOP

C++ 实现网络爬虫(二)
2015-07-20 17:50:07 来源: 作者: 【 】 浏览:7
Tags:实现 网络 爬虫
? ? startupWSA();
? ? Go("www.hao123.com", 200);
? ? cleanupWSA();
? ? return 0;
}
复制代码
该爬虫只花了1个小时左右.
?
其实我想说, 写的很烂, 大伙不要喷.
?
?
?
http协议, socket, 正则表达式咱们就不说了..
?
说说这个原理,?
?
所有的 URL 全都放在 urls 这个队列中.
?
首先要 push 一个根 URL.
?
之后爬虫就行动了.
?
过程大概是这样:
?
从urls取出一个URL => 读出URL网页全部内容 => 分析所有URL => 把URL放进 urls => 从 urls 弹出一个 URL.
?
?
?
URL 是 host + get.
?
因此需要一个 binaryString 把它切开.
?
效率也不是很快, 1分钟大概4W条URL, 去掉重复至少也有好几千吧.
?
?
首页 上一页 1 2 下一页 尾页 2/2/2
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇hdu 4971 多校10最大权闭合图 下一篇HDU-4973-A simple simulation pr..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

·Announcing October (2025-12-24 15:18:16)
·MySQL有什么推荐的学 (2025-12-24 15:18:13)
·到底应该用MySQL还是 (2025-12-24 15:18:11)
·进入Linux世界大门的 (2025-12-24 14:51:47)
·Download Linux | Li (2025-12-24 14:51:44)