Python爬虫爬取博客园并保存

TOP

Python爬虫爬取博客园并保存(一)

2017-10-09 17:00:47 【大中小】浏览:3600次

Tags：Python 爬虫博客保存

爬取博客园指定用户的文章修饰后全部保存到本地

首先定义爬取的模块文件：

crawlers_main.py 执行入口
url_manager.py url管理器
download_manager.py 下载模块
parser_manager.py html解析器（解析html需要利用的内容)
output_manager.py 输出html网页全部内容文件（包括css,png,js等）

crawlers_main.py 执行入口

 1 # coding:utf8
 2 from com.crawlers import download_manager
 3 from com.crawlers import output_manager
 4 from com.crawlers import parser_manager
 5 from com.crawlers import url_manager
 6 
 7 
 8 class SpiderMain(object):
 9     def __init__(self):
10         self.urls = url_manager.UrlManager()
11         self.downloader = download_manager.DownloadManager()
12         self.parser = parser_manager.ParserManager()
13         self.output = output_manager.OutputManager()
14 
15     def craw(self, root_url):
16         html_root = self.downloader.download(root_url)
17         new_urls = self.parser.parseUrls(root_url,html_root)
18         self.urls.add_new_urls(new_urls)
19         count = 1
20         while self.urls.has_new_url():
21             try:
22                 new_url = self.urls.get_new_url()
23                 print('craw %d : %s' % (count, new_url))
24                 html_cont = self.downloader.download(new_url)
25                 new_data = self.parser.parse(new_url, html_cont)
26                 self.output.collect_data(new_data)
27                 if count == 1000:
28                     break
29                 count += 1
30             except:
31                 print('craw failed')
32 
33         self.output.output_html()
34 
35 
36 if __name__ == "__main__":
37     root_url = "http://www.cnblogs.com/zhuyuliang/"
38     obj_spider = SpiderMain()
39     obj_spider.craw(root_url)

crawlers_main.py

url_manager.py url管理器

 1 # coding:utf8
 2 class UrlManager(object):
 3 
 4     def __init__(self):
 5         self.new_urls = set()
 6         self.old_urls = set()
 7 
 8     def add_new_url(self, url):
 9         if url is None:
10             return
11         if url not in self.new_urls and url not in self.old_urls:
12             self.new_urls.add(url)
13 
14     def add_new_urls(self, urls):
15         if urls is None or len(urls) == 0:
16             return
17         for url in urls:
18             self.add_new_url(url)
19 
20     def has_new_url(self):
21         return len(self.new_urls) != 0
22 
23     def get_new_url(self):
24         new_url = self.new_urls.pop()
25         self.old_urls.add(new_url)
26         return new_url

url_manager.py

download_manager.py 下载模块

 1 # coding:utf8
 2 import urllib2
 3 
 4 
 5 class DownloadManager(object):
 6 
 7     def download(self, url):
 8         if url is None:
 9             return None
10         response = urllib2.urlopen(url)
11         if response.code != 200:
12             return None
13         return response.read()

download_main.py

parser_manager.py html解析器（解析html需要利用的内容)

 1 # coding:utf8
 2 import re
 3 from HTMLParser import HTMLParser
 4 
 5 from bs4 import BeautifulSoup
 6 import urlparse
 7 
 8 import sys
 9 reload(sys)
10 sys.setdefaultencoding('utf-8')
11 
12 class ParserManager(HTMLParser):
13 
14     def __init__(self):
15         HTMLParser.__init__(self)
16         self.links = []
17 
18     def handle_starttag(self, tag, attrs):
19         # print "Encountered the beginning of a %s tag" % tag
20         if tag == 'img' or tag == "script":
21             for (variable, value) in attrs:
22                 if variable == "src" or variable == "href":
23                     self.links.append(value)
24         if tag == "link":
25             dic = dict(attrs)
26             if dic['rel'] == "stylesheet":
27                 self.links.append(dic['href'])
28 
29     def parse(self, page_url, html_cont):
30             if page_url is None or html_cont is None:
31                 return
32             soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')
33             new_data = sel

首页上一页 1 2 下一页尾页 1/2/2
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：python 异常处理	下一篇：python抓取NBA现役球员基本信息数..