设为首页 加入收藏

TOP

Eclipse中调试Nutch2.0
2014-11-24 12:29:32 来源: 作者: 【 】 浏览:1
Tags:Eclipse 调试 Nutch2.0

很早官方就开始了nutch2.0的研发,而一直都是两线同时研发的,一个是普通版,一个是gora版本,也就是nutch2.0。下面介绍下怎样把项目导进eclipse中,这里我们的存储层使用nosql cassandra,本来想先使用mysql试试,发现启动不了爬虫,调试下发现原来还没有完全实现gora的sql数据库的存储功能,所以选择易用的cassandra作为测试。


需要知识:nutch基本知识,cassandra基本知识,用maven管理项目,用git管理下载项目。


需要工具:安装有maven插件的eclipse(插件可以通过eclipse的market place下载)


1.下载导入项目


先从https://github.com/apache/nutch/tree/release-2.0把nutch2.0项目下载下来(windows点zip按钮会打包下载)


eclipse中把项目导进去(file-import-maven-existing maven project)


2.添加依赖


导进去后src/java和src/test已经是源文件目录了,还必须把


/conf


/src/plugin/protocol-httpclient/src/java


/src/plugin/urlfilter-domain/src/java


/src/plugin/lib-http/src/java


/src/plugin/protocol-http/src/java


/src/plugin/urlfilter-suffix/src/java


/src/plugin/urlfilter-regex/src/java


/src/plugin/lib-regex-filter/src/java


/src/plugin/urlnormalizer-basic/src/java


/src/plugin/urlnormalizer-pass


/src/javasrc/plugin/urlnormalizer-regex/src/java


/src/plugin/scoring-opic/src/java


/src/plugin/parse-html/src/java


这些基本插件添加到classpath中,parse-html还需要用到额外的jar包,


还要nekohtml、tagsoup这两个jar包。我们在下面的pom中添加。


3.添加额外的jar包到pom文件


添加下面依赖到pom.xml文件,去掉原有的gora-core和gora-sql依赖


如果下载不了gora的包,可以到http://gora.apache.org/releases.html#Download下载后放到maven仓库。


】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇C语言:未格式化的行I/O 下一篇用Qt开发Symbian应用程序

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容:

·CPython是什么?PyPy (2025-12-26 06:50:09)
·Python|如何安装seab (2025-12-26 06:50:06)
·python要学习数据分 (2025-12-26 06:50:03)
·每日一道面试题-多线 (2025-12-26 06:20:17)
·java项目中哪些地方 (2025-12-26 06:20:14)