KazMuzik.net
Music / Technology / Healthcare / Immigration / アメリカ
Google
 
<< 計算例 - やさしい経済 #3ContentsArcFileWriter - sampo nutch project #5 - Heritrix #3 >>

Heritrix 2.0.0 - KazMuzik Blog
2008-04-01 20:04




このブログでは、crawling に関しては、nutch を紹介して、去年から使ってきましたが、その他の Java で書かれている open source の crawler には、Internet ArchiveHeritrix があります。最近、2/20/2008 に、2.0.0 と major release があったので、紹介します。

ソースとバイナリは、sourceforge.net から、ダウンロードできます。バイナリには、Java API ドキュメントが含まれていないので、ソースも入手して、今後のために、Javadocs を作成しておきます。
$ cd /usr/local
$ tar zxvpf /tmp/heritrix-2.0.0-dist.tar.gz
$ tar zxvpf /tmp/heritrix-2.0.0-src.tar.gz
$ cd heritrix-2.0.0
$ mkdir -p docs/api
$ javadoc -d docs/api `find project/*/src/main/java -name '*.java' -print`
...
$ 

Tags: computer_technology