KazMuzik.net
Music / Technology / Healthcare / Immigration / アメリカ
Google
 
<< ContentsArcFileWriter - sampo nutch project #5 - Heritrix #3ローン - やさしい経済 #4 >>

ARC File - Heritrix 2 - #2 - KazMuzik Blog
2008-04-02 12:38




Heritrix では、crawl したデータを、ARC File という基本的には、テキストファイルに書き込みます。ひとつの ARC File には、複数のコンテンツを含むことができます。各コンテンツの先頭には、1行のテキスト形式のヘッダが付き、URL などといっしょに、コンテンツのサイズ(bytes)も持っています。このサイズだけ skip すると、次のヘッダへ進むことが出来ます。このような仕様になっているため、バイナリのコンテンツを持つこともできますが、検索のために HTML だけを crawl してくれば、テキストファイルになるわけです。ただし、crawler は、通常、エンコーディングの変換まではしないため、コンテンツ部分は、バイナリとして扱うのが、正しい作法です。もともとは、Alexa で使用されていたフォーマットのようです。

Java の API にも、org.archive.io.arc パッケージ があり、Java からアクセスすることが可能です。Heritrix 2 の lib ディレクトリには、たくさんの jar ファイルがありますが、Heritrix のものは、commons-2.0.0.jar, engine-2.0.0.jar, modules-2.0.0.jar の 3つです。org.archive.io.arc パッケージは、commons-2.0.0.jar に含まれていて、fastutil-5.0.7.jar に依存しています。これらを $SAMPO_HOME/lib にコピーしておきます。
$ cd /usr/local/heritrix-2.0.0/lib
$ cp commons-2.0.0.jar $SAMPO_HOME/lib/heritrix-commons-2.0.0.jar
$ cp fastutil-5.0.7.jar $SAMPO_HOME/lib

Tags: computer_technology