KazMuzik.net
Music / Technology / Healthcare / Immigration / アメリカ
Google
 
<< KazMuzik.net Project #6 - Google IndexStanford Hospital & Clinics #1 >>

sampo nutch project #2 - URLFileMap - KazMuzik.net Project #7 - KazMuzik Blog
2008-03-11 03:13

Nutch segment に store されている LiveJournal.com のページを parse するプログラム を改良してきましたが、だいぶん落ち着いてきました。まだ、手っ取り早く、このブログ用にハードコードしている部分もありますが、その部分は、徐々に、外部の properties や configuration ファイルに移しながら、忘れないうちに、sampo の CVS Repository に commit していこうと考えています。

まずは、ContentExtractor ですが、新規に開発した URLFileMap を利用するようにしました。これで、dynamic に生成されたページのパターンの URL も、指定したファイル名に対応させることができるようになりました。
$ cat lj.sh
#!/bin/sh

L=$SAMPO_HOME/lib
CP=$L/sampo-nutch.jar:$L/hadoop-0.12.2-core.jar:$L/nutch-0.9.jar\
:$L/commons-logging-1.1.1.jar:$L/log4j-1.2.15.jar:$L/commons-io-1.3.2.jar
CN=net.java.sampo.nutch.util.ContentsExtractor

S=`ls -d kazmuzik-segment-$1/20* | tail -1`
U="http://kazuomik.livejournal.com/"
D=$2

java -classpath $CP $CN $S $U $D

$ sh lj.sh 20080309 lj
$ 

まだ、URLFileMap を有効利用していませんが、上記の ContentExtractor は byte[] をそのままファイルに保存するだけなので、character based の parser を紹介するときに、使用例なども update したいと思います。

Tags: programming