KazMuzik.net
Music / Technology / Healthcare / Immigration / アメリカ
Google
 
<< Cosmi rebate updateKazMuzik.NET web server launched !! - KazMuzik.net Project #1 >>

sampo nutch project - Kaz Muzik Blog Backup Project #32 - KazMuzik Blog
2008-03-04 19:38

昨日(3/3)は、11/17, 2/17 と同様の手順で、Nutch の segment に、このブログの backup をとりました。今日は、それから、derby の database を作成しないで、直接、ファイルを作成してみました。このため、LiveJournalEntryExtractor.java を元に、Nutch segment から、すべての content をそのまま file に書き出す ContentsExtractor クラス を作成して、java.net の sampo プロジェクトに、sampo-nutch subproject として、commit しました。
$ cvs -d :pserver:username@cvs.dev.java.net:/cvs login
$ cvs -d :pserver:username@cvs.dev.java.net:/cvs checkout sampo
$ cd sampo/nutch
$ export JAVA_HOME=/usr/java/jdk1.6.0_04
$ export SAMPO_HOME=/var/sampo
$ export NUTCH_HOME=/usr/local/nutch-0.9
$ export PATH=$SAMPO_HOME/bin:$JAVA_HOME/bin:$PATH
$ ant init
$ ant -DSAMPO_HOME=$SAMPO_HOME install
$ cd $NUTCH_HOME
$ mkdir lj
$ vi lj.sh
$ cat lj.sh
#!/bin/sh

L=$SAMPO_HOME/lib
CP=$L/sampo-nutch.jar:$L/hadoop-0.12.2-core.jar:$L/nutch-0.9.jar\
:$L/commons-logging-1.1.1.jar:$L/log4j-1.2.15.jar:$L/commons-io-1.3.2.jar
CN=net.java.sampo.nutch.util.ContentsExtractor

S=`ls -d $1/20* | tail -1`
D=$2

java -classpath $CP $CN $S $D

$ sh lj.sh kazmuzik-segment-20080303 lj
$ 

これで、lj ディレクトに、Nutch segment にある content(s) が、(HTML)ファイルとして、保存されました。

Tags: programming