KazMuzik.net
Music / Technology / Healthcare / Immigration / アメリカ
Google
 
<< Kaz Muzik Blog Backup Project #4music & media - first two quizes submitted >>

Kaz Muzik Blog Backup Project #5 - KazMuzik Blog
2007-04-20 23:59

思うところがあり、コンテンツをバックアップした segment を dump して、見てみました。
$ bin/nutch readseg -dump crawl-2/segments/20070420134609 dump2
$ vi dump-2/dump
...

そうすると、コンテンツの後ろの方が truncate されているようです。コンテンツの部分だけをカットして、サイズを見ると、だいたい 64KB 程度です。もしやと思い、conf のファイルを見ると、nutch-default.xml に設定がありました。
$ vi conf/nutch-default.xml
...
<property>
  <name>http.content.limit</name>
  <value>65536</value>
  <description>The length limit for downloaded content, in bytes.
  If this value is nonnegative (>=0), content longer than it will be truncated;
  otherwise, no truncation at all.
  </description>
</property>
...

http.content.limit の value を -1 にして、もう一度 fetch し直しました。今度は、truncate されず、最後までセーブされました。

ただし、outlink を見てみると、やはり正しく parse されていないようです。

つづく

Tags: computer_technology