elec ML on Web
はじめに
電子技術関連メーリングリスト (elec ML) の投稿記事をHTML化し
当サイトで公開することにした。
公開にあたりメールアドレスを隠蔽することにした。
使用した変換プログラム
MHonArc には-nospam modeがあり、spam@example.co.jpをspam@xxxxxxx,xx,xxに変換するが、
あまり好みの変換ではないので別にフィルターをつけてspam-NoSpam-co.jpに変換することにした。
検索Robot
基本的に検索にはRobotを呼び込むことで行い、独自の検索機能をつけないと考えていた。
しかし、サイトを設置してRobotの挙動を見ていたら気が変わった。
投稿から反映までの時間がかかりすぎるのだ。
下記のグラフは各社クローラーの累積来訪回数だ。記事数は集計当時7239通なのでGooglebotは2週間で読み終えたかに見えた。
集計にはPythonとExcelを使っている。Python Scriptは
ここにおいておく。
各グラフはクリックするとPDF版がPop upする。
ところが詳しく見てみると全記事をまだ読み終えていないことが分かった。
まず記事の読み取り順を見てみる。

最初に高頻度で昇順にアクセスした後ランダムにアクセスしているように見える。
つぎに各記事が何回読まれたかを数えた。

3回読まれたものもあれば、1回も読まれていないものもある。
Googleで検索できる意義は大きいが、1ヶ月以上の遅れは痛い。
独自検索エンジン
毎日更新できる独自検索エンジンとして
Namazuを採用した。
形態素解析エンジンには最初
ChaSenを使ったが結果が良くなかったので
MeCabに変え、満足できる結果が得られた。
1ヶ月後
公開から1ヶ月がたった。改めて各社ロボットの動きを見てみよう。

まともに使える検索エンジンは、googleとNAVERだけだと言うことがわかる。
2社の記事ごとの訪問回数を見てみよう。

NAVERのほうが平均して取得しているが、最近の記事をとっていない。やはり使うならgoogleだろう。
Copyright © 2010
S.Makino