image

  • フォト Amazonギフト券
    ※この時計の時刻は、閲覧しているパソコンのものであり、必ずしも正確な時間とは限りません

検索

最近のトラックバック

無料ブログはココログ

« ピックアップ:TVとインターネット, ラジコンのヘリコプターの安いやつ, etc... | トップページ | web スパイダー を ruby で (その2) »

2009-06-28

web スパイダー を ruby で

- http://homepage2.nifty.com/youichi_kato/src.html
>   web スパイダー (2009-06-27)
に ruby での web スパイダーを置いた。

gem で install できる simplecrawler を使って書いてみたのだが、
そのままでは上手く動作しないところがあったので、simplecrawler 自体にも手を入れた。
// リンク先を読むときに site_uril を base に解釈してしまっているみたい。
// リンクが書いてあるページを base に解釈するようにして、リンクのネットをキチンと
// 辿れるようにした。
// パッチ的に変更してみただけ。
// オリジナルのソースコードは単純ながら機能的に面白いので、
// 折りをみて 全面的に書き直してみたい。

この spider  と ferret を組み合わせようと思っている。
ferret をつかって会社のチーム内サーバーに設置した 全文検索は、おかげさまで上手く動作している。 4万ファイルほどに対して index を作成しているが、検索は
0.03 〜 0.4 秒ぐらいの処理時間。

社内の他マシンの html  公開されているファイルについても index 作成しようとおもって、スパイダーを書いたのだ。

« ピックアップ:TVとインターネット, ラジコンのヘリコプターの安いやつ, etc... | トップページ | web スパイダー を ruby で (その2) »

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/184434/45473920

この記事へのトラックバック一覧です: web スパイダー を ruby で:

« ピックアップ:TVとインターネット, ラジコンのヘリコプターの安いやつ, etc... | トップページ | web スパイダー を ruby で (その2) »

mokuji

2013年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

google

  • twitter
  • __
  • _
    Googleボットチェッカー

合わせて読む

  • 合わせて読む
    フィードメーター - katoy: cocolog あわせて読みたい

リンク