Jun 06, 2007

ハッシュキーの存在チェックを超高速に省メモリで行う方法

リンク先まとめて登録できる機能が付きました。
http://blog.livedoor.jp/staff_reader/archives/51034585.html

かとゆー家断絶からリンク張られてるサイトをまとめて登録とか
http://reader.livedoor.com/subscribe/?url=http%3A%2F%2Fwww6.ocn.ne.jp%2F~katoyuu%2F&extract=on

スタートマック体験モニタのブログをまとめて登録とか
http://reader.livedoor.com/subscribe/?url=http%3A%2F%2Fwww.apple.com%2Fjp%2Farticles%2Fstartmac_monitor_2%2Fwinners.html&extract=on

できます。

リンク先の全件にAuto Discoveryをかけると、件数次第でとんでもなく時間掛かってしまいますが、Auto Discoveryは使わずに、ページ内のリンクを抽出してデータベースから購読者数の多いフィードを出してます。で、データベースに問い合わせるのも件数次第では負荷が高いので、実際はオンメモリでフィードを提供していそうなサイトに絞り込んでから実行してます。URLの上の階層を辿っていってフィードを吐いてそうなURLを見つけたら返すという仕組み。

ここらへんはYAPC::Asiaで話したのと大体おんなじ。
http://la.ma.la/blog/diary_200704051627.htm

で、高速化のために内部でBloom::Filterというのを使ってます。

Bloom filterを使うといいよ。
Posted at 23:20 | WriteBacks (72) | Edit
Edit this entry...

wikieditish message: Ready to edit this entry.
















A quick preview will be rendered here when you click "Preview" button.