Jun 06, 2007
ハッシュキーの存在チェックを超高速に省メモリで行う方法
リンク先まとめて登録できる機能が付きました。http://blog.livedoor.jp/staff_reader/archives/51034585.html
かとゆー家断絶からリンク張られてるサイトをまとめて登録とか
http://reader.livedoor.com/subscribe/?url=http%3A%2F%2Fwww6.ocn.ne.jp%2F~katoyuu%2F&extract=on
スタートマック体験モニタのブログをまとめて登録とか
http://reader.livedoor.com/subscribe/?url=http%3A%2F%2Fwww.apple.com%2Fjp%2Farticles%2Fstartmac_monitor_2%2Fwinners.html&extract=on
できます。
リンク先の全件にAuto Discoveryをかけると、件数次第でとんでもなく時間掛かってしまいますが、Auto Discoveryは使わずに、ページ内のリンクを抽出してデータベースから購読者数の多いフィードを出してます。で、データベースに問い合わせるのも件数次第では負荷が高いので、実際はオンメモリでフィードを提供していそうなサイトに絞り込んでから実行してます。URLの上の階層を辿っていってフィードを吐いてそうなURLを見つけたら返すという仕組み。
ここらへんはYAPC::Asiaで話したのと大体おんなじ。
http://la.ma.la/blog/diary_200704051627.htm
で、高速化のために内部でBloom::Filterというのを使ってます。
Bloom filterを使うといいよ。
Edit this entry...
wikieditish message: Ready to edit this entry.
A quick preview will be rendered here when you click "Preview" button.