今週、水曜日はtoRuby。
くわしくは、http://pub.cozmixng.org/~the-rwiki/rw-cgi.rb?cmd=view;name=toRuby
今回は、"Hpricot"を使って、Scrapingをするらしい。
ということで、検索検索。
http://tam.qmix.org/wiki/Hpricot.html
Scrapeとは「削る」こと。
なにに使うの?
リンクだけ集めてみたり、いらない広告みたいなのをけずってみたり、欲しいとこだけ抜き出したりできるみたい。
Rubyで作られているScrapingは他にもあるみたい。
- Nokogiri
- Mechanize
とかはどこかで聞いた記憶がある。
池澤さんが『MS-Word で作られた表を MS-Excel の表にする』っていうネタを紹介してくれるそうです♪
Hpricotの準備
はじめてgemつかった(w
> gem install hpricot
使うには、この二つをrequireしよう。
require 'rubygems' require 'hpricot'
こんなかんじでかいてみた。
require 'rubygems' require 'hpricot' doc = Hpricot("<p>Hello World<b>Scraping</b>.</p>") p (doc/'b').inner_html
とか、かいてみると、bタグで囲まれているのだけとりだせた。