41thリマインダ

今週、水曜日はtoRuby。
くわしくは、http://pub.cozmixng.org/~the-rwiki/rw-cgi.rb?cmd=view;name=toRuby
今回は、"Hpricot"を使って、Scrapingをするらしい。
ということで、検索検索。
http://tam.qmix.org/wiki/Hpricot.html

Scrapeとは「削る」こと。
なにに使うの?
リンクだけ集めてみたり、いらない広告みたいなのをけずってみたり、欲しいとこだけ抜き出したりできるみたい。

Rubyで作られているScrapingは他にもあるみたい。

  • Nokogiri
  • Mechanize

とかはどこかで聞いた記憶がある。

池澤さんが『MS-Word で作られた表を MS-Excel の表にする』っていうネタを紹介してくれるそうです♪

Hpricotの準備

はじめてgemつかった(w

> gem install hpricot

使うには、この二つをrequireしよう。

require 'rubygems'
require 'hpricot'

こんなかんじでかいてみた。

require 'rubygems'
require 'hpricot'

doc = Hpricot("<p>Hello World<b>Scraping</b>.</p>")
p (doc/'b').inner_html

とか、かいてみると、bタグで囲まれているのだけとりだせた。