「kimono」はウェブサイトをブラウザ操作で簡単にスクレイピングして API 化してくれるサービスです。
kimono - Turn websites into structured APIs from your browser in seconds
スクレイピングしたいサイトの URL を入力すると抜き出す要素を選択する画面になります。
最近ページングにも対応したので、ページングのあるサイトも簡単に取得できるようになります。
スクレイピングの頻度もリアルタイムや何時間毎のような設定ができます。
できた API は言語ごとに呼び出し例が用意されているので便利です。こういう所気が効いていますね。
実際に呼び出してみるとちゃんと結果が取得できます。
misc/kimono.rb
1
2
3
4
5
6
7
|
require 'rest_client'
require 'json'
require 'pp'
response = RestClient.get 'http://www.kimonolabs.com/api/4b5q146s?apikey=81c2b7add1263b7e459f5ed58b5f6504'
json = JSON.parse(response.to_str)
pp json
|
Terminal
$
$
|
gem install rest-clientbundle exec ruby misc/kimono.rb{"name"=>"archives",
"lastrunstatus"=>"success",
"lastsuccess"=>"Sat Feb 15 2014 11:27:17 GMT+0000 (UTC)",
"nextrun"=>"Sat Feb 15 2014 11:57:15 GMT+0000 (UTC)",
"frequency"=>"halfhourly",
"newdata"=>false,
"results"=>
{"collection1"=>
[{"title"=>
{"text"=>"ガンダムUCのシナンジュが好き",
"href"=>"http://hamasyou.com/blog/2014/02/15/gundam-unicorn/"},
"category"=>
{"text"=>"Blog", "href"=>"http://hamasyou.com/blog/categories/blog/"}},
{"title"=>
{"text"=>"Octopress の rel=”canonical” の設定がおかしい件",
"href"=>"http://hamasyou.com/blog/2014/02/15/octopress-canonical/"},
"category"=>
{"text"=>"Blog", "href"=>"http://hamasyou.com/blog/categories/blog/"}},
{"title"=>
{"text"=>"ビューティフルコード",
"href"=>"http://hamasyou.com/blog/2014/02/14/4873113636/"},
...
|
Yahoo Pipes のような有名なサービスもありますが、簡単にウェブサイトをスクレイピングしたい用途であれば kimono はオススメのサービスです。