kimono」はウェブサイトをブラウザ操作で簡単にスクレイピングして API 化してくれるサービスです。

kimono - Turn websites into structured APIs from your browser in seconds

kimono

スクレイピングしたいサイトの URL を入力すると抜き出す要素を選択する画面になります。

最近ページングにも対応したので、ページングのあるサイトも簡単に取得できるようになります。

要素の選択

プレビュー画面

スクレイピングの頻度もリアルタイムや何時間毎のような設定ができます。

できた API は言語ごとに呼び出し例が用意されているので便利です。こういう所気が効いていますね。

API 詳細

実際に呼び出してみるとちゃんと結果が取得できます。

misc/kimono.rb
1
2
3
4
5
6
7
require 'rest_client'
require 'json'
require 'pp'

response = RestClient.get 'http://www.kimonolabs.com/api/4b5q146s?apikey=81c2b7add1263b7e459f5ed58b5f6504'
json = JSON.parse(response.to_str)
pp json

Terminal

$
$
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
gem install rest-clientbundle exec ruby misc/kimono.rb{"name"=>"archives",
 "lastrunstatus"=>"success",
 "lastsuccess"=>"Sat Feb 15 2014 11:27:17 GMT+0000 (UTC)",
 "nextrun"=>"Sat Feb 15 2014 11:57:15 GMT+0000 (UTC)",
 "frequency"=>"halfhourly",
 "newdata"=>false,
 "results"=>
  {"collection1"=>
    [{"title"=>
       {"text"=>"ガンダムUCのシナンジュが好き",
        "href"=>"http://hamasyou.com/blog/2014/02/15/gundam-unicorn/"},
      "category"=>
       {"text"=>"Blog", "href"=>"http://hamasyou.com/blog/categories/blog/"}},
     {"title"=>
       {"text"=>"Octopress の rel=”canonical” の設定がおかしい件",
        "href"=>"http://hamasyou.com/blog/2014/02/15/octopress-canonical/"},
      "category"=>
       {"text"=>"Blog", "href"=>"http://hamasyou.com/blog/categories/blog/"}},
     {"title"=>
       {"text"=>"ビューティフルコード",
        "href"=>"http://hamasyou.com/blog/2014/02/14/4873113636/"},
...

Yahoo Pipes のような有名なサービスもありますが、簡単にウェブサイトをスクレイピングしたい用途であれば kimono はオススメのサービスです。