2016/02/07

【JavaScript】jquery.xdomainajax.jsで簡単スクレイピング

スクレイピングとは、ウェブサイトから情報を抽出する技術のこと。
簡単に言えば、とあるサイトのHTMLを取得できるってこと。


jQueryだけでスクレイピング


これを実現するためには、ajaxを使う。
ただしこのままでは以下のようなエラーがでる。
XMLHttpRequest cannot load http://kuroeveryday.blogspot.com/. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'null' is therefore not allowed access.

アクセス先のサーバからのレスポンスに Access-Control-Allow-Origin が含まれていないとアクセスすることができないからだ。


クロスドメイン制限を突破する!


クロスドメインの制限を突破するためには、 jquery.xdomainajax.js というライブラリを使うのが簡単。

たったこれだけでスクレイピングすることができる。
使い方は Cross-domain requests with jQuery を参照。


某Copy__writtingのフォロワー数を5秒に1回スクレイピングするツール


××で有名な某Copy__writtingのフォロワー数がリロードするたびに減るというのがちょっと前に話題になった。
そこで5秒に1回、スクレイピングをして @Copy__writting のフォロワー数を取得するツールを作ってみた。

※ 現在はアカウントが削除されているため動作しない
※ uriの部分を変更すれば他の人のフォロワー数もスクレイピングすることができる






以上

written by @bc_rikko

0 件のコメント :

コメントを投稿