KoToYuMin

高等遊民。

スポンサーサイト  このエントリーをはてなブックマークに追加

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。


このエントリーをはてなブックマークに追加

PHPでスクレイピングしてみる  このエントリーをはてなブックマークに追加

スクレイピングとは!

英語で"scrape"とは「削ること」。
特に、ウェブサイトのデータを必要な部分だけ抽出して利用すること。


いろいろ必要に迫られたので、色々やる方法を調べてみた。
JSでやるとすれば、node.jsを使う方法なんかがあるらしい
…けど若干むずかしいっていうかnode.jsのインスコとかが大変そうでちょっと気が引けてしまった。

PHPでやろう。
最初調べた時に出てきたのが、Tidy関数?を使う方法だったんだけど、これもTidy関数を使う方法が良く解らん。
でもここで大まかな手順は把握した。

もっと簡単なのはないのか!僕はヘタレなんだ!!

と探していたらPHPのライブラリを使うような奴を発見。

PHP Simple HTML DOM Parser

どうやらjQueryみたいに要素を指定するとがしがしHTMLをスクレイピングしてくれるらしい。

どういうことだ。それでもようわからん!
ということでこちらを参照しました。

htmlSQLよりアツい!?jQueryみたいにセレクタでHTMLをparse(解析)する「PHP Simple HTML DOM Parser」

これでなんとなくわかった。
要するにSimpleHTMLDOMParserをincludeで読み込んできて、あとはfile_get_htmlでHTMLを指定すると。
で、リンク先にもあるような感じで配列で指定して取ってくれば綺麗にスクレイピングできると。

んー、理屈はわかった(ような気がする)けど、jQueryみたいにと言われてもそのjQueryみたいな要素の指定の仕方がわからんのよ。
ということで次にここを見た。

[作って学ぶ!jQuery] 第1回 セレクタを学ぶ

ふむふむ、理解は深まったね。書式があってそれを参照しながら指定すればいいのかな。
じゃあ早速指定してみますか!
ということで、最終的に確認のためこのツールを使った。

セレクター書式確認用ツール

これで指定して完成ー。
手こずったけど次はさくっとやれそうである。
計画が一歩前進!!

このエントリーをはてなブックマークに追加

コメント

管理人のみ閲覧できます

このコメントは管理人のみ閲覧できます

  • 2012/04/12(木) 13:28:55 |
  • |
  • #
  • [ 編集 ]

コメントの投稿


管理者にだけ表示を許可する

トラックバック

トラックバック URL
http://kotoyumi.blog59.fc2.com/tb.php/35-ea1b2aec
この記事にトラックバックする(FC2ブログユーザー)

FC2Ad

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。