第3回Webスクレイピング勉強会@東京（最終回）に参加しました

第3回Webスクレイピング勉強会@東京（最終回） - connpass

参加したのでメモ。
ちなみに今回が最終回で4回目の予定はないとのこと。
メモは自習用に書いているので発表資料に沿っていないものもあります。

発表資料はconnpassのページに全てあがっています。

togetterもあります。

第3回Webスクレイピング勉強会@東京のまとめ - Togetterまとめ

クローリングしにくいものに挑戦(@lumin)

@luminさんの資料は後半ほとんど非公開になっている。
闇実装なので仕方がないところもありますが、資料を見てブログ（復習）を書こうと思っていたので当てが外れました。。

wgetはクローラで最も基本となるツール、curlは再帰で使えないのでクローラとは呼べない、UAをブラウザにするとか、Cookieに対応するとかはクローラ作りでは常套手段
クローリングしにくいのはHttpsのようなProxy、WebSocket（最近少し下火）、SPDYはGoogleの開発した次世代のHTTPプロトコル
特定されないようにしたい、匿名クローリングするにはTorを使う
クローリングしにくいページ
- JavaScriptの動的コンテンツはページが読み込まれないと情報が取得できないので、ヘッドレスブラウザやブラウザでクローリングを行う、ブラウザはFirefoxがおすすめ
  - CasperJS
- ガラケーのサイトはキャリアのIPアドレスに制限されているものがある
- スマホサイトはUAをJavaScriptで取得していたり、縦横表示の切り替え(Orientation)で判定しているためUAを偽造するだけではうまくいかない
  - Androidのリモートコントロール（エミュレータとかx86 AndroidをVMで動かすとか）
- 課金ダウンロードサイトはダウンロードするまで待たされるので、それが嫌なら課金してしまう
日本と外国からではインターネットの見え方が異なる
- 海外のVPSやクラウドを借りてクローリングする
- 通信料課金があるので注意が必要
- RTTは重要でRTTが悪いと使いものにならない
P2PクローラでWinnyやShare、BitCoinなどののクローリングを行っている
- P2Pは主としてClosedプロトコルのクローリングなので一からプロトコルの中を解析する必要がある
Flashのスクレイビングは逆コンパイルで行う、ゲームのチートを取得したりする
データの保管はどうやっているのかという質問
- MySQLに入れるとかKVSに入れるとか色々やっているが、KVSは大量データに向いていない、TBオーダーになると厳しい

ソーシャルスクレイビング(仮)(@YuzoAkakura)

@nezuqさん曰く、これまでの勉強会では技術がメインで事例についての発表がなかった。
最近、データジャーナリズムというのが注目されており、データジャーナリズムの第一人者である@YuzoAkakuraさんに発表をお願いしたとのこと。

データジャーナリズムとは「データからニュースを発見し、わかりやすく伝える手段」
New York Times
- 全米の水質に関する2009年の調査報道
- 水質データを地図にマッピングすることで、汚染水を垂れ流していた企業、施設を特定
  - これまでの報道は記事を書いて終わりだったので伝わりずらい
  - 地図上に表現されることで住んでいる地域がどうなのか身近な問題として捉えやすくなる
データジャーナリズムが注目されたのはWikiLeaksが注目された時期と重なる
データジャーナリズムのリソースはソーシャルメディア、オープンデータ（政府、自治体、企業）、センサーデータなどの多種多様かつ膨大なデータであり、日々生み出され続けている
データジャーナリズムはニュースの表現方法、発見方法、制作プロセスに革新を起こしている
- ニュースの表現方法はこれまでテキスト中心であったが地図や動画、アニメーションなどの多様な表現を組み合わされるようになった
- ニュース発見方法は取材対象として「データ」がより重視されるようになった
- ニュースの制作プロセスでは制作過程の分業が浸透してきた
  - ProPublicaやICIJなどの報道団体がある
データジャーナリズムのポイントはデータを探すこと
- なければ自前で作る（Webスクレイピング）
ソーシャル・スクレイピング＝社会との関わりを持ったWebスクレイピング
Journalism Innovation Awardを企画している
- 切り口として社会性の高い新事実を発見する、社会常識を覆す、嘘を暴くなどがある
  - QAでアジア大会のバドミントンはデータジャーナリズムになるのではないかという話があった
- データジャーナリズムは誰でも挑戦できる
  - 公開データ、OSS、Webの活用
データジャーナリズムは技術者が不足しているので興味がある方は試してほしい

LT

AWSを利用してスクレイピングの悩みを解決するチップス(@dkfj)

「Rubyによるクローラー開発技法」の著者である@dkfjさんの発表。
書籍でいうと「6-4 クラウドを活用する」に書かれている内容です。

Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例

作者: 佐々木拓郎,るびきち
出版社/メーカー: SBクリエイティブ
発売日: 2014/08/22
メディア: 単行本
この商品を含むブログ (9件) を見る

じっくりと読めていませんが@luminさんの発表にあったJavaScriptのページのスクレイビングについての解説もあり、Webデータを取得したい人にとってはとても参考になります。

データ収集の課題
- クローリングに時間が掛かる
  - 収集先が膨大、収集データが大きい
- IPアドレス制限
  - 単位時間あたりで既定の回数を超えるとブロックされる
  - IPアドレスをトリガーにされる(Google BAN)
  - 会社のプロキシサーバをBANされると会社全体に影響が出てしまう
- データの保存方法
  - 収集したデータを長時間保存したい
AWS(EC2, S3, SQS)で解決できる
- EC2を並べて稼働
- EC2の処理結果をS3に集約
- SQSでジョブ制御
巡回先サイトに配慮する
- 巡回する時間間隔を空ける（1秒ルール）
- 同一サイトを対象にする場合は多重度をあげない
  - GoogleやAmazonなら問題にはならないけど中小のシステムだと1秒あたり20～30件ほどしか処理できないこともある
- Robots.txtに従う

私が開発しているhappyou.infoについて(@shogookamoto)

次回があれば肝となる抽出手法の発表を聞きたい内容。
学術研究では半構造データのマイニング、繰り返し構造のマイニングという分野かと思われます。
なんでもRSSを開発した東工大奥村研が国内では第一人者ですが、なんでもRSSは10年ぐらい前のツールなので最新の研究動向はどうかなと思います。

Final Scrapper
- RSSフィードを自動生成
- RSSフィードを持たないWebページでも取得できる
happyou.info
- 政府機関と全上場企業をスクレイピング
- タグを付けて記事を分類

リサーチ向け・ブラウザだけでスクレイピング(@hirosuke_asano)

リサーチするためのリスト作成
- 例えばAKB48のメンバリストを作成する
- Webスクレイピングはプログラミングをしない人には敷居が高い
Firefoxのアドオンを使用してWebスクレイピングする
- Firebug, FireQuery
  - HTMLソースから欲しいデータを取得するjQueryを書く
- その他にテキストエディタ、Excelを使う
- JavaScriptの基礎知識、CSSセレクタ、HTML、jQueryが分かればできる
  - アプリを手作りするよりも簡単

実践Excel スクレイピング(@h_sinohara)

Perlのスクレイピングはめんどい
ExcelでWebスクレイピング
- Webクエリという機能がExcel2003からある
  - URLを指定してデータを選択して取り込むことができる
  - Webページが更新された場合に再取得することが可能
- Excel2013からは取得データの可視化もできる
  - Power Viewのマップ

その他(@nezuq)

Webスクレイピングで使う言語、人気があるのはPython
東京スクラッパーでは自然言語処理の勉強会を行っている
- Webデータは自然言語で出来ているので、自然言語を処理できれば新しい知識を獲得できる
- 自然言語処理が分かる人はぜひ発表をお願いしたい

感想

東京スクラッパーの勉強会は3回目ですが、今回もよい勉強になりました。
アンケートではPythonが人気のようで、自分もPythonユーザとして是非ともPythonのクローラ本がほしいなと思いました。