2018-11-18

プロダクトマネージャー・カンファレンス2018 (Day2)に参加しました #pmconfjp

11/6-7に行われたプロダクトマネージャー・カンファレンス2018のDay2に参加しました。

2018.pmconf.jp

私はプロダクトマネージャーではありませんが、新サービス検討を行っているので、プロダクトマネージャーの観点でどのように新しいサービスを生み出すのかを知りたいと思いました。

巨大なFinTech事業開発におけるプロダクトマネジメント (FOLIO)

Projectは終わりがある、Productは終わりがない
プロダクトマネージャーは「プチ社長」である
- 常に「何」を「何故」作るのかを追求し続ける(WhyとWhat)
証券会社(金融)における特殊性
1. 社会インフラとしての完全性と堅牢性
2. 技術が枯れている
  - コモディティ化しやすい
  - 株はどの証券会社で買っても同じ=コーラはどのコンビニで買っても同じ
3. 攻めと守りの天秤
4. 守りが重視される
最初は3ヶ月でローンチできると思っていたが2年掛かった
コモディティ化しやすい金融のプロダクトで非コモディティ化するプロダクトを作る
- テーマ投資
単一プロダクトから複数プロダクト
- おまかせ投資、LINEスマート投資をローンチ
- それぞれのターゲット、KPIは異なる
理想
- プロダクトごとにバックログを管理
- 各プロダクトが独立したKPI/PDCAサイクルで進化
- 各PMが「プチ社長」としてオーナシップできる
現実
- 全プロダクトを単一バックログで管理
- フロント/バックエンドが共通化されて密結合になっている
  - エンジニアの兼務が発生し、リソースの取り合いになる
- 優先順位管理が複雑になる
  - ビジネスKPIよりも優先度の高いコンプライアンス、セキュリティの要件が急に出てくる
対策
- サービス開発・運用に適した組織ビルド戦略の立案と推進をするCTO室を新設
  - プロダクト境界の明確化
  - 組織境界とミッションの明確化
プロダクトマネージャーの資質
- プロダクトへの尊敬(愛情<尊敬)
- 相手への尊敬
- 自分への尊敬
  - 交渉に失敗することがあっても自分の決断を自信をもって伝えられること

C向けアプリのPM経験者から見た、B2B Saasのプロダクトマネジメント (マネーフォワード)

MFクラウド経費を担当
マネーフォワードでは1プロダクト10名程度のメンバで対応する
B2BとB2CをAARRRモデルで比較
- B2Bの場合、必ずしもボトルネックをプロダクトで解決しなくてもよい
- 例えば人的リソースを投入して一次解決するというやり方もある
ユーザの理解
- B2Bはユーザになれない場合が多いので、何が課題なのかを認識できない
- ユーザになるための活動として自社の経費精算を積極的に使ってもらう
課題の認識
- B2Cは仮説的でホームラン狙い
- B2Bは実在する課題を潰すヒット狙い
  - 何らかの手段で実現できるかがまず求められる
SaaS開発の決定軸
- プリセールス(新機能)、オンポーティング(利用開始時の負荷軽減)、ポストセールス(既存機能の改善)の中でどこに課題があるかを考える
企業は合理的な売買をするか
- 機能の多さだけでは判断しない
- ないものをカスタマイズ作ってくれと要求される
  - よいPMは要求とプロダクトの落としどころを見つけ、かつ顧客を満足させる(簡単ではないが)
プロダクトの愛をお金に変える
- Apple
  - 値引きしない、純正付属品(高い)
  - ユーザの愛をお金に変えている
- 上位プランを選んでもらう(梅→竹・松)

気がついたらプロダクトマネージャーになっていた (Nature)

Nature Remo
- 前職で電力事業開発を経験
- 供給が減った時に需要をコントロールする仕組みを作ればいいのではという発想からNature Remoを開発
デザイン100%からスタート
- 壁に付ける想定なので目立たないようにデバイスの色を白にしたい(このこだわりが後々に問題に)
開発苦労話
- 製造を依頼していた工場に断られる
- ようやく製造してくれる工場を見つけてできたものを見たらプラスチックが膨らんでいる
  - 白の赤外線リモコンは(おそらく)世界初
  - 普通のリモコンは赤外線を通しやすくするため黒にすることが多い(黒の方が作りやすい)
  - 継ぎ目のない1つのプラスチックで構成したいというデザイン
- 出荷後に湿度センサーに不具合があり1年間の保証で無償交換
寝ているとき以外は30分おきにTwitterでエゴサーチ
- botと疑われる
やってきたこと
- 挑戦して失敗する
  - 最悪ベースで自分が受け入れられる失敗かどうか
- 考えるより行動
- 最後まで粘る
やらなかったこと
- 仕事の範囲を決める
- フレームワークを使って考える
  - ハーバード・ビジネス・スクールでフレームワークをたくさん覚えたが現実はもっと複雑でフレームワークでは解決できない
- 最後までやり切らない

リクルートの横断組織で考えるプロダクトマネジメント(リクルートコミュニケーションズ)

HowよりWhatを重視
プロダクトマネージャーの意思決定
- 自分とエンジニアがワクワクするか
- 儲かるか(価値が世の中に認められるか)
- やる意義があるか(競争優位性、希少価値)
プロダクトマネージャーの役割を4つに分割
1. ビジネスプロデュース
2. プロダクトマネジメント
3. ITディレクション
4. プロダクトリード
個人の持つスペシャリティを活かせる役割をアサイン
- 不得意なことを期待されると辛い
やりたい仕事にチャレンジするための「成長テーマ」を設定
- 目指す成長イメージを作る(I型, T型, H型)
- 好奇心の強い人が伸びる
- ハイプロというキャリア(ハイプロ>組織長)
- プロダクトマネージャー≠組織長
  - 役割を分ける

顧客、会社、チームをHappyにするプロダクトマネジメント～観点・プロセス・レバレッジ～(楽天)

偏った愛による失敗
- ムリゲー(実現できない要求)
- 自己満(儲からないプロダクト)
- 誰トク(目的やKPIばらばら)
顧客、会社、チームをHappyにするためプロダクトを生み出し、成長させる
- 成功へ導く観点とプロセス
  - Business/UX/Marketingの3つの問いかけ
  - Business(会社に取ってどんな意義を作るのか)
  - UX(どんな風に惹き付けるのか)
  - Marketing(どんな嬉しい経験にするのか)
  - PMはBusiness/UX/Marketing+開発の理解とリーダーシップが求められる
  - 全てを1人でできるケースは稀なので各領域の担当がそれぞれの観点で議論
- 強みを最大限活用
  - 会社が持つ強みをレバレッジ
  - 楽天の場合、会員基盤、ポイントの魅力、サービス、ブランド

Build Narrative in Product (ドワンゴ)

かつてのドワンゴは技術ドリブン
- 高度な技術で実現すれば客が付く
- Steve Jobsは「まず取り組むべきは顧客体験。技術云々はそれから。」
- 全く逆のことをやっていた
スターエンジニアがほぼ解決
- 技術領域の拡大で精鋭だけで支えきれない
- スターエンジニアがボトルネックになり人材不足
実現したい機能が多過ぎる
- ユーザストーリーが想像できていない
- 不安なので量でごまかす
課題解決の施策を表現するワードがいちいちカッコいい(JOB STORYとか7 STAGESとか)
- JOB STORYは自分視点
  1. When ___ (～な時に)
  2. I want to ___ (～がしたい)
  3. so I can ___ (だから～する)
- 7 STAGESはカンバンの各ステージに責任者を置くことでプロダクトマネージャの負荷を軽減する
- 学習コストを回収する施策としてライブコーディングやコーディングバトルを実施
- VS CodeのLive Share機能知っていたが、モブプロが捗るのだろうか？
- TEAM NORMS(行動規範)はワーキングアグリーメントと同じ？

The mindset of building the product that user will love (メルカリ)

誰のため、何の問題を解決するのか
重要なことは
- Understanding(理解すること)
- Team Work(チームワーク)
- Fail Fast(早く失敗する)
デザイン思考のダブルダイヤモンド
対象を理解することがデザイン思考の第一段階
- 行動する
- 関わる
- どっぷり浸かる
誰を理解するか
- ターゲットユーザ
- 間接的なユーザ
  - みまもりSwitch(ゲームをする子供の親に着目)
- 極端なユーザ
  - プロダクトが何故好まれる/好まれないのか
  - ミートアップに招待してヒアリング
- 未来のユーザ
Uberは何の問題を解決したか
- A地点からB地点に行くまでのユーザ体験はタクシー会社と同じ
- 車を見つける、到着後の支払のプロセスの違い
  - 2分程度のユーザ体験で年数十億の売上を上げる
デザインスプリント
- メルカリでは3日で回す(一般的に紹介されているデザインスプリントは5日で回す)
- 失敗してもOK、早く失敗して次に行く
大切なのは一過性のものではなく、一貫性のあるものを作ること

紹介していたThe SPRINT bookは邦訳が出ている。

SPRINT 最速仕事術――あらゆる仕事がうまくいく最も合理的な方法

作者: ジェイク・ナップ,ジョン・ゼラツキー,ブレイデン・コウィッツ,櫻井祐子
出版社/メーカー: ダイヤモンド社
発売日: 2017/04/13
メディア: 単行本（ソフトカバー）
この商品を含むブログ (3件) を見る

北米・アジア・欧州のプロダクトマネジメントの事例とスマートニュースの実践 (スマートニュース)

自主渡航
- 半年に1回、国外のカンファレンス、学会の参加ができる制度を利用してGeneral Assembly、Product Management Festival、TURING FESTに参加
北米ではプロダクトマネジメントはロジカルシンキングと同じぐらいの認知度
PM以外のメンバもオーナシップを持ち、ゴールが共有され、PMが命令しなくても各メンバがパフォーマンスを出せる
「バーチャルでクロスファンクションなチーム」とは役割はあるけど体制(縦割り)はないということ？

中国のプロダクトマネジメントのリアル (Baidu)

中国はアメリカのプロダクトを模倣していたが、最近は自国向けに最適化されている
- 背景としてスマホ利用者が10億人以上、普及率70%以上
- 電子決済(アリペイ、WeChatPay)の普及
- 病院予約、医師との連絡、診断結果の確認もスマホでできるように
中国には10万人のプロダクトマネージャーがいる
- 平均年齢28歳、平均年収500～800万円(中国の中では高給)
- コンピュータサイエンスを学んでいるPMは30%程度
- 中国のPMは技術を知らなくても、ニーズとビジネスが分かればいい
  - マーケとかコンサルに近い？
マーケットの違い
- 中国は地域のギャップが大きいため地域によってニーズが異なる
- 例えばネットショッピングではアメリカはAmazonだけあればいいが、中国では多数存在する

拼多多(ピンドウドウ)

ユーザ数3億超
貧困層をターゲット
- 中国全体の70%
- 品質よりも価格重視
Samsungの数万円する4Kテレビ < Samsungの偽物の数千円のテレビ

Anycaにおけるプロダクトマネジメント (ディー・エヌ・エー)

カーシェアリングサービス(C2C)
登録されている車は6,000台
- カーシェアリングサービス最大手のTimes(B2C)は約22,000台
- 持っていける場所を指定できるのでカバーしている範囲は広い
- レンタカーで乗れないBMWやカイエンが人気
トンマナ
- プロダクトのイメージカラー、キャラクター等
- 直感的に捉えられたいイメージ
  - クルマサービス、男性的、新サービス、品質がよい、安く使えそう(だが安全)
ユーザとの接点
- サービス説明会、クルマ撮影会、ユーザ交流イベント等
ユーザの行動を分析して実装すべき機能を判断
- ソシャゲのノウハウ？

［ワークショップ］日本のプロダクトマネージャーは今何をすべきか

愛されるプロダクトが大事だと思う理由は何か

自分にとって責任感やモチベーションが生まれる
- 相手(チームメンバ、顧客)に情熱を伝えることができる

Next Action

私は[プロダクト名]をもっと愛されるプロダクトにしたい。そのためにはわたしは、[Next Actionについて書く]

感想

ドワンゴの発表にあった技術ドリブンでユーザストーリーを想像できていないというのは、とても刺さった。

技術ありきでプロダクトを作ってしまうと、楽天の発表にあった偏った愛による失敗を招いてしまうと思う。

2016-05-29

Java Day Tokyo 2016に行ってきた

event javadaytokyo

f:id:kitanow:20160524090845j:plain

5/24(火)に東京マリオットホテルで行われたJava Day Tokyo 2016に有休決めて行ってきたのでメモ。
あくまで自分用に書いているので箇条書きです。

Togetterのまとめもあります。

Innovate, Collaborate, with Java

会場は20代が1/3、30代が1/3とのこと
色々なところでJava使われてますよという話
JCP(Java Community Process)について
開発者向けにJava Magazineというのを発行している
- Java Magazine 日本版
Javaが今後取り組んでいくのはセキュリティ、これはクラウドでの活用を見据えて
起動速度やGCの改善を行っていく
Java 9
- 大きな変更点はProject Jigsaw
  - ライブラリの依存関係を記述して必要なものだけを組み込めるようにする(超ざっくり)
  - Project Jigsawについて詳しく知りたければITProの@skrbさんの連載記事を見た方がよさそう
- その他にJShellによるREPL環境の実現
  - JShellについてはJJUG CCC 2016 Springで@bitter_foxさんが発表されている
  - JJUG CCC 2016 Springでjshellの発表してきた #jjug_ccc - きつねとJava！
- 更にJava 9の先にProject ValhallaとProject Panamaが進行中
  - OpenJDK: Valhalla
  - OpenJDK: Panama
NetBeans
- HTML/CSS/JavaScriptの開発に対応
- 見た目が完全にIntelliJなのですが
- Java開発者はJavaScriptのコードを書くことが多い
- 変更した内容が即座にブラウザに反映される(まーIntelliJでもできますが。。。)
- Jigsawを試すこともできる
Java EE
- モノリスからマイクロサービスへ進化
  - 集中から分散
  - ステートフルからステートレス
  - オンプレミスからクラウド
  - Polyglot(Java以外の言語と組み合わせる)
  - チーム開発の変化(縦割りから小さな専門チームへ)
- インフラのクラウド化
  - コンテナの変化
  - IPがダイナミックに付与
  - イミュータブル
- サービスがお互い隔離されている
  - マルチテナント
  - マイクロコンテナ
  - ドメインパーテーション
感想
- モジュラリティ(Jigsaw)とマイクロサービス推しまくり
- マイクロサービスといえばSpring Bootなのだが、Java EE 8でマイクロサービスってどうなの？

損保ジャパン日本興亜のJAVA戦略

COBOLからJava EEベースのシステムに移行
- Java EE 7ベースでフレームワークを構築
- JSF+CDI+JPAの構成
- MVC1.0はJava EE 8からなのでJSFにした
- Annotationを活用
- バッチレスを指向し、jBatchを検討中

Twitter上ではライブレビュー状態だったが、お堅い保険会社のメインフレームの刷新にしては攻めている方だと思う。やりたいかと言われるとそこは丁重にお断りさせていただきます。

Night Hacking

Stephen Chin氏(@steveonjava)とSebastian Dashner氏(@DaschnerS)のJava Japan Tourの活動報告
- Java Japan Tour | NightHacking
- Sebastianイケメン、これが世界のJava デベロッパーか。。
Ducatiのバイクで日本全国のJavaコミュニティを訪れている
SebastianはJava Championになりましたって何？
- 詳しくはナイトセッションで

JJUGの活動紹介

内容としては5/21(土)に行われたJJUG CCC 2016 Springの基調講演の短縮版かな。

「JJUG運営の戦略と戦術」 JJUG CCC 2016 Spring 基調講演 from yusuke suzuki

ドローンデモ

Oracle IoT Cloud Service
Secure IoT Gateway
- Linuxベース
SAM(Secure Access Module)
- 重要データの管理・保護
- データ暗号化
- 認証機能
  - 操縦者・機器の承認
  - 指定日時・場所による運用管理
  - 認証側での停止制御
  - OSGiでアップデート

Papperデモ

Papperのカメラで写真を撮影してCloud Storageにアップロード
タブレットで撮った写真をCloud Storageにアップロードし、Papperが更新を通知
サーバ側はOracle Cloud Platform
クライアント側(画像ファイル管理コンソール)はOracle JETで実装

Introduction to MVC 1.0 (JSR 371)

Software Technical EvangelistのDavid Delabassee氏(@delabassee)
最終日に空きが出たので登録したセッション
MVC1.0はアクションベースのMVC
- JSRで標準化
- JSRの参照実装にOzarkがある
MVCは新しいものではなく、25年以上使われている
- Model, View, Controllerのコンポーネントにはそれぞれ役割が決まっている
- Modelはインタフェースの状態をキープするための中間的な状態を保持するところ
- Viewはユーザが操作するためのボタン、フィールドなど
- Controllerはリクエストをユーザから受け取り、ビジネスロジックを実行する
  - Modelのアップデート
  - Viewのレンダリング
MVC
- コンポーネントベース
  - Java Server Faces, Wicket, Tapestry
  - Controllerがほとんどの仕事をする
  - 開発者はModelとViewを主に開発する
  - Page centric
  - ステートレス
  - 高レベル
- アクションベース
  - Struts1, Struts2, Spring MVC
  - Model, View, Controller全ての開発を行う
  - Request centric
  - ステートフル
  - コンポーネントベースよりも作業が多い
  - 低レベル
Java EE 7の標準はJSF(コンポーネントベース)
MVC 1.0はアクションベースMVCの選択肢を提供する
リファレンス実装はOzarkというOSSがある
- Model
  - CDI, Bean Validation, JPA
  - 推奨するのはCDIベース
- View
  - Facelets, JSP
  - View engineにはsupportsとprocessViewという2つのメソッドが用意されており、他のViewもサポートしている
  - 例外処理はJAX-RSのものをそのまま使用している(Exception mapping providers)
- Controller
  - JAX-RSを使用する
  - @controller, @viewのアノテーションが追加されている
アクションベースMVCは悪くはない
- 今あるものを活用できる
- JAX-RSが分かっていれば難しくない
- もっと知りたければOzarkを見る
MVC Specification
- https://java.net/projects/mvc-spec/pages/Home
The Aquarium Blog
- Oracle Blogs | Oracle The Aquarium Blog

Java EE 7アプリケーションとWebセキュリティ

@skrbさんのJigsawはすごい混みそうだったのでこちらにした(まーこっちも満席ですけど)
うらがみさん(@backpaper0)と言えばJAX-RSとDomaだけど今回はセキュリティネタ
イントラのシステムはセキュリティが甘くても致命傷にはなりにくい
- でも、仕様が変わって公開することもある
- ならば、最初からセキュアなコードを書いておけば要件が変わっても問題ない
- 但し、そこに掛けるコストは無視できない
- 対策することでコードリーディングのノイズとなることも
フレームワークが対応していれば実装もなくノイズもない
ビュー・コントローラで対応する場合は個別による実装が発生
- 但しビジネスロジックにはノイズは入らない
その他
- ビジネスロジックで対応しなければいけないもの
- その場合でもInterfaceなどで切り分けるようにする
対策の基準
- IPAの「安全なWebサイトの作り方」をもとに対策する
  - 安全なウェブサイトの作り方：IPA 独立行政法人情報処理推進機構
- Java EEではどう対応すればよいか
XSS
- 反射型、蓄積型、DOM型がある
- ここでは反射型と蓄積型についての対策
- JSPの対応
  - jstlのc:outタグを使うことで対応できるが見づらい
  - 関数を自作してf:hの関数として呼び出せるようにするとEL式だけで表せる(hというメソッドを作り、fでsetAttribute)
  - カスタム関数はTLDファイル(XML)で定義を作成する必要があり、気軽にパッケージ変更できない
- Faceletsの対応
  - デフォルトでエスケープされる
  - そのまま出す場合はescape="false"と指定する
- メソッドの呼び出し漏れをチェック
  - JSPの場合はHTML出力に使われているEL式を洗い出す必要があり、面倒
  - Faceletsはそこまでしなくてよく、escape="false"と指定している箇所だけチェックすればよい
CSRF
- ユーザのセッションが生成されたタイミングで乱数(トークン)を生成し、hiddenに埋め込む
- リクエスト時に一緒にポストして、サーバ側で正しいかをチェックする
- JSPの対応
  - 自力で実装
- Facelets
  - javax.faces.viewstateがCSRF トークンとして機能する
  - ページを開くたびにvalueが変わる
  - 但し、これはステートフルの場合で、ステートレスビューの場合はvalueが固定になるのでCSRF対策にならない
  - ステートレスビューでは表示用のビューと処理実行用のビューを分ける
  - faces-config.xmlに記載したURLパターンに一致するビューを保護するようにする
SQLインジェクション
- JPAのJPQL
- em.createqueryではプレースホルダーを使ってパラメータをバインドする
- @namedQueryは定数しか渡せず、動的に文字列連結できないのでこちらがおすすめ
  - Criteria APIを使ってJavaでクエリを組み立てることもできるが、学習コストは低くない
セッション管理の不備
- ログインしたタイミングでセッションIDをリフレッシュ
- Java EEのログイン認証
  - Servlet APIのform認証
  - Glassfishは認証成功後にセッションIDがリフレッシュされるがJDBCレルムの設定が必要
  - HttpServletRequest.changeSessionId()を呼び出す
  - URLにセッションIDを埋め込まない
  - Cookieに格納し、Secure属性を付ける
ファイル操作・パス名
- 未チェックのパラメータ(パス)でファイル操作をする
- ファイル操作を行う前に想定したパスかチェックする必要がある
- 漏れ検出
  - ファイル操作はSEのAPIなので漏れ検出は難しい
  - 自前のAPIでラップし、ファイルのAPIを直接使用していないかをチェックする
  - インターフェースを用意するとテストコードが書きやすい
  - この対策は保険的対策で根本的対策としてはファイル名を直接指定する実装を避ける
  - 根本的対策を施す場合でも自前のAPIでラップする
クリックジャンキング
- X-Frame-Optionsレスポンスヘッダを付けるだけ
- 但し、frameやiframeが無効になるためAjaxで使われていれば、そちらも無効になる
- 制限をDENYではなく、SAMEORIGINにすれば生成元が同じiframeは読み込める
HTTPヘッダインジェクション
- Java EEだと自力でHTTPレスポンスを書き出すことが無いので対策不要
メールヘッダインジェクション
- 対策もHTTPヘッダインジェクションと同様だが、意図しないヘッダを書き出すことはできる？
- ヘッダにセットしない、セット前にチェックする
OSコマンドインジェクション
- 外部プロセスを起動することがないので省略
バッファオーバーフロー
- 直接メモリを操作しないので省略
アクセス制御
- アプリケーションによるところなので省略
その他
- X-Content-Type-Options: nosniff
  - Content-typeが設定されていないリソースに対して自動で判断する(IEの機能)
  - このsniffを無効にする
- Content-Security-Policy
  - 最強のXSS対策レスポンスヘッダ
  - この対策でDOM型のXSSにも対応できる
  - 任意のHTMLを書き出す脆弱性があったとしてもJavaScriptが動かない
  - style-srcやimg-srcで個別に制約を設定できる
まとめ
- Java EEで対応しているものもあれば、自分で対応するものもある
- 仕組みを理解しないとなぜそれで防げるのか分からない
- 資料を読んで普段からセキュアなコードを書く癖をつける
感想
- 話としてはオーソドックスなセキュリティ対策
  - こういうのを設計段階で決めておくと、リリース直前でセキュリティ対策が漏れていて炎上するみたいなことはなくなると思う
- SQLインジェクションでDomaに触れなかったのはOracleへの配慮かな？

コンテナとJavaとOracle JETによるアプリ開発 ハッカソン

Oracle Cloud Platform
- オンプレミスとクラウドの互換性
  - 同じアーキテクチャ
  - 同じオラクル製品
  - 同じ知識・ノウハウ
- エンタープライズとクラウドネイティブ
  - Application Container CloudとOracle JETはクラウドネイティブ向け
  - 素早く開発して試すことができる
Application Container Cloud
- Dockerベースの軽量プラットフォーム
- 多様な開発言語に対応
  - Java, Node.js, Ruby, Python, PHP ...
- ロードバランサを内包、無停止で拡張/縮退可能
- 特徴として組み込みJFR(Java Flight Recorder)による稼働記録、Java SEのupdateを長期間提供
- デプロイはアプリケーションのjarとメタデータファイル(json)をzipファイルに固めたものを、アップロードするだけ
Oracle JET
- JavaScript Extension Toolkit
- フロントエンド開発用のJavaScriptライブラリ
- JET = 5 OSSs x Oracle
- Oracleが初めて主導で取り組んでいるOSS
- ソースはGitHubで公開
- Cookbookのページでサンプルをブラウザ上で編集して試すことができる
  - Welcome to Oracle JET
デモアプリ
- サーバサイド
  - 全てJava製のもので構成
  - REST APIコンテナとしてSpring Bootを使用し、組み込み型のTomcatで動かす
  - O/RマッパーはEclipseLink(JPAの実装の1つ)
  - RDBはDerby(内部でDBを持たせている)
  - レスポンスはJSON
- クライアントサイド
  - Oracle JETを使用
  - Model/View/ViewModelパターンに基づいて実装
ハンズオン
- デモアプリをローカルの環境で動かす
- 編集したデモアプリをApplication Container Cloud上でデプロイ
ハッカソン
- デモアプリをもとにアプリを開発
- 発表者には粗品(Javaグッズ)をプレゼント

パネル・ディスカッション - Java Day Night Session with NightHacking Tour

日本のJavaコミュニティはとても熱気に溢れているが、質問が少ない
Java Championはコミュニティへの貢献を評価されたリーダ
- 日本人は一人(@skrbさん)しかいない、アジアでも少ない、英語で発信していないから
- @skrbさんはLooking Glassで英語の発表をやっていたから推薦されたとのこと
Java Championになるには
- 技術的なリーダであること
- コミュニティのために教育をしていること
- コミュニティメンバとして啓蒙活動をしていること
- オラクルから独立していること
  - オラクルに入ったので私はJava Championでなくなった(@steveonjava)
- Coolなアプリケーションを開発している
- 他のJava Championからの推薦
JCPは今後、企業以外での参加も可能になるとのこと
#てらだよしおがんばれ
- マイクロソフトでJava エバンジェリスト
- 前職ではJava EEなど製品ベースの仕事をしていたが、現職はより上のレイヤーで見るようになった
- Java Championに相当するものとしてマイクロソフトにはMVPがあり、MVPが主体となって勉強会などを行う
  - Java Championはコミュニティが選出するが、MVPはマイクロソフトが選出するのでマイクロソフトのバイアスが掛かっているのでは(@skrb)
  - そういう側面もあるがマイクロソフトから何か指示をされるわけではない
- ぼくは元々、こっち側の人間です
- Javaコミュニティについて
  - もっとJavaに興味を持っている人を参加しやすくする
  - あるいはエンタープライズ向け、こども向け、などに特化したコミュニティ
  - それをJJUGが担うのがよいのかは分からない
  - JJUGの幹事は多忙なので現状の運営だけでも大変
その後はStephen Chin氏によるRaspberry Piのプレゼン
- 忍者龍剣伝とか懐かし過ぎる
- halfnes emulatorをRaspberry Piで動かす
  - GitHub - andrew-hoffman/halfnes: An accurate NES/Famicom emulator
- ケースは3Dプリンタで作成
- 1日中参加していたのでこの辺は飛びました(Sorry Steven)

その他

展示コーナーにNightHacking Interviewのブースがあり、色々な人がインタビューを受けていました
- Java Day Tokyo 2016 - YouTube
皆さん英語で受け答えしていて素晴らしい

全体の感想

初のJava Day Tokyoとても楽しめた
- Twitterではスーツ率高いとあったけどOracle Open Worldに比べたら全然少ない(Oracle Open Worldはスーツの人しかいない)
1日中セッション聴くのは疲れるので初めてハンズオンに参加してみる
- 参加者が少ないのでゆったり座れた
- ハンズオンの会場は机、電源、Wifiあり:-)
- 後半はハッカソンだったが全く作れずに終了orz
- @cero_tさんや@kawashimaさんの発表も聴きたかったけど
満席セッションでも入れるみたいなので事前予約の意味があまりないのでは
昼は11:30-13:00だったのでゆっくり出来た
- 昼食は少し歩いて北品川商店街の「プサン」という韓国料理店
JAVAおじさん問題
- 最前列で寝ているおじさんがいるというので、それは発表者に失礼だなと
- 参加料を取るようにすれば来なくなると思う
- 業務の一環(研修とか)で来ている場合、有料だと会社に書類(申請書や報告書)を提出しないといけなくなるはずで、そうなれば面倒で来ないだろう
- 本当に来たいと思う奴は有給休暇取ってでも来るし、自腹でも来る
Java Day TokyoとJJUG CCC(あくまで個人的な意見です)
- Java Day TokyoはJavaの最新動向をキャッチアップするところ
- JJUG CCCはJavaのフレームワーク、活用事例などをキャッチアップするところ
  - セッションのバラエティはCCC
  - 但し、Java Day Tokyoにもスポンサーセッションというのが設けられているので事例もある
- Java Day Tokyoはformal、JJUG CCCはinformal(発表者の立場という意味で)
  - 会社として発表するのか、個人として発表するのか
  - CCCの方がお祭り感(土曜だからなのかもしれないけど)があるし、純粋に楽しむならCCCがいいかもしれない
- ちなみに私はCCCに参加していませんが。。
  - 前参加した時に、お目当てのセッションが立ち見状態なので心が折れた
  - 何処が満席セッションなのか分かりづらい、分かっていれば第2候補とか第3候補を考えられる
  - 土曜潰してまで疲弊したくないという極めて老害な理由
  - CCCはでかくなり過ぎた感が否めない
  - 昔の寂れた感じの方がよかったと言ったら怒られそうだが、その場の気分で好きなセッションを気軽に聴きに行くという感じではない

2015-05-03

圧倒的初心者がDroidKaigiに参加した

event droidkaigi

ダメ元で抽選枠に応募したら当選したので行ってきました。
プロジェクトでAndroid/iOSのネイティブアプリを開発することになりAndroid開発の知見を得たかったのでとてもよかった。
Androidは4年程前に簡単なRSSリーダを作ってから触っていない圧倒的初心者。（開発環境に心が折れてドロップアウトした勢）

発表資料まとめ

発表資料やTogetterは以下にまとまっている。

聴講したセッションのメモ

午前のセッションがないのはお察しください。

初学者に嬉しいAndroid開発環境（あとMVCとか）(@hkusu_)

今どきのAndroid開発でどんなものを使われているかを知りたかったのでとても参考になる発表だった。

やっぱり今だとIDEはAndroid Studio
エミュレータはGenymotion
ViewのマッピングにはButter Knifeというのが便利らしい
イベント通知はEventBusを使うのがよい
HTTPクライアントだとRetrofitとかOkHttp
WebAPIで結果を受ける場合にJSONならGsonとか、画像ならPicassoを使う
ORMはActiveAndroidとかRealmを使う
MVCはSIでもおなじみなので同じように捉えることができるのがよい
- MVP(Model-View-Presenter)のほうがよいという話もある
画面遷移はActivityをIntentで切り替えるのではなくFragmentを切り替える
アプリケーションにActivityは1つ、画面1つに対してFragmentは1つにしてFragment on Fragmentは避ける
Fragmentの行数が増えたらControllerやModelに分割する
はじめはドットインストールで勉強して慣れてきたらmixiの資料を読むとよいらしい
端末の向きを固定にした方がよいらしい
書籍の中では「AndroidエンジニアのためのモダンJava」が気になった

AndroidエンジニアのためのモダンJava

作者: 山田祥寛
出版社/メーカー: 技術評論社
発売日: 2013/08/20
メディア: 大型本
この商品を含むブログ (2件) を見る

MVC構成のサンプルがGitHubに置いてある。

Androidを学ぶ君へ。生き抜くためのナレッジ共有(@operandoOS)

Android開発におけるLifeHackのような話。
Android開発にかぎった話ではないがなかなか実践できていないと感じた。

Android開発するなら端末を買うというのは今も同じらしい
コードを書かないと書いたものがクソコードだと気付かない
コマンドを使ってActivityの状態を調べるとかアプリを操作できるのは覚えておくと便利そう
テストコードがない場合はまずユニットテストからはじめる(JUnit+Mockito)
プルリクエストにチェックリストを付けることでチェック漏れを防ぐのはいいね*1

スライドにあるリンクはGitHubにまとまっている。

新言語KotlinでAndroidプログラミング(@ngsw_taro)

Kotlinと言えば@ngsw_taro氏だが発表を聞くのは今回がはじめて。
KotlinだとJavaよりもすっきり書けるという印象を受けた。

クラスの説明にあるプロパティがよく分からなかったがJavaでフィールドにアクセスするさいに書くgetter/setterをいい感じで扱ってくれるものらしい
Java8で追加されたlambdaが使えるとか高階関数によるコレクション操作ができるとか
インライン関数は高階関数を呼び出すさいのコストを低減できる
拡張関数で既存クラスに独自のメソッドを追加することができる
JavaのOptional型はnullを直接代入できてしまうがKotlinはnullを許容するかしないかを変数の宣言で制御できるようになっている
Android Studioと開発元が同じなのでAndroid Studioとの相性は抜群によさそう
- メニューからJavaのコードをKotlinに変換できる

フォロー記事があがっている。

ARTのメモリ管理(@haru067)

この発表までランタイムが変更されたことを知らなかった。
ARTのGCまわりについてDalvik VMとの違いが分かりやすく（よい意味でざっくりと）まとまっていた。
特にLargeObjectSpace(LOS)の説明がすばらしい。

つかえるGradleプロジェクトの作り方(@zaki50)

Androidのビルドツールと言えばGradleかなーと思い、Gradleの話を聞きに行く。
設定ファイル(build.gradle)のTipsについての紹介。
Groovyで設定を書けるのがよい。

テンプレートをGitHubに公開している。
その他の記述は「Android実践プログラム」の5章が詳しい。

アプリを公開する前に、最低限知っておきたいセキュリティ事項(@taro_gaku)

セキュリティについてあまり知らなかったのでためになった。

書籍は「Android Security 安全なアプリケーションを作成するために」と「Androidアプリのセキュア設計セキュアコーディングガイド」の2冊
AnCoLeという学習コンテンツ、点検機能が付いたツールがIPAから提供されている
- Androidアプリの脆弱性の学習・点検ツール AnCoLe：IPA 独立行政法人情報処理推進機構
- WindowsのEclipse プラグインというのが何かあれ
SSL通信の実装不備で原因となる開発時にオレオレ証明書を通すように実装したままリリースしているって話はあるなるネタだなーと思う*2
- JPCERTの人がでデブサミで発表した資料が詳しい
Androidは便利な外部ライブラリがたくさんあるが問題が起こる場合がある
- 利用するライブラリのライセンスによってソースコードの公開が必要となる、商用利用が不可となることがある
- ライブラリに脆弱性があるとライブラリを利用して作られたアプリにも脆弱性がある
- 広告モジュールは無断で利用者情報を抜き取り、外部送信されている場合があるためアプリがマルウェアだと判断される
アンドロイドスマートフォンプライバシーポリシーガイドラインを無料公開している
- アンドロイドスマートフォンプライバシーガイドライン
書籍は「アプリビジネスで転ばないためのスマートフォンプライバシーの基礎知識」がよいらしい
同意取得は利用目的、外部送信、第三者提供の有無の記載が必要でポップアップダイアログを出す
個人情報保護法に反しているかではなくプライバシー侵害について考える
プライバシーポリシーは利用規約や会社のプライバシーポリシーと分け、アプリケーションごとに作る
GoogleとFacebookのプライバシーポリシーは1つしかなく全て取得するようになっている

Android Security　　安全なアプリケーションを作成するために

作者: タオソフトウェア株式会社
出版社/メーカー: インプレスジャパン
発売日: 2011/12/29
メディア: 大型本
購入: 6人クリック: 141回
この商品を含むブログ (27件) を見る

アプリビジネスで転ばないためのスマートフォンプライバシーの基礎知識 (Next Publishing)

作者: 寺田眞治
出版社/メーカー: インプレスR&D
発売日: 2012/12/25
メディア: オンデマンド (ペーパーバック)
この商品を含むブログを見る

マテリアルデザインを用いたデザインリニューアル(@ninjinkun, @yuki930)

ここまでで事例の話を聞けていなかったのでFablicの人の話を聞く。

FrilのAndroid版リニューアルにともないマテリアルデザイン対応をしたという話。

<div class="hatena-bookmark-detail-info"><a href="http://www.google.com/design/spec/material-design/introduction.html">Introduction - Material design - Google design guidelines</a><a href="http://b.hatena.ne.jp/entry/http%3A%2F%2Fwww.google.com%2Fdesign%2Fspec%2Fmaterial-design%2Fintroduction.html">はてなブックマーク- Introduction - Material design - Google design guidelines</a></div>

マテリアルデザインガイドラインに沿ってナビゲーションドロワーを付けたが既存ユーザの使い勝手が悪くなったという話はいかにもUXっぽい。

マテリアルデザインを理解する上でキーとなる4つのポイント
- Material Design on Android Checklist | Android Developers Blog
Androidの標準に合わせたら既存ユーザの使い勝手を悪くしてしまった
- お知らせを見るのに既存よりも1タップ余計にかかる
- ドロワーを表示するとバッチ（新着通知）が見えなくなる
- ユーザの動線はタイムラインを見てお知らせをチェックする
- @yuki930「やっぱりボタンは表示する必要がある」
- @ninjinkun「ボタンとバッチは作るのがめんどう」
UIのパーツはGoogleが提供している
- Sticker sheets & icons - Resources - Google design guidelines
アイコンを外部フォントにしているところはおもしろいなと思った
- TextViewは外部フォントに対応していないのでCalligraphyでTextViewを拡張している
実装はRxJavaでPromiseを書いているところがいいなと思った
Scroll to Full Screenは今ならSupport LibraryでできるけどAndroid-ObservablScrollViewの方がもっとよいらしい
ActivityやFragmentの継承を使わないのはへぇーという感じ
- 差分の見通しが悪くなるのは分からないでもない

感想

開発まわりは色々と便利になっているなーと感じた。

机があるのはありがたい。
隣と間隔が空いているのでゆったりと聴講できた。

聴講したセッションはハズレなしでどれも満足。（TLを見ると裏のセッションも盛況だったのでどちらを聴講しても満足できたはず）

Android開発のモチベーションがあがったイベントだった。

*1:Task Lists in GFM: Issues/Pulls, Comments · GitHub

*2:ただのバグだけど

2014-12-21

4Uをクローリングして画像リンクを抽出する

python crawler adventcalendar

このエントリはクローラー／スクレイピング Advent Calendar 2014 - Qiitaの21日目になります。

4Uという美女画像を投稿してみんなで共有するソーシャルブックマークサービスをクローリング/スクレイピングしてみたいと思います。

4U

<div class="hatena-bookmark-detail-info"><a href="http://4u-beautyimg.com/">美人画像・美女画像投稿サイトの4U</a><a href="http://b.hatena.ne.jp/entry/http%3A%2F%2F4u-beautyimg.com%2F">はてなブックマーク- 美人画像・美女画像投稿サイトの4U</a></div>

4Uが公開されたのは2008年なのでWebサービスとしては老舗です。
今年の2月にリニューアルがあり、ページ構造が変更されています。
リニューアル前のページ構造に対応したものは誰かが作っていますが、リニューアル後のページ構造に対応したものはなさそうなので作ってみました。

4Uのページ構成

いわゆる一覧ページ（小さい画像が並んだページ）と詳細ページ（大きい画像があるページ）で構成されています。
ほしいのは大きい画像なので以下のようにクローリング/スクレイピングします。

一覧ページから詳細ページへのリンクを抽出する
詳細ページから画像のURLを抽出する
一覧ページでページングできるところまでクローリングする

作ったもの

crawler4u.py

GitHubに置いてあります。

言語はPython2.7、HTMLパーサはBeautiful Soupを使っています。
引数に人名と出力先のパスを渡すと、詳細ページのURL、詳細ページにある画像のURL、引用元のURLをCSVで出力します。
ちなみにWindowsでしか試してないのでMacやLinuxで動くかは不明です。

以下、ざっくりとした解説です。

詳細ページのリンクを抽出

詳細ページのパスはimage/xxxなのでaタグのhrefがimage/で始まるものを抽出します。
詳細ページのリンクが見つからない場合は処理を終了します。

詳細ページから画像のURLを抽出する

画像URLはimgタグのaltに人名があるので引数の人名と一致していればsrcの値を抽出します。

GitHubのソースでは引用元のURLも抽出していますが、引用元のURLは<td class="t-left">の直下にあるaタグを抽出します。
Beautiful SoupだとjQueryのセレクタのようにsoup.select("td.t-left a")と書けます。

ページングできるところまで一覧ページ(list.php)をクローリング

一覧ページは13件ずつ表示されることを考慮します。
GETパラメータのlimがそのページの起点（例えばlim=13なら14～26件を表示）になるのでlimを13ずつ増やしながらクローリングすると全てのURLを抽出できます。

ここまで美女画像がぜんぜん出てきていないので、このプログラムを使って集めたURLから美女画像をGetした結果をのせておきます。
「吉木りさ」で抽出した結果から得た画像をダウンロードしています。*1
4UだとGoogle画像検索のように関係ない画像が混ざらないのがよいです。

本当は引用元の画像の方がサイズが大きいので引用元から画像を抽出したかったけど簡単ではないので保留しました。*2

*1:2014/6のデータなので件数が現在より少ない

*2:引用元が画像の直リンクでないとか、Tumblrのリブログで実体がないとか、JavaScriptのページだとか

2014-11-04

第3回Webスクレイピング勉強会@東京（最終回）に参加しました

event tokyoscrapper

第3回Webスクレイピング勉強会@東京（最終回） - connpass

参加したのでメモ。
ちなみに今回が最終回で4回目の予定はないとのこと。
メモは自習用に書いているので発表資料に沿っていないものもあります。

発表資料はconnpassのページに全てあがっています。

togetterもあります。

第3回Webスクレイピング勉強会@東京のまとめ - Togetterまとめ

クローリングしにくいものに挑戦(@lumin)

@luminさんの資料は後半ほとんど非公開になっている。
闇実装なので仕方がないところもありますが、資料を見てブログ（復習）を書こうと思っていたので当てが外れました。。

wgetはクローラで最も基本となるツール、curlは再帰で使えないのでクローラとは呼べない、UAをブラウザにするとか、Cookieに対応するとかはクローラ作りでは常套手段
クローリングしにくいのはHttpsのようなProxy、WebSocket（最近少し下火）、SPDYはGoogleの開発した次世代のHTTPプロトコル
特定されないようにしたい、匿名クローリングするにはTorを使う
クローリングしにくいページ
- JavaScriptの動的コンテンツはページが読み込まれないと情報が取得できないので、ヘッドレスブラウザやブラウザでクローリングを行う、ブラウザはFirefoxがおすすめ
  - CasperJS
- ガラケーのサイトはキャリアのIPアドレスに制限されているものがある
- スマホサイトはUAをJavaScriptで取得していたり、縦横表示の切り替え(Orientation)で判定しているためUAを偽造するだけではうまくいかない
  - Androidのリモートコントロール（エミュレータとかx86 AndroidをVMで動かすとか）
- 課金ダウンロードサイトはダウンロードするまで待たされるので、それが嫌なら課金してしまう
日本と外国からではインターネットの見え方が異なる
- 海外のVPSやクラウドを借りてクローリングする
- 通信料課金があるので注意が必要
- RTTは重要でRTTが悪いと使いものにならない
P2PクローラでWinnyやShare、BitCoinなどののクローリングを行っている
- P2Pは主としてClosedプロトコルのクローリングなので一からプロトコルの中を解析する必要がある
Flashのスクレイビングは逆コンパイルで行う、ゲームのチートを取得したりする
データの保管はどうやっているのかという質問
- MySQLに入れるとかKVSに入れるとか色々やっているが、KVSは大量データに向いていない、TBオーダーになると厳しい

ソーシャルスクレイビング(仮)(@YuzoAkakura)

@nezuqさん曰く、これまでの勉強会では技術がメインで事例についての発表がなかった。
最近、データジャーナリズムというのが注目されており、データジャーナリズムの第一人者である@YuzoAkakuraさんに発表をお願いしたとのこと。

データジャーナリズムとは「データからニュースを発見し、わかりやすく伝える手段」
New York Times
- 全米の水質に関する2009年の調査報道
- 水質データを地図にマッピングすることで、汚染水を垂れ流していた企業、施設を特定
  - これまでの報道は記事を書いて終わりだったので伝わりずらい
  - 地図上に表現されることで住んでいる地域がどうなのか身近な問題として捉えやすくなる
データジャーナリズムが注目されたのはWikiLeaksが注目された時期と重なる
データジャーナリズムのリソースはソーシャルメディア、オープンデータ（政府、自治体、企業）、センサーデータなどの多種多様かつ膨大なデータであり、日々生み出され続けている
データジャーナリズムはニュースの表現方法、発見方法、制作プロセスに革新を起こしている
- ニュースの表現方法はこれまでテキスト中心であったが地図や動画、アニメーションなどの多様な表現を組み合わされるようになった
- ニュース発見方法は取材対象として「データ」がより重視されるようになった
- ニュースの制作プロセスでは制作過程の分業が浸透してきた
  - ProPublicaやICIJなどの報道団体がある
データジャーナリズムのポイントはデータを探すこと
- なければ自前で作る（Webスクレイピング）
ソーシャル・スクレイピング＝社会との関わりを持ったWebスクレイピング
Journalism Innovation Awardを企画している
- 切り口として社会性の高い新事実を発見する、社会常識を覆す、嘘を暴くなどがある
  - QAでアジア大会のバドミントンはデータジャーナリズムになるのではないかという話があった
- データジャーナリズムは誰でも挑戦できる
  - 公開データ、OSS、Webの活用
データジャーナリズムは技術者が不足しているので興味がある方は試してほしい

LT

AWSを利用してスクレイピングの悩みを解決するチップス(@dkfj)

「Rubyによるクローラー開発技法」の著者である@dkfjさんの発表。
書籍でいうと「6-4 クラウドを活用する」に書かれている内容です。

Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例

作者: 佐々木拓郎,るびきち
出版社/メーカー: SBクリエイティブ
発売日: 2014/08/22
メディア: 単行本
この商品を含むブログ (9件) を見る

じっくりと読めていませんが@luminさんの発表にあったJavaScriptのページのスクレイビングについての解説もあり、Webデータを取得したい人にとってはとても参考になります。

データ収集の課題
- クローリングに時間が掛かる
  - 収集先が膨大、収集データが大きい
- IPアドレス制限
  - 単位時間あたりで既定の回数を超えるとブロックされる
  - IPアドレスをトリガーにされる(Google BAN)
  - 会社のプロキシサーバをBANされると会社全体に影響が出てしまう
- データの保存方法
  - 収集したデータを長時間保存したい
AWS(EC2, S3, SQS)で解決できる
- EC2を並べて稼働
- EC2の処理結果をS3に集約
- SQSでジョブ制御
巡回先サイトに配慮する
- 巡回する時間間隔を空ける（1秒ルール）
- 同一サイトを対象にする場合は多重度をあげない
  - GoogleやAmazonなら問題にはならないけど中小のシステムだと1秒あたり20～30件ほどしか処理できないこともある
- Robots.txtに従う

私が開発しているhappyou.infoについて(@shogookamoto)

次回があれば肝となる抽出手法の発表を聞きたい内容。
学術研究では半構造データのマイニング、繰り返し構造のマイニングという分野かと思われます。
なんでもRSSを開発した東工大奥村研が国内では第一人者ですが、なんでもRSSは10年ぐらい前のツールなので最新の研究動向はどうかなと思います。

Final Scrapper
- RSSフィードを自動生成
- RSSフィードを持たないWebページでも取得できる
happyou.info
- 政府機関と全上場企業をスクレイピング
- タグを付けて記事を分類

リサーチ向け・ブラウザだけでスクレイピング(@hirosuke_asano)

リサーチするためのリスト作成
- 例えばAKB48のメンバリストを作成する
- Webスクレイピングはプログラミングをしない人には敷居が高い
Firefoxのアドオンを使用してWebスクレイピングする
- Firebug, FireQuery
  - HTMLソースから欲しいデータを取得するjQueryを書く
- その他にテキストエディタ、Excelを使う
- JavaScriptの基礎知識、CSSセレクタ、HTML、jQueryが分かればできる
  - アプリを手作りするよりも簡単

実践Excel スクレイピング(@h_sinohara)

Perlのスクレイピングはめんどい
ExcelでWebスクレイピング
- Webクエリという機能がExcel2003からある
  - URLを指定してデータを選択して取り込むことができる
  - Webページが更新された場合に再取得することが可能
- Excel2013からは取得データの可視化もできる
  - Power Viewのマップ

その他(@nezuq)

Webスクレイピングで使う言語、人気があるのはPython
東京スクラッパーでは自然言語処理の勉強会を行っている
- Webデータは自然言語で出来ているので、自然言語を処理できれば新しい知識を獲得できる
- 自然言語処理が分かる人はぜひ発表をお願いしたい

感想

東京スクラッパーの勉強会は3回目ですが、今回もよい勉強になりました。
アンケートではPythonが人気のようで、自分もPythonユーザとして是非ともPythonのクローラ本がほしいなと思いました。

2014-10-06

ゆるふわ非構造#1に参加しました

event tokyoscrapper

久しぶりに勉強会に参加したのでメモ。
東京スクラッパーというコミュニティの勉強会でデータ前処理を扱います。
メモは自習用に書いているので発表資料に沿っていないものもあります。

発表資料はconnpassのページに全てあがっています。

ゆるふわ非構造 #1 - connpass

テキスト前処理のための形態素解析入門ゆるふわ編 (@yamano357)

言語処理の応用
- テキストマイニング、情報検索、機械翻訳、自動要約など
言語処理の壁は前処理と素性（そせい）抽出にある

テキスト前処理のための形態素解析

形態素解析は文法や辞書、コーパスから学習したスコアをもとに文を形態素という意味を持つ最小単位に分解すること。

形態素解析

辞書引きしてすべてのパターンの形態素を出力する
- 辞書検索のためのデータ構造にはトライ木を使用する
- 出力結果はラティスという形態素をノードとしてその間をリンクでつなげたグラフで表現される
コスト最小法により最適解を発見する
- 隣接コスト（連接コスト）と生起コスト（単語コスト）が最小になる解を求める
  - 隣接コストは形態素同士のつながりやすさ、生起コストは形態素の出現しやすさを数値にしたもの
- 動的計画法の一種であるビタビ(Viterbi)アルゴリズムを使用する
コスト推定
- 隠れマルコフモデル(HMM)や条件付き確率場(CRF)を使用する

日本語の形態素解析器

フリーで使用できるものとしてJUMAN, ChaSen, MeCabなどがある
- MeCabの解説は開発者である工藤さんの資料が詳しい
KyTea
- 部分アノテーションコーパス（分野特有の表現のみの情報付与）と点推定による手法
- MeCabはフルアノテーションコーパスと系列ラベリングによる手法なのでアプローチが異なる
教師なし形態素解析
- ベイズ階層言語モデルによる教師なし形態素解析
- 新語や未知語に対して頑健である

素性抽出

素性抽出はテキストの特徴を数値にしたもの、機械学習に適用しやすいようにベクトルや行列の形式であらわす。

Bag of Words
- 文書に含まれる単語の頻度で表現する
言語データは単語を特徴次元とすると疎なベクトル（ほとんどの要素が0）になる
- 全ての発生しうる単語のうち、使われる単語はごく一部
疎なベクトルはHashMap（KeyとValueのペア）のようなデータ構造で表現する

CaboChaで始める係り受け解析 (@nezuq)

CaboChaはSupport Vector Machinesに基づいた日本語係り受け解析器
Ubuntu14.04 + Python3の環境でCabochaを使う
- インストールするさいはconfigureのオプションで--with-charset=utf8を付ける
- Python3で使用するにはPython バインディングのソースを修正しないとエラーになる

RDF/OWLの概要とOSS実装、及び活用イメージについて～非構造データの構造化ゴールとしてのLinkedData～ (@masayuki_isobe14)

セマンティックWeb技術は今後不可欠となる分野
- LinkedOpenData
- スマホファーストとネイティブアプリ化
- Internet of Things

LinkedData

非構造データと構造化データの中間に位置する
- 一部をLinkedOpenDataとして公開することや社内向けにはLinkedCloseDataとしてデータを蓄積するという活用ができる

LinkedDataを支える実装技術

RDF(Resource Description Format)
- リソースを記述するフォーマットで有向グラフのノードとエッジに型と名前が付いたようなもの
  - ノードとノードをエッジでつないだものはRDFトリプルと呼ばれる
  - ノードとエッジはURIとして記述する
定義済みの用語
- FOAF(Friend of a Friend)
- DublinCore
- RDFS（RDF スキーマ）
- OWL（Webオントロジー言語）
RDFでデータを記述すると実体とメタ情報、メタ情報のメタ情報といった情報表現が可能となる
RDFS
- オブジェクト指向言語のクラスとプロパティの構造を記述する
- ボキャブラリと個体/ファクトを別のRDF文書にすることでボキャブラリの定義を共通で使うことができる
  - ボキャブラリと分離することで個体/ファクトの記述を簡潔にできる
- 推論
  - 記述していないRDFトリプルを自動で追加する
OWL
- RDFSのクラスとプロパティの機能を拡張してクラスの集合演算やプロパティの値制約を記述できる
RDFはXMLで表記できるがN-Triples, Notation3, Turtleといった簡易表記方法がある
SPARQL（RDFクエリ言語）
- RDF文書からRDFトリプルを検索/挿入/書き換えするクエリ言語
SWRL（セマンティックWebルール言語）
- サブルーチンのようにクエリを組み合わせる使い方ができる

RDF/OWLのOSS実装

はじめて試すならApache Jenaがよさそう
OpenRefineはデータの整形やクリーニングを行うツール
公開されているオントロジーにはSUMO, YAGO, gist7.0上位オントロジーがある

LT

LTはPrologとfluentdの話。
内容はゆるふわな感じで理解しました。

感想

初級者向けの勉強会なので自然言語処理や機械学習の専門知識がなくても参加しやすいと感じました。
勉強会の目的としては以前あったさくさくテキストマイニングに近いかもしれません。

2012-09-10

プログラミング生放送勉強会第17回@品川 #pronama に参加しました。

pronama event

マイクロソフト@品川で行われたプログラミング生放送勉強会に参加しました。

プロ生はあまり知らない言語とか技術を勉強できるところがおもしろいなと思います。
今回はVisual Studio 2012で使えるC++11やlinq.jsの発表がおもしろく、早くVisual Studio 2012いれろという感じですね。

午前はプログラミングシンポジウムに行っていたので、40分ほど遅れての参加。
そのため、はじめの2つは聞けてないので省略します。

linq.js ver.3 and JavaScript in Visual Studio 2012 neueccさん(@neuecc)

今回、協賛しているgloopsのエンジニアneueccさんのlinq.jsの発表。
ソーシャルゲームの会社でもVisual StudioとかSQL Serverとか使うんですね。

JS and Collection Library

コレクションは配列のようにデータを入れて、ループでまわして使うもの。
- C#ならforeachとかでぐるぐるまわす。
コレクション処理：要素の値を変形する、集計する、フィルタする。
- ループでまわすのはやぼったい。さくっと書けるようにしたい。
JavaScriptにはprototype.jsがありましたね。
- prototype.jsはRubyゆずりの強力なコレクション処理があった。（けど死んだ）
jQueryはmapとfilterぐらいしかない。
EcmaScript5
- ちょっと追加されたぐらいで、まだまだ足らない。
- 互換性がー、IE6がー
コレクション処理のライブラリ
- Underscore.js
- Sugar

LINQ

Language INtegrated Query: あらゆるデータソースを統一的な書法をあつかえるようにする。
話すと長くなるので詳しくはWindows Developer Daysの資料を見てください。
- LINQ to Everything : データソース・言語を超える LINQ の未来 | Windows Developer Days 2012 | Channel 9
- LINQの対象はインメモリのコレクションも含む。
  - JavaScriptのインメモリのコレクションにたいして適用すれば、JavaScriptでもできるのではないか。それがlinq.jsのはじまり。

linq.js

JavaScriptでLINQ to Objectsを実現したLINQ好きのLINQ好きによる万人のためのライブラリ。
- linq.js - LINQ for JavaScript
- LINQのない言語で開発したくないのでJavaScriptで作りました。
- LINQのよい性質を100%継承し、さらにC#オリジナルで物足りない要素を追加。
お試しで書ける。
- linq.js Reference
ver.3ではUpperCamelCaseをlowerCamelCaseに。Visual Studio 2012によく対応していて、IntelliSenseが強化されてがしがし補完をきかせて書ける。QUnitに連携できる。

JavaScriptエディタとしてのVisual Studio

Visual Studio Express 2012 for Web
- IntelliSense（入力補完）
  - ドット打てば完ぺきにチェーン補完。
  - 無名メソッド内部の引数まで驚異的に追随して補完。
  - ツールチップヘルプ＋オーバーロードも完ぺき、オプション引数も[]囲みで表現。
- jQueryもIntelliSenseに対応。（日本語版Visual Studioに同梱されているのは日本語のヘルプ）
- Page Inspector
  - Visual Studio統合のページプレビューでdocument.writeでコンソールアプリケーションぽく使えたりQUnitのテスト結果画面を表示したりも便利。

Announce

linq.jsはLINQのあつかえるデータソースのうちIEnumerable(LINQ to Objects)だけでした。
今回あらたにLINQ to XML for JavaScriptができました。
- C#でもXML操作に革命を起こしたLINQ to XMLをJSに。
  - DOMは使いづらいのでLINQ to XML for JavaScriptで快適にXML操作ができるように。
  - linq.js ver.3の上に構築される。
JavaScriptにXMLはいる？
- JavaScriptといえばJSON
- JavaScriptの用途は広がっているので、XMLをあつかうこともあるはず。
  - Node.js, Office 2013, WinRT(Windows8), etc...
  - XMLは今もたくさん存在している。

いいパブッ！！はじめてのEPUB3 プロ生出張版ろすさん(@lost_and_found)

電書ちゃんねるのろすさんの発表。
「HTML5とか勉強会」で発表した資料をもとにプロ生版を作ろうかと思ったけど、少しやさしめの内容にしましたとのこと。

まず電子出版を3つに分類して整理しています。

Reading System: 電子書籍を閲覧するSW/HW。ReaderやViewerともいわれる。
Platform: 出版社が電子書籍を販売するためのインフラ。
Format: 電子書籍のデータ形式。
フォーマットにはEPUBやPDFのようなオープンのものと、AmazonのAZWやKF8のような企業固有のものがある。

EPUB

EPUBのロゴェ
IDPF(国際電子出版フォーラム)が開発・管理をしている。
EPUB is the distribution and interchange format for digital publications based on web standards
アメリカの出版社はKindleの電子書籍を出版するときEPUBで入稿する。Kindle StoreではAZWに変換して、DRMをかけて配信する。
- BtoBで使われるのがInterchange、BtoCで使われるのがDistribution。
- EPUBは配信フォーマットで使われることもあるのでBtoB、BtoCともに使われる。
HTML5, CSS, JavaScriptなどWebの規格を取り入れている。
Reflow（リフロー）: EPUBの特徴のひとつでスクリーン幅や文字の大きさによって折りかえしを制御する。
EPUB3(EPUB 3.0)はEPUBの3回目の改訂バージョンです。
EPUB3の作りかた
- XHTML5で書いたコンテンツ文書を作成する。
- metadata, manifestを記述したパッケージ文書を作成する。
- すべてのファイルをzipでまとめる。

EPUB3はなにが新しいの？

Multimedia
- Audio/Video
Scripting
- JavaScriptが使える。
Media Overlay
- コンテンツのテキストに音声を同期して読みあげるための仕様。
- Content DocumentとAudio clip(MP3)をコンテンツのどの部分を、オーディオファイルのどのタイミング・どの範囲を再生するかを.smil(XML)で指定することで音声読みあげが同期できる。
Globalization
- 日本語テキストに対応。
  - Ruby（ルビ）, Vertical Writing（縦書き）, Tate-chu-yoko（縦中横）
  - ちなみに縦書きにしてるのは日本の他、台湾とモンゴルだけ。
HTML5、CSS3により表現の幅が広がった。

進化をつづけるEPUB3

Fixed layout

漫画のようなレイアウトが固定されたコンテンツだとリフローと相性が悪かった。
固定レイアウトをあつかう EPUB 3 Fixed-Layout Documents という文書が2012年に公開された。

Adaptive layout

リフローを高度に制御して複雑なレイアウトを実現する。

Hybrid layout

固定レイアウトとリフローを切り替える。

EPUBや電子書籍には課題があるが、確実に状況はよくなっているとのこと。

パッと見でわかるC++11 επιστημηさん(@epitwit)

Wikipediaにも記載されているεπιστημη（えぴすてーめー）さんの発表。
C++はほとんど使わないのですが、発表はとてもおもしろかったです。

Visual Studio (VC++) と C++11

Visual Stidio 2012に対応したC++11の話。
- C++11のなかでも言語仕様、ライブラリ拡張によって読みやすくなった、書きやすくなったものを紹介します。
- 今回紹介するものはVisual Studio 2012で動作するものです。(Visual Studio 2010で動くものもある)
Visual Studio 2012では言語レベルの強化とライブラリ追加でC++11に迫っている。
- でも、フルセットではない。フルセットを試すならGNU, GCC, LLVM Clang(Xcode)で。

array

固定長配列のためのクラスarrayが追加されてます。
arrayではbegin(), end(), size()などの関数が使える。

begin(), end()

先頭／末尾の要素が取れる関数がコンテナと配列で同じように書ける。

auto

型推論してくれるのでvector::iterator...と書かなくてよい。

range-based for

範囲を指定するfor
- C#のforeachのあたるもの。Javaのrange-based forにちかいかも。
関数begin(), end()が使えるコンテナであればrange-based forが使えます。
foreachではできない参照ができます。auto&とすれば型推論して参照ができる。

lambda式

関数オブジェクトをよびだしたその場で書いてしまう。
Visual Studio 2012ではstateless-lambda（キャプチャをしないlambda）が関数ポインタに暗黙変換できる。

スレッドライブラリ

Windows APIだとスレッド本体と着火がわのあいだにwrapperが必要となる。
C++11のスレッドライブラリを使うと簡単に書ける。
- threadのコンストラクタに関数オブジェクト([&](int x, int y) {result = plus_int(x,y);})と引数を書くだけ。join()で終わるのを待つ。
async/future
- asyncは引数を非同期で実行し、結果をfutureで受ける。
- get()でasyncが終わるのを待つ。
mutex：排他制御
- lock_guardインスタンスがデストラクトされるまでロックされる。
atomic
- mutexよりも短い操作のロック。

Bingなんてもういらいない！質問応答システム入門 torotokiさん(@torotoki)

最後は自然言語処理や機械学習を勉強している高1のtorotokiさん。
さくさくテキストマイニングで形態素解析の発表を聞いたことがありますが、今回も難しい話です。

発表を聞いて思いだしたのは、マイクロソフトでもダイアログナビという質問応答システムがありました。

大規模テキスト知識ベースに基づく自動質問応答－ダイアログナビ－

質問応答システム

質問応答システムは自然言語をもとに回答してくれるシステム。
- 今年の東京の人口は？→13,227,730人
- 既存の質問応答システムにはIBM WatsonやSiriがある。

質問システムの構成

質問解析：質問タイプの特定
- 固有表現抽出/SVM
文書検索：質問文からクエリを作成
- TF-IDF/Okapi BM25
回答候補抽出：取得した文章から回答候補を抽出
- 質問タイプをもとに回答候補上位N件
回答選択：確率の高いものを回答
- SVM+ランキング

質問解析

質問文と回答候補のタイプを照合し同じだったら、最終的な候補になる。
質問分ですでに解答のタイプが決まっているものとする。
回答候補のタイプ推定は固有表現抽出をつかう。
- 人名、地名、組織名などの単語を認識する。
- IREXの基準なら係り受け解析器のCabochaに付属している。
質問分のタイプ推定は自前で用意。
- 質問文-質問タイプのペアで機械学習をする。

文書検索

質問文から検索クエリをつくるのは自立語（品詞が助詞、助動詞以外）をフィルタする。
- 「空は何色ですか？」→「空、何、色」となるので簡単な例だとそれなりにうまくいきそう。
変換したクエリから文書を検索するのはTF-IDFとOkapi BM25をつかう。
- TF-IDFは単語の頻度と単語が含まれる文書頻度の逆数。
- Okapi BM25はTF-IDFを改良したもの。

回答候補抽出

クエリにたいする文書のランキングが取得できれば文書を上位N件にしぼる。
N件の文書に固有表現抽出を使い、固有表現と質問文の質問タイプを照合する。
タイプが同じならば固有表現がすべて回答候補となる。

回答選択

SVMを使用して回答を機械学習する。
- 質問文-回答-候補文書（ソース）のペアで学習する。
- 回答候補のスコアを算出し、もっともスコアが高いものを回答とする。

データ

質問解析（質問文-質問タイプ）のデータは日本語だとない。
回答選択（質問文-回答-根拠文）のデータは日本語だとNTCIR-6 QACのデータが公開されている。
- ただし毎日新聞のデータを買わないといけないので大学とか研究機関でないと無理かも。

さいごに、Bingはやっぱり必要ということで。

参考文献の「質問応答システム」は買うかな。

質問応答システム (自然言語処理シリーズ2)

作者: 磯崎秀樹,東中竜一郎,永田昌明,加藤恒昭,奥村学
出版社/メーカー: コロナ社
発売日: 2009/07/28
メディア: 単行本（ソフトカバー）
購入: 2人クリック: 29回
この商品を含むブログ (3件) を見る

力尽きたので、LTは省略します。