ゆるふわ非構造#1に参加しました
久しぶりに勉強会に参加したのでメモ。
東京スクラッパーというコミュニティの勉強会でデータ前処理を扱います。
メモは自習用に書いているので発表資料に沿っていないものもあります。
発表資料はconnpassのページに全てあがっています。
テキスト前処理のための形態素解析入門 ゆるふわ編 (@yamano357)
素性抽出
素性抽出はテキストの特徴を数値にしたもの、機械学習に適用しやすいようにベクトルや行列の形式であらわす。
- Bag of Words
- 文書に含まれる単語の頻度で表現する
- 言語データは単語を特徴次元とすると疎なベクトル(ほとんどの要素が0)になる
- 全ての発生しうる単語のうち、使われる単語はごく一部
- 疎なベクトルはHashMap(KeyとValueのペア)のようなデータ構造で表現する
CaboChaで始める係り受け解析 (@nezuq)
RDF/OWLの概要とOSS実装、及び活用イメージについて~非構造データの構造化ゴールとしてのLinkedData~ (@masayuki_isobe14)
- セマンティックWeb技術は今後不可欠となる分野
- LinkedOpenData
- スマホファーストとネイティブアプリ化
- Internet of Things
LinkedData
- 非構造データと構造化データの中間に位置する
- 一部をLinkedOpenDataとして公開することや社内向けにはLinkedCloseDataとしてデータを蓄積するという活用ができる
LT
LTはPrologとfluentdの話。
内容はゆるふわな感じで理解しました。