ゆるふわ非構造#1に参加しました

久しぶりに勉強会に参加したのでメモ。
東京スクラッパーというコミュニティの勉強会でデータ前処理を扱います。
メモは自習用に書いているので発表資料に沿っていないものもあります。

発表資料はconnpassのページに全てあがっています。

形態素解析は文法や辞書、コーパスから学習したスコアをもとに文を形態素という意味を持つ最小単位に分解すること。

辞書引きしてすべてのパターンの形態素を出力する
- 辞書検索のためのデータ構造にはトライ木を使用する
- 出力結果はラティスという形態素をノードとしてその間をリンクでつなげたグラフで表現される
コスト最小法により最適解を発見する
- 隣接コスト（連接コスト）と生起コスト（単語コスト）が最小になる解を求める
  - 隣接コストは形態素同士のつながりやすさ、生起コストは形態素の出現しやすさを数値にしたもの
- 動的計画法の一種であるビタビ(Viterbi)アルゴリズムを使用する
コスト推定
- 隠れマルコフモデル(HMM)や条件付き確率場(CRF)を使用する

フリーで使用できるものとしてJUMAN, ChaSen, MeCabなどがある
- MeCabの解説は開発者である工藤さんの資料が詳しい
KyTea
- 部分アノテーションコーパス（分野特有の表現のみの情報付与）と点推定による手法
- MeCabはフルアノテーションコーパスと系列ラベリングによる手法なのでアプローチが異なる
教師なし形態素解析
- ベイズ階層言語モデルによる教師なし形態素解析
- 新語や未知語に対して頑健である

素性抽出はテキストの特徴を数値にしたもの、機械学習に適用しやすいようにベクトルや行列の形式であらわす。

CaboChaはSupport Vector Machinesに基づいた日本語係り受け解析器
Ubuntu14.04 + Python3の環境でCabochaを使う
- インストールするさいはconfigureのオプションで--with-charset=utf8を付ける
- Python3で使用するにはPython バインディングのソースを修正しないとエラーになる

セマンティックWeb技術は今後不可欠となる分野
- LinkedOpenData
- スマホファーストとネイティブアプリ化
- Internet of Things

非構造データと構造化データの中間に位置する
- 一部をLinkedOpenDataとして公開することや社内向けにはLinkedCloseDataとしてデータを蓄積するという活用ができる

RDF(Resource Description Format)
- リソースを記述するフォーマットで有向グラフのノードとエッジに型と名前が付いたようなもの
  - ノードとノードをエッジでつないだものはRDFトリプルと呼ばれる
  - ノードとエッジはURIとして記述する
定義済みの用語
- FOAF(Friend of a Friend)
- DublinCore
- RDFS（RDF スキーマ）
- OWL（Webオントロジー言語）
RDFでデータを記述すると実体とメタ情報、メタ情報のメタ情報といった情報表現が可能となる
RDFS
- オブジェクト指向言語のクラスとプロパティの構造を記述する
- ボキャブラリと個体/ファクトを別のRDF文書にすることでボキャブラリの定義を共通で使うことができる
  - ボキャブラリと分離することで個体/ファクトの記述を簡潔にできる
- 推論
  - 記述していないRDFトリプルを自動で追加する
OWL
- RDFSのクラスとプロパティの機能を拡張してクラスの集合演算やプロパティの値制約を記述できる
RDFはXMLで表記できるがN-Triples, Notation3, Turtleといった簡易表記方法がある
SPARQL（RDFクエリ言語）
- RDF文書からRDFトリプルを検索/挿入/書き換えするクエリ言語
SWRL（セマンティックWebルール言語）
- サブルーチンのようにクエリを組み合わせる使い方ができる

LTはPrologとfluentdの話。
内容はゆるふわな感じで理解しました。

初級者向けの勉強会なので自然言語処理や機械学習の専門知識がなくても参加しやすいと感じました。
勉強会の目的としては以前あったさくさくテキストマイニングに近いかもしれません。