形態素解析 と word2vec と fastText
自然言語処理に興味があるのならばおそらく
この本が一番よくわかると思いましす。
pythonで形態素解析と言えば mecab と janome が有名です
形態素解析ではまあ品詞分解みたいなことができます。
とりあえず簡単なjanomeをつかってみればよいかと思います。
janomeはpythonでできているので pip install janome で使えます。
word2vec はGoogleの研究者(トマス・ミコロフ氏ら)が開発した、文章中の語句をベクトルに変換するツールです。fastTextもチェックしておきましょう。
- 関連単語の抽出
- 単語と単語の類似度を調べる
- 意味の線形計算(ex.王様 ー 男 + 女 = 女王)
などができます。
使いかたは簡単で、Gensimライブラリを使えばよいと思います。
$ pip install gensim
でOKです。簡単ですね。
fastTextは同じくミコロフ氏が(facebookで)開発したもので
- 単語のベクトル表現をつくること
- テキストを分類すること
を高速化したみたいです。かなり早いみたいです。試してみましょう。