草プログラマー、それはつまり草

CS 会計 法律 サッカー 野球 bitcoin 数学 物理学 などいろいろやってます

形態素解析 と word2vec と fastText

自然言語処理に興味があるのならばおそらく

自然言語処理の基礎

自然言語処理の基礎

 

 この本が一番よくわかると思いましす。

pythonで形態素解析と言えば mecab と janome が有名です

形態素解析ではまあ品詞分解みたいなことができます。

とりあえず簡単なjanomeをつかってみればよいかと思います。

janomeはpythonでできているので pip install janome で使えます。

word2vec はGoogleの研究者(トマス・ミコロフ氏ら)が開発した、文章中の語句をベクトルに変換するツールです。fastTextもチェックしておきましょう。

  • 関連単語の抽出
  • 単語と単語の類似度を調べる
  • 意味の線形計算(ex.王様 ー 男 + 女 = 女王)

などができます。

使いかたは簡単で、Gensimライブラリを使えばよいと思います。

$ pip install gensim

でOKです。簡単ですね。

fastTextは同じくミコロフ氏が(facebookで)開発したもので

  • 単語のベクトル表現をつくること
  • テキストを分類すること

を高速化したみたいです。かなり早いみたいです。試してみましょう。

 

Copyright © 2016 へなちょこプログラマー All rights reserved.