SSブログ

できることと簡単にできることと janome [日記]

随分前に参加した、Python のもくもく会で 、自然言語処理の研究をしていて、レコメンドエンジンのプロトタイプは Excel のマクロでできていて、それを Python で実装したいんだけど、という人が来ていた。
mecab-python がインストールできなくて苦しんでいた・・・というか、僕がインストールしてあげようとして挫折してしまった。

今現在の、Ubuntu なら apt と pip でインストールできるっぽいが・・・
https://qiita.com/dwarfer7634/items/551886e8d817321abbd5
sudo apt-get install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8
pip install mecab-python3

言い訳すると、そのときは、Windows がメインで、今日のためにVirtualBox に CentOS6 をインストールしてきましたという状態で、
root 以外のアカウントは登録されてなくて Windows から ssh でログインできるようにもなってなかった。
Ubuntu だと比較的簡単にインストールできるようになったが、やはり windows で python-mecab は鬼門らしい。

この時、挫折してしまったのが申し訳ないのと同時に、
「自然言語処理の研究をしていて、MeCab のインストールに苦しんでいる人いっぱいいるんだろうなぁ。もったいないなぁ」
と思った。

そんなことがあった直後に、pure python の形態素解析器 janome が公開されたので興味を持った

- http://nakagami.blog.so-net.ne.jp/2015-04-11
- http://nakagami.blog.so-net.ne.jp/2015-04-18
- http://nakagami.blog.so-net.ne.jp/2015-04-27

最初 python3.4 でしか動作しなかったものを python2.7 でも動くようにして、その後、多少高速化もした。
ここ↓を見ると、まだ mecab -Owakati の 300倍くらい遅いみたい
https://umiushizn.blogspot.jp/2017/09/blog-post.html
だけど、最近 janome は使われているようで、できることと簡単にできることは大きく違うし、簡単にできることは、それだけで価値のあることだな、と思う今日この頃。
コメント(0) 
共通テーマ:日記・雑感

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

※ブログオーナーが承認したコメントのみ表示されます。

Facebook コメント