SSブログ

AWS 上で Open Data として公開された UniDic を使う [awabi]

https://aws.amazon.com/jp/blogs/news/published-unidic-mecab-on-aws-open-data/

これを使って、MeCab と awabi で形態素解析してみる。

ダウンロードするのに aws コマンド(awc_cli)が必要で、色々インストールの方法はあるけど、
例えば、Ubuntu2004 だったら apt で入れられる
$ sudo apt install awscli
$ aws --version
aws-cli/1.18.69 Python/3.8.5 Linux/5.4.0-48-generic botocore/1.16.19

$ aws s3  --no-sign-request cp s3://cotonoha-dic/unidic.zip ./
$ unzip unidic.zip

/etc/mecabrc の dicdir の行を以下のように修正(上で展開したdirectory を指定)
dicdir = /home/nakagami/unidic


$ echo 'すもももももももものうち' |mecab
すもも  名詞,普通名詞,一般,,,,スモモ,李,すもも,スモモ,すもも,スモモ,和,,,,,,,体,スモモ,スモモ,スモモ,スモモ,0,C2,,15660352771596800,56972
も  助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,,,,,,,係助,モ,モ,モ,モ,,動詞%F2@-1,形容詞%F4@-2,名詞%F1,,10324972564259328,37562
もも    名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,,,,,,,体,モモ,モモ,モモ,モモ,0,C3,,10425303000293888,37927
も  助詞,係助詞,,,,,モ,も,も,モ,も,モ,和,,,,,,,係助,モ,モ,モ,モ,,動詞%F2@-1,形容詞%F4@-2,名詞%F1,,10324972564259328,37562
もも    名詞,普通名詞,一般,,,,モモ,桃,もも,モモ,もも,モモ,和,,,,,,,体,モモ,モモ,モモ,モモ,0,C3,,10425303000293888,37927
の  助詞,格助詞,,,,,ノ,の,の,ノ,の,ノ,和,,,,,,,格助,ノ,ノ,ノ,ノ,,名詞%F1,,7968444268028416,28989
うち    名詞,普通名詞,副詞可能,,,,ウチ,内,うち,ウチ,うち,ウチ,和,,,,,,,体,ウチ,ウチ,ウチ,ウチ,0,C3,,881267193291264,3206
EOS


$ echo 'すもももももももものうち' |awabi
すもも  名詞,普通名詞,一般,*,*,*,スモモ,李,すもも,スモモ,すもも,スモモ,和,*,*,*,*,*,*,体,スモモ,スモモ,スモモ,スモモ,0,C2,*,15660352771596800,56972
も  助詞,係助詞,*,*,*,*,モ,も,も,モ,も,モ,和,*,*,*,*,*,*,係助,モ,モ,モ,モ,*,"動詞%F2@-1,形容詞%F4@-2,名詞%F1",*,10324972564259328,37562
もも    名詞,普通名詞,一般,*,*,*,モモ,桃,もも,モモ,もも,モモ,和,*,*,*,*,*,*,体,モモ,モモ,モモ,モモ,0,C3,*,10425303000293888,37927
も  助詞,係助詞,*,*,*,*,モ,も,も,モ,も,モ,和,*,*,*,*,*,*,係助,モ,モ,モ,モ,*,"動詞%F2@-1,形容詞%F4@-2,名詞%F1",*,10324972564259328,37562
もも    名詞,普通名詞,一般,*,*,*,モモ,桃,もも,モモ,もも,モモ,和,*,*,*,*,*,*,体,モモ,モモ,モモ,モモ,0,C3,*,10425303000293888,37927
の  助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,*,*,*,格助,ノ,ノ,ノ,ノ,*,名詞%F1,*,7968444268028416,28989
うち    名詞,普通名詞,副詞可能,*,*,*,ウチ,内,うち,ウチ,うち,ウチ,和,*,*,*,*,*,*,体,ウチ,ウチ,ウチ,ウチ,0,C3,*,881267193291264,3206
EOS


表示形式が違うのは、 mecab は dicrc の node-format-unidic22 の値を見てフォーマットしているのに対して、(こういう時 MeCab って色々機能あるなぁ、と気づかされる) awabi は、辞書の feature にあるものをそのまま出しているからと思われる。

この、表示形式の違いは、今のままでいいかなと思っている。
コメント(0) 
共通テーマ:日記・雑感