Python で日本語文章要約：ある nakagami の日記：SSブログ

	ブログをはじめるログイン

Python で日本語文章要約　[Python] [編集]

最近、諸般の事情により、
「自然言語処理でなんか面白いことできないかなー」
って調べてて
「そういえば以前に、どっかの大学院生が日本語要約を python でやっててソースを公開してたな」
ってことを思い出して探したんだけど・・・
https://recruit-tech.co.jp/blog/2015/10/30/summpy-released/
↑これだった。
公開した直後以降はソースコードの更新は行われず、python2.7 でしか動かないようだった。残念、というかもったいない。Python2.7 でしか動かないものは、今後使われなくなってしまう。

MIT ライセンスなので、結果のよさそうな LexRank アルゴリズムのエッセンスの部分を１ファイル（１モジュール）に抽出して Python3 で動かせるようにして gist に貼っておきます。
https://gist.github.com/nakagami/92c0904ac9c1a98ee4ff8d8fb644fd69
正直、アルゴリズムの数学的な意味などさっぱり分かっていないけど・・・

自然言語処理研究者でない人（例えば自分）向けの LexRank による要約についての
ざっくりとした日本語解説は、これが比較的わかりやすいかと思います
https://qiita.com/takumi_TKHS/items/4a56ac151c60da8bde4b

jabstract.py をダウンロードして

import jabstract
text = '複数の文がある、ながーい文章'
sentences = jabstract.summarize(text, sent_limit=10)
print(sentences)

という感じで要約できるんだけど、ちゃんと動いてるかな？
必要なパッケージとか、関数のパラメーターとか、詳しくはソースコード読んでください。

2018-04-13 20:07 コメント(0)
共通テーマ：日記・雑感

コメントを書く

Facebook コメント

EV 車と自動運転｜Python Boot Camp in .. ブログトップ

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

RSS1.0 | RSS2.0

ある nakagami の日記

Python で日本語文章要約　[Python] [編集]

コメント 0

コメントを書く

Facebook コメント

nakagami さん

連絡先

カレンダー

記事検索

読んでいるブログ（RSS）

カテゴリー

ある nakagami の日記

Python で日本語文章要約 [Python] [編集]

コメント 0

コメントを書く

Facebook コメント

nakagami さん

連絡先

カレンダー

記事検索

読んでいるブログ（RSS）

カテゴリー

Python で日本語文章要約　[Python] [編集]