ロゴBLOG

[Python] Sumyを使った文章要約ツール

2019年03月25日
  • これはsumyを使った文章要約ツールです。文章要約は人工知能(AI)分野の一つで、抽出型(Extractive)と抽象型(Abstractive)という2つの要約手法がありますが、こちらは特に抽出型の与えられた文章から重要だと思われる文章を取り出す手法を用いています。手法は4つ(Latent Semantic Analysis, LexRank, Luhn, TextRank)をチョイスして実装してみました。ぜひ遊んでみてください。

    例文

    注意点

    • ・入力可能文字数は1万字までです。

    • ・文を認識するため、日本語なら「。(句点)」、英語なら「.(ピリオド)」で区切られている文章を入力してください。それでも文を認識しない場合は、文の終わりで改行を入れていただくと上手くいく場合があります。

    色々と試してみた実感では、通常の文章よりも口コミやコメントのような同じテーマに対して様々な意見があるような文章の中から特にどのような意見が多いのか、などを知りたいというシチュエーションで有用な気がしました。そのような訳でBAUESでもコメントが増えてきた暁には、コメントの要約を表示する際などに使えそうだと思い試してみたところ非常に簡単に実装することができました。

    抽象型の要約手法はどこかにないものかと探していたのですが、調べた限りではこちらのブログに記載されているGoogle Xin Pan Peter Liuさんのtextsumがしばしば参照されているようです。ブログは2016年の投稿なので、現在ではもう少し改良されていると思われますが、ご存知の方などいらっしゃいましたら、Twitterなどで教えていただけたら幸いです。

    本当は翻訳などとも組み合わせたら面白いだろうなあと思うのですが、今回はここまで。より良い手法など発見したら少しずつこのページをパワーアップしていきたいと思います。

    • 【注意事項】
    • ・当方は、ツールの品質、機能、性能、結果、有用性について一切保証しません。当方は、ユーザーがツールを利用した結果が誤っていたこと、不具合が発生したこと等による責任を負いません。
    • ・当方は、ユーザーがツールの利用にあたって当方に提供したデータ・情報を第三者に公開・提供することはしませんが、ツールの開発・改良、調査・分析等に利用させていただく場合があります。
    • ・ツールに含まれるプログラムその他の構成要素に関する知的財産権及びその他の財産権はすべて当方または当方にライセンスを許諾している者に帰属します。