文書の要約技術について
文書の要約技術について。
下記書籍参照。
文書要約の分類
- 単一文書要約
- リード法
- 文書の最初の数行を提示
- 単純だが強力
- ニュース記事などに特に有用
- リード法
複数文書要約
抽出型要約
- 文を抽出して変更せずに提示
- 実用化されている手法のほとんどはこれ
- MMR(maximal marginal relevance)
- なるべく代表的な文を選択しながら、なるべく冗長でない文を選択
- 類似度に基づく尺度
- コサイン類似度など
- 抽象型要約
- 新しい文章を生成しながら内容を抽象的に要約
日本語の要約に関して。
日本語要約の実装例
過去にググった時の記事
要約とはまた違うけど日本語関係のPyPI
Tensorflowで要約
スライド資料等