中国語を単語分割

中国語を単語に分割したい。Segmentater? Tokenizer? 形態素解析

Chinese Text Analyser

webサービスの。β版だけど。

ライブラリ的なやつだと、それなりにありそうだけど、使いたいだけならハードル高いかも。

Is there any good open-source or freely available Chinese segmentation algorithm available? - Stack Overflow

GitHub - fxsjy/jieba: 结巴中文分词

↑これが比較的手軽に扱えそう。

実行例:

pip install jieba
python
>>> import jieba
>>> seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
>>> print("Full Mode: " + "/ ".join(seg_list))  # 全模式
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
>>> seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
>>> print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
Default Mode: 我/ 来到/ 北京/ 清华大学