中国語を単語分割
中国語を単語に分割したい。Segmentater? Tokenizer? 形態素解析?
↑webサービスの。β版だけど。
ライブラリ的なやつだと、それなりにありそうだけど、使いたいだけならハードル高いかも。
↑これが比較的手軽に扱えそう。
実行例:
pip install jieba python >>> import jieba >>> seg_list = jieba.cut("我来到北京清华大学", cut_all=True) >>> print("Full Mode: " + "/ ".join(seg_list)) # 全模式 Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学 >>> seg_list = jieba.cut("我来到北京清华大学", cut_all=False) >>> print("Default Mode: " + "/ ".join(seg_list)) # 精确模式 Default Mode: 我/ 来到/ 北京/ 清华大学