python使用jieba实现中文文档分词和去停用词

By hadoop小学生 at 2019-06-19 • 0人收藏 • 245人看过


 

分词工具的选择:

  现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。

 

分词前的准备:

待分词的中文文档

存放分词之后的结果文档

中文停用词文档(用于去停用词,在网上可以找到很多)

 

分词之后的结果呈现:

图1.png 

1 去停用词和分词前的中文文档

图2.png 

2去停用词和分词之后的结果文档

 

分词和去停用词代码实现:

 

图3.JPG

 


登录后方可回帖

登 录
信息栏

Carbon Forum是一个基于话题的高性能轻型PHP论坛

下载地址:Carbon Forum v5.9.0
QQ群:12607708(QQ我不常上)

donate

手机支付宝扫描上方二维码可向本项目捐款

粤公网安备 44030602003677号
粤ICP备17135490号-1

Loading...