您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：Python jieba 中文分词与词频统计的操作

51自学网 2021-10-30 22:51:59

python

这篇教程Python jieba 中文分词与词频统计的操作写得很实用，希望能帮到您。

我就废话不多说了，大家还是直接看代码吧~

#! python3# -*- coding: utf-8 -*-import os, codecsimport jiebafrom collections import Counter def get_words(txt): seg_list = jieba.cut(txt) c = Counter() for x in seg_list:  if len(x)>1 and x != '/r/n':   c[x] += 1 print('常用词频度统计结果') for (k,v) in c.most_common(100):  print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v)) if __name__ == '__main__': with codecs.open('19d.txt', 'r', 'utf8') as f:  txt = f.read() get_words(txt)

样本：十九大报告全文

常用词频度统计结果  发展 ********************************************************************** 212  中国 ******************************************************** 168  人民 **************************************************** 157  建设 ************************************************* 148 社会主义 ************************************************ 146  坚持 ******************************************* 130  国家 ****************************** 90  全面 ***************************** 88  制度 *************************** 83  实现 *************************** 83  推进 *************************** 81  政治 ************************** 80  社会 ************************** 80  特色 ************************** 79  加强 *********************** 71  体系 ********************** 68  文化 ********************** 66  我们 ********************* 64  时代 ********************* 63  必须 ******************** 61  经济 ******************* 59  伟大 ******************* 58  完善 ***************** 51  我国 **************** 50  推动 *************** 47 现代化 *************** 47  安全 *************** 46  更加 ************** 44  民主 ************** 44

补充：jieba读取txt文档并进行分词、词频统计，输出词云图

代码实现

# 库的引用import jiebaimport matplotlib as mplimport matplotlib.pyplot as pltfrom wordcloud import WordCloud#定义一个空字符串final = ""#文件夹位置filename = r"D:/python/pra/推荐系统1-500.txt" #打开文件夹，读取内容，并进行分词with open(filename,'r',encoding = 'utf-8') as f:  for line in f.readlines():    word = jieba.cut(line)    for i in word:      final = final + i +" "

运行结果

# 图云打印word_pic = WordCloud(font_path = r'C:/Windows/Fonts/simkai.ttf',width = 2000,height = 1000).generate(final)plt.imshow(word_pic)#去掉坐标轴plt.axis('off')#保存图片到相应文件夹plt.savefig(r'D:/python/pra/6.png')

图云输出图

以上为个人经验，希望能给大家一个参考，也希望大家多多支持51zixue.net。如有错误或未考虑完全的地方，望不吝赐教。

pandas多层索引的创建和取值以及排序的实现
Python爬取动态网页中图片的完整实例