您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:Python jieba 中文分词与词频统计的操作

51自学网 2021-10-30 22:51:59
  python
这篇教程Python jieba 中文分词与词频统计的操作写得很实用,希望能帮到您。

我就废话不多说了,大家还是直接看代码吧~

#! python3# -*- coding: utf-8 -*-import os, codecsimport jiebafrom collections import Counter def get_words(txt): seg_list = jieba.cut(txt) c = Counter() for x in seg_list:  if len(x)>1 and x != '/r/n':   c[x] += 1 print('常用词频度统计结果') for (k,v) in c.most_common(100):  print('%s%s %s %d' % (' '*(5-len(k)), k, '*'*int(v/3), v)) if __name__ == '__main__': with codecs.open('19d.txt', 'r', 'utf8') as f:  txt = f.read() get_words(txt)

样本:十九大报告全文

常用词频度统计结果  发展 ********************************************************************** 212  中国 ******************************************************** 168  人民 **************************************************** 157  建设 ************************************************* 148 社会主义 ************************************************ 146  坚持 ******************************************* 130  国家 ****************************** 90  全面 ***************************** 88  制度 *************************** 83  实现 *************************** 83  推进 *************************** 81  政治 ************************** 80  社会 ************************** 80  特色 ************************** 79  加强 *********************** 71  体系 ********************** 68  文化 ********************** 66  我们 ********************* 64  时代 ********************* 63  必须 ******************** 61  经济 ******************* 59  伟大 ******************* 58  完善 ***************** 51  我国 **************** 50  推动 *************** 47 现代化 *************** 47  安全 *************** 46  更加 ************** 44  民主 ************** 44 

补充:jieba读取txt文档并进行分词、词频统计,输出词云图

代码实现

# 库的引用import jiebaimport matplotlib as mplimport matplotlib.pyplot as pltfrom wordcloud import WordCloud#定义一个空字符串final = ""#文件夹位置filename = r"D:/python/pra/推荐系统1-500.txt" #打开文件夹,读取内容,并进行分词with open(filename,'r',encoding = 'utf-8') as f:  for line in f.readlines():    word = jieba.cut(line)    for i in word:      final = final + i +" "

运行结果

# 图云打印word_pic = WordCloud(font_path = r'C:/Windows/Fonts/simkai.ttf',width = 2000,height = 1000).generate(final)plt.imshow(word_pic)#去掉坐标轴plt.axis('off')#保存图片到相应文件夹plt.savefig(r'D:/python/pra/6.png')

图云输出图

以上为个人经验,希望能给大家一个参考,也希望大家多多支持51zixue.net。如有错误或未考虑完全的地方,望不吝赐教。


pandas多层索引的创建和取值以及排序的实现
Python爬取动态网页中图片的完整实例
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。