自然语言处理第六讲：统计一个文本中的每个词的词频

云烟 • 2024年 11月 8日下午3:45 • 未分类

欢迎大家来到IT世界,在知识的湖畔探索吧!

代码讲解：

import nltk

调用nltk模块

content = open(r‘E:\pythondata\test\1987_eng.txt’,‘r’,encoding=‘utf-8’).read()

读取1987_eng.txt内容为一个字符串

wordList = nltk.word_tokenize(content)

对这个字符串进行分词，生成一个词的列表

wordList2 = [w.lower() for w in wordList if w.isalpha()]

这是遍历的高级写法，意思是：

for w in wordlist #对词列表进行遍历

if w.isalpha() #如果这个被遍历的词是字符（即字母组成的）

w.lower() #将这个被遍历的词改成小写

dictList = {}

新建一个空的字典dictList

for word in wordList2:

对被改成小写的词的新列表进行遍历

if word in dictList:

如果被遍历的词在dictList中

dictList[word] += 1

这个词的值增加1 dictList[word] 对应的是word在dictList字典中的值

else:

否则：

dictList.update({word: 1}) #.update(添加字典键值)

给这个dictList字典增加一个键值对：word:1 word是键，1是值

print(dictList)

输出最终的字典，里面是每个词及其对应的数字，即每个词的词频

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/85595.html