欢迎大家来到IT世界,在知识的湖畔探索吧!
代码讲解:
import nltk
调用nltk模块
content = open(r‘E:\pythondata\test\1987_eng.txt’,‘r’,encoding=‘utf-8’).read()
读取1987_eng.txt内容为一个字符串
wordList = nltk.word_tokenize(content)
对这个字符串进行分词,生成一个词的列表
wordList2 = [w.lower() for w in wordList if w.isalpha()]
这是遍历的高级写法,意思是:
for w in wordlist #对词列表进行遍历
if w.isalpha() #如果这个被遍历的词是字符(即字母组成的)
w.lower() #将这个被遍历的词改成小写
dictList = {}
新建一个空的字典dictList
for word in wordList2:
对被改成小写的词的新列表进行遍历
if word in dictList:
如果被遍历的词在dictList中
dictList[word] += 1
这个词的值增加1 dictList[word] 对应的是word在dictList字典中的值
else:
否则:
dictList.update({word: 1}) #.update(添加字典键值)
给这个dictList字典增加一个键值对:word:1 word是键,1是值
print(dictList)
输出最终的字典,里面是每个词及其对应的数字,即每个词的词频
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/85595.html