当我的第一个Python爬虫尝试爬取题库答案，我有一个想法

云烟 • 2024年 7月 22日下午3:23 • 未分类

欢迎大家来到IT世界,在知识的湖畔探索吧!

有一天晚上不知道该干什么，于是又看视频学习去了，主要是了解python的api接口测试。
基于学习完就实践的学习方式，第二天就尝试写一个题库网站的爬虫，但效果不好。
然后翻了很多帖子，又回顾了视频，突然间脑袋通了，第三天写代码顺手很多，也顺便把BeautifulSoup也学了。
开始分享学习吧。

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）
私信小编001即可获取大量Python学习资源

1、登录

爬取的题库网站是

https://www.ddtk.vip

→按F12进入开发者模式→选Network→选Headers→点击登录→输入错误的账号密码→选择login→获取了几个关键信息

1、Requesturl→https://www.ddtk.vip/ddtk/web/login

2、data→{username: “123”, password: “123”}

row1至row3：需要用到的第三方库
row5：创建一个会话，用以保留登录后的数据
row6：基础网址
row8至row11：账号密码
row12：传递账号密码信息，当我使用data=username_password时报错了，查看帖子才知道要将账号密码json化，于是json=username_password解决了报错
row13：打印登录信息，print(rep_login.text)得到的是文本，不好处理，于是将rep_login进行json()，得到一个字典，得到字典信息就方便多了

2、搜索题目

可以看到?后面的参数是key=123，123就是我需要查找的题目
而查找题目后我们就要点击参考答案，通过右键检查可以得到一个herf

row16：将题目信息赋值于变量timu
row17：设置参数
row18：请求刚刚设置的参数，网址是base_url+“/ddtk/web/search”
row19：将请求得到的网页信息BeautifulSoup化，得到的网页信息是字符串，将其转化为BeautifulSoup后可以使用其语法帮助我们筛选想要的数据，当时学的时候我是这样理解的，有人用微信发了我100个人的名字，我很难找到有没有我，于是我将名字放在word文档上，我就可以使用word的查找功能一下子查看有没有我的名字
row21：因查找题目后会有多个结果，于是弄了一个遍历，len统计得到的所有结果
row22：通过BeautifulSoup查找所有的参考答案的href

3、点击参考答案进入查看答案页面

4、处理得到我想要的真正答案，而不是一个B这样的选项答案

row26：发送get请求得到查看答案页面的网页信息
row27：将得到的信息BeautifulSoup化
row29至row32：得到题目信息，使用re模块的正则表达式功能去除题目信息的所有空格和换行符
row34至row38：得到选项信息，使用正则表达式得到选项的信息，并将每个选项变成列表的一个元素，移除所有””值

4、查看答案

点击查看，得到一个新的网页信息

https://www.ddtk.vip/ddtk/web/viewAnswer/?null,

显示了答案为B

row41至row44：get请求得到答案后，将网页信息json()化，通过字典获得答案B

4、处理得到我想要的真正答案，而不是一个B这样的选项答案

因为我将选项用一个列表集合在一起，如果是个空集，说明我查看答案后，获得的不是一个选项，而是真切的答案

否则，则用以下这个判定方法得到我的答案

如果是A选项，那列表的第一个元素就是我的答案

END——————

大家看到我最后把答案赋值给pipei_answer，因为通过这种方式，我就可以不用像之前发的贴子一样，需要自己创建题库的方式来匹配答案

我就可以不用像之前发的贴子一样，需要自己创建题库的方式来匹配答案

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/64338.html