零代码编程:用ChatGPT写Python程序爬取并处理网页数据

零代码编程:用ChatGPT写Python程序爬取并处理网页数据下面这个网站页面,列出了很多AI网站,但是是以图片方式列出,点击图片会跳转到网站。怎么能把这些AI网站名称、AI网站网址自动爬取下来保存成exc

欢迎大家来到IT世界,在知识的湖畔探索吧!

下面这个网站页面,列出了很多AI网站,但是是以图片方式列出,点击图片会跳转到网站。怎么能把这些AI网站名称、AI网站网址自动爬取下来保存成excel文件呢?

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

首先,在chrome浏览器中点击右键,点击inspect,可以查看到每个图片超链接的网页源代码

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

可以看到,网址在href属性值里面,网站名称在alt属性值里面

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

<div class=”grid-image-wrapper”>

<img width=”800″ loading=”lazy” src=”https://uploads-ssl.webflow.com/63e6b0363b7fbc64fe4ba92c/63f1777cc167269e00510ad4_motion%20white.png” alt=”Motion logo”></div></a>

但是,alt属性值后面多了一个logo,所以获取到这个属性值后要去掉logo这个串字符。

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

然后让ChatGPT写一段代码

复制粘贴到Visual Studio Code中运行,显示程序运行错误,推测应该是Python安装环境的问题

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

于是,安装Anaconda3,创建虚拟环境

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

虚拟环境创建成功了,但是无法激活,显示:

CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate’.

If using ‘conda activate’ from a batch script, change your

invocation to ‘CALL conda.bat activate’.

To initialize your shell, run

$ conda init <SHELL_NAME>。

试了多个方法没成功,最后修改运行终端为command prompt,终于成功。

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

这时候程序没有报错,但是创建excel文件不成功。把出错信息丢给chatgpt,让它找解决办法。

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

尝试了chatgpt推荐的几个方法,没有成功。

放弃,于是让chatgpt不生成excel文件,只输出一个表格。

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

终于成功!

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

但是,有一个问题,我只想要AI相关的网站信息,但是这个程序把web3和其他网站信息都爬取下来了。

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

查看网页源代码,好像没有分成多个网页,所有这些网站都在一个html页面。那就让程序只爬取包含AI网站的div里面内容,修改chatgpt提示词:

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

然后在虚拟环境中跑这个Python程序

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

终于大功告成,爬取到真正想要的数据信息。

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

不过,这些表格信息复制到excel里面就乱了。

再尝试让chatgpt整理这些信息然后写入excel表格:

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

这次运行成功,成功创建如下excel表格,完美的将网页中的信息爬取和整理好了。

零代码编程:用ChatGPT写Python程序爬取并处理网页数据

一些经验总结:

Python编程一定要装Anaconda3,用虚拟环境来运行。很多时候出错,都是环境配置有问题。用虚拟环境可以完美解决这个问题。

多次迭代优化。由于现实中的情况复杂多变,很少情况下程序一次就跑通,要根据每次返回的错误信息去针对性的修改完善。

如果ChatGPT不能一次性完成设定的目标,就分解成两个甚至多个任务,然后一个个的完成。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/21836.html

(0)
上一篇 2023年 10月 11日 上午9:00
下一篇 2023年 10月 13日 上午10:00

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信