Python数据采集实战-使用BeautifulSoup解析HTML文档提取所需内容

云烟 • 2023年 12月 9日下午6:00 • 未分类

欢迎大家来到IT世界,在知识的湖畔探索吧!

实现功能

使用BeautifulSoup框架解析HTML文档并提取所需内容的例子：假设我们要从以下HTML文档中提取所有超链接的链接地址

实现代码

from bs4 import BeautifulSoup
import requests

# 发送请求并获取HTML文档
url = "https://www.baidu.com"
response = requests.get(url)
html_doc = response.text

# 使用BeautifulSoup解析HTML文档
soup = BeautifulSoup(html_doc, 'html.parser')

# 提取所有链接
links = []
for link in soup.find_all('a'):
    links.append(link.get('href'))

# 打印链接列表
print(links)

欢迎大家来到IT世界,在知识的湖畔探索吧!

实现效果

Python数据采集实战-使用BeautifulSoup解析HTML文档提取所需内容

本人读研期间发表5篇SCI数据挖掘相关论文，现在某研究院从事数据挖掘相关科研工作，对数据挖掘有一定认知和理解，会结合自身科研实践经历不定期分享关于python机器学习、深度学习、数据挖掘基础知识与案例。

致力于只做原创，以最简单的方式理解和学习，关注我一起交流成长。

邀请三个朋友关注V订阅号：数据杂坛，即可在后台联系我获取相关数据集和源码，送有关数据分析、数据挖掘、机器学习、深度学习相关的电子书籍。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/35042.html