在本篇内容里小编给大家分享的是关于python构建基础的爬虫教学内容,需要的朋友们学习下。

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

2、使用print输出打开的网址的内容。

3、从输出中可以看出内容的结构为:

4、输出内容中的html-body-h1的内容可使用四种语句。

5、BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在。

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对爱安网的支持。

最新资讯
美FCC投票决定维持废除“网络中立”规则的命令

美FCC投票决定维持废

国联邦通信委员会(FCC)周二以3比2的投票结果作出决定,维
iPhone活跃用户在2020年9月超过10亿

iPhone活跃用户在2020

一项新的估计声称目前自第一部iPhone上市以来不到5000
立讯精密前三季净利47亿 预计全年超70亿

立讯精密前三季净利47

后疫情时代消费电子需求的集中爆发,为产业链公司带来了
火热的“蚂蚁”:杠杆打新资金“供不应求”

火热的“蚂蚁”:杠杆打

蚂蚁将在A股发行不超过16.7亿股的新股,其中初始战略配
电商巨头逐鹿“双11” 扩大竞争范围从名牌到草根

电商巨头逐鹿“双11”

,在互联网平台的推动下,已有越来越多的国产新品牌正在崛
蚂蚁集团上市在即 市场影响积极

蚂蚁集团上市在即 市

蚂蚁集团上市后,无论是行业层面,还是A股整体估值体系方
最新文章
在pycharm中为项目导入anacodna环境的操作方法

在pycharm中为项目导

这篇文章主要介绍了在pycharm中为项目导入anacodna环
tensorflow的ckpt及pb模型持久化方式及转化详解

tensorflow的ckpt及pb

今天小编就为大家分享一篇tensorflow的ckpt及pb模型持
PyTorch笔记之scatter()函数的使用

PyTorch笔记之scatter

这篇文章主要介绍了PyTorch笔记之scatter()函数的使用
python3实现网页版raspberry pi(树莓派)小车控制

python3实现网页版ras

这篇文章主要为大家详细介绍了python3实现网页版raspb
完美解决pycharm导入自己写的py文件爆红问题

完美解决pycharm导入

今天小编就为大家分享一篇完美解决pycharm导入自己写
pycharm内无法import已安装的模块问题解决

pycharm内无法import

今天小编就为大家分享一篇pycharm内无法import已安装