在本篇内容里小编给大家分享的是关于python构建基础的爬虫教学内容,需要的朋友们学习下。

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

2、使用print输出打开的网址的内容。

3、从输出中可以看出内容的结构为:

4、输出内容中的html-body-h1的内容可使用四种语句。

5、BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在。

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对爱安网的支持。

最新资讯
收入一度九成来自苹果产业链 华兴源创胜算几何

收入一度九成来自苹果

华兴源创对苹果的依赖度其实还是比较高的。2016至2018
无App有百万社群 这样的电商能高速增长十年吗?

无App有百万社群 这样

中国电商发达程度超过其他国度,但细分数据说明市场分化
AIOT时代  跨国企业为工业互联“扩列”中国朋友圈

AIOT时代 跨国企业为

万物互联,模糊了传统行业和互联网行业的边界。AI(人工智
2019年美国最佳CEO榜单出炉:库克和小扎连续7年登榜

2019年美国最佳CEO榜

今年有27位科技公司的首席执行官登场,其中库克从第96位
两家中国自动驾驶公司获加州许可:小马智行和AutoX

两家中国自动驾驶公司

小马智行(Pony.ai)和AutoX(Auto.ai)在同一天获得由美国加
H连锁酒店夏青宁:四个月签约近千家酒店 超5万间客房

H连锁酒店夏青宁:四个

H连锁酒店创始人兼CEO夏青宁今日在朋友圈分享了一组最
最新文章
Python图像处理之图像的缩放、旋转与翻转实现方法示例

Python图像处理之图像

这篇文章主要介绍了Python图像处理之图像的缩放、旋转
详解Appium+Python之生成html测试报告

详解Appium+Python之

这篇文章主要介绍了详解Appium+Python之生成html测试
Python面向对象程序设计OOP入门教程【类,实例,继承,重载等】

Python面向对象程序设

这篇文章主要介绍了Python面向对象程序设计OOP入门教
在python中使用with打开多个文件的方法

在python中使用with打

今天小编就为大家分享一篇在python中使用with打开多个
对Python+opencv将图片生成视频的实例详解

对Python+opencv将图

今天小编就为大家分享一篇对Python+opencv将图片生成
python 同时运行多个程序的实例

python 同时运行多个

今天小编就为大家分享一篇python 同时运行多个程序的