今天小编就为大家分享一篇python3爬虫获取html内容及各属性值的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request 

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read() 

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持爱安网。

最新资讯
AMD第三季度营收28亿美元,同比增长56%

AMD第三季度营收28亿

据报道,AMD今日发布了2020年第三季度财报,营收为28亿美
立讯精密:2020年前三季度实现营收595.28亿元,同比增长57.33%

立讯精密:2020年前三季

立讯精密披露三季报。报告显示,公司2020年前三季度实现
汽车之家对天天拍车投资1.68亿美元 打造最大二手车平台

汽车之家对天天拍车投

北京时间10月27日消息,汽车之家宣布,已与中国领先的二手
AMD宣布以350亿美元的全股票交易收购赛灵思

AMD宣布以350亿美元的

据报道,AMD今日宣布,已同意以350亿美元的股票收购半导体
蚂蚁上市,除了马云,还有哪些有钱人会更有钱?

蚂蚁上市,除了马云,还有

蚂蚁集团上市,买了配售基金或能中签的人,会欢欣鼓舞。比
划重点!蚂蚁集团网上路演,对数字货币、竞争对手等做出回应

划重点!蚂蚁集团网上路

10月27日,蚂蚁集团举行网上路演,回应投资者关切,对蚂蚁集
最新文章
在pycharm中为项目导入anacodna环境的操作方法

在pycharm中为项目导

这篇文章主要介绍了在pycharm中为项目导入anacodna环
tensorflow的ckpt及pb模型持久化方式及转化详解

tensorflow的ckpt及pb

今天小编就为大家分享一篇tensorflow的ckpt及pb模型持
PyTorch笔记之scatter()函数的使用

PyTorch笔记之scatter

这篇文章主要介绍了PyTorch笔记之scatter()函数的使用
python3实现网页版raspberry pi(树莓派)小车控制

python3实现网页版ras

这篇文章主要为大家详细介绍了python3实现网页版raspb
完美解决pycharm导入自己写的py文件爆红问题

完美解决pycharm导入

今天小编就为大家分享一篇完美解决pycharm导入自己写
pycharm内无法import已安装的模块问题解决

pycharm内无法import

今天小编就为大家分享一篇pycharm内无法import已安装