今天小编就为大家分享一篇python3爬虫获取html内容及各属性值的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request 

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read() 

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帅
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
html=BeautifulSoup(html,'html.parser')
# 读取title内容
print(html.title)
# 读取title属性
attrs=html.title.attrs
print(attrs)
# 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
print(attrs['class'][0])
# 读取body
print(html.body)
读取数据还可以通过BeautifulSoup的select方法
html.select()
#按标签名查找 
soup.select('title')
soup.select('body')
# 按类名查找
soup.select('.sister')
# 按id名查找
# p标签中id为link的标签
soup.select('p #link')
#取标签里面的值
soup.p.string
#取标签里属性值 通过href获取
html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持爱安网。

最新资讯
消息称苹果正在研发折叠屏手机:铰链几乎隐藏、屏幕更大

消息称苹果正在研发折

据国外消息人士Mark Gurman最新爆料,苹果正在进行一款
快手IPO市场认购火爆 部分投资者动用私人关系“预定份额”

快手IPO市场认购火爆

在过去70多天,部分投资人四处寻找可能与快手创始人宿华
彭博社:苹果全新Mac Pro开发中 外观类似 Power Mac G4 Cube

彭博社:苹果全新Mac Pr

根据彭博社的最新报道,苹果正在开发两款新 Mac Pro,以接
Keep完成3.6亿美元融资 狂奔之下运营能力缺失

Keep完成3.6亿美元融

在上线6年的时间里,Keep逐渐从最初的指导健身方式的工
苹果造车:颠覆行业or昙花一现

苹果造车:颠覆行业or昙

虽然现在关于苹果造车的传言满天飞,但有一点是较确定的
芯片危机波及全球 部分工厂按下暂停键 世界五大车企被迫减产

芯片危机波及全球 部

除了消极地等待主要厂商产能恢复,国内本土车企也在“芯
最新文章
在pycharm中为项目导入anacodna环境的操作方法

在pycharm中为项目导

这篇文章主要介绍了在pycharm中为项目导入anacodna环
tensorflow的ckpt及pb模型持久化方式及转化详解

tensorflow的ckpt及pb

今天小编就为大家分享一篇tensorflow的ckpt及pb模型持
PyTorch笔记之scatter()函数的使用

PyTorch笔记之scatter

这篇文章主要介绍了PyTorch笔记之scatter()函数的使用
python3实现网页版raspberry pi(树莓派)小车控制

python3实现网页版ras

这篇文章主要为大家详细介绍了python3实现网页版raspb
完美解决pycharm导入自己写的py文件爆红问题

完美解决pycharm导入

今天小编就为大家分享一篇完美解决pycharm导入自己写
pycharm内无法import已安装的模块问题解决

pycharm内无法import

今天小编就为大家分享一篇pycharm内无法import已安装