这篇文章主要介绍了Python3爬虫学习之MySQL数据库存储爬取的信息,涉及Python3针对mysql数据库的连接、信息存储等相关操作,需要的朋友可以参考下

本文实例讲述了Python3爬虫学习之MySQL数据库存储爬取的信息。分享给大家供大家参考,具体如下:

数据库存储爬取的信息(MySQL)

爬取到的数据为了更好地进行分析利用,而之前将爬取得数据存放在txt文件中后期处理起来会比较麻烦,很不方便,如果数据量比较大的情况下,查找更加麻烦,所以我们通常会把爬取的数据存储到数据库中便于后期分析利用。

这里,数据库选择MySQL,采用pymysql 这个第三方库来处理python和mysql数据库的存取,python连接mysql数据库的配置信息

db_config ={
  'host': '127.0.0.1',
  'port': 3306,
  'user': 'root',
  'password': '',
  'db': 'pytest',
  'charset': 'utf8'
}

以爬取简书首页文章标题以及url为例,先分析抓取目标信息,

如上图,文章题目在a标签中,且url(href)只含有后半部分,所以在存储的时候,最好把它补全。

mysql:新建一个数据库pytest,建立一张名为titles的表,表中字段分别为id(int自增),title(varchar),url(varchar),如下:

进行数据库操作的思路为:获得数据库连接(connection)->获得游标(cursor)->执行sql语句(execute)->事物提交(commit)->关闭数据据库连接(close),具体代码实现如下:

# -*- coding:utf-8 -*-
from urllib import request
from bs4 import BeautifulSoup
import pymysql
# mysql连接信息(字典形式)
db_config ={
  'host': '127.0.0.1',
  'port': 3306,
  'user': 'root',
  'password': '',
  'db': 'pytest',
  'charset': 'utf8'
}
# 获得数据库连接
connection = pymysql.connect(**db_config)
# 数据库配置,获得连接(参数方式)
# connection = pymysql.connect(host='127.0.0.1',
#            port=3306,
#            user='root',
#            password='',
#            db='pytest',
#            charset='utf8')
url = r'http://www.jianshu.com/'
# 模拟浏览器头
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}
page = request.Request(url, headers=headers)
page_info = request.urlopen(page).read().decode('utf-8')
soup = BeautifulSoup(page_info, 'html.parser')
urls = soup.find_all('a', 'title')
try:
  # 获得数据库游标
  with connection.cursor() as cursor:
    sql = 'insert into titles(title, url) values(%s, %s)'
    for u in urls:
      # 执行sql语句
      cursor.execute(sql, (u.string, r'http://www.jianshu.com'+u.attrs['href']))
  # 事务提交
  connection.commit()
finally:
  # 关闭数据库连接
  connection.close()

代码执行结果:

更多关于Python相关内容可查看本站专题:《Python Socket编程总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用总结》、《Python字符串操作汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作汇总》

希望本文所述对大家Python程序设计有所帮助。

最新资讯
特斯拉:柏林和上海工厂的交付将于2021年开始

特斯拉:柏林和上海工厂

特斯拉称,上海工厂的Model 3的产能已经增加至25万辆/年
特斯拉汽车第三季度营收87.71亿美元 净利同比大增131%

特斯拉汽车第三季度营

特斯拉汽车第三季度总营收为87.71亿美元,比去年同期的6
用“二次号”被欠贷:运营商别让用户为衍生问题买单

用“二次号”被欠贷:运

用“二次号”莫名被欠贷或没法注册12306,这些用户困扰
美团七年扶贫样本:马背上的少年成今日骑手

美团七年扶贫样本:马背

骑手工作的技能门槛相对较低,灵活性强,能在较短时间里提
猿辅导22亿美元新一轮融资已交割?猿辅导:近期将披露融资信息

猿辅导22亿美元新一轮

10月21日有媒体报道称,猿辅导在线教育22亿美元新一轮融
A股首个万亿互联网巨头来了!蚂蚁集团最新估值2.1万亿元

A股首个万亿互联网巨

国信证券通过绝对估值法和相对估值法,给出的估值范围是
最新文章
在pycharm中为项目导入anacodna环境的操作方法

在pycharm中为项目导

这篇文章主要介绍了在pycharm中为项目导入anacodna环
tensorflow的ckpt及pb模型持久化方式及转化详解

tensorflow的ckpt及pb

今天小编就为大家分享一篇tensorflow的ckpt及pb模型持
PyTorch笔记之scatter()函数的使用

PyTorch笔记之scatter

这篇文章主要介绍了PyTorch笔记之scatter()函数的使用
python3实现网页版raspberry pi(树莓派)小车控制

python3实现网页版ras

这篇文章主要为大家详细介绍了python3实现网页版raspb
完美解决pycharm导入自己写的py文件爆红问题

完美解决pycharm导入

今天小编就为大家分享一篇完美解决pycharm导入自己写
pycharm内无法import已安装的模块问题解决

pycharm内无法import

今天小编就为大家分享一篇pycharm内无法import已安装