在本篇文章里小编给大家整理的是关于python数据爬下来保存的位置,需要的朋友们可以参考下。

昨天下班后忽然兴起想写一个爬虫抓抓网页上的东西。花了一个钟简单学习了python的基础语法,然后参照网上的例子自己写了个爬虫。

python数据爬下来保存在本地,一般是文件或数据库中,但是文件形式相比要更加简单,如果只是自己写爬虫玩,可以用文件形式来保存数据。

#coding=utf-8
import urllib.request
import re
import os
 
'''
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据
urlopen 方法用来打开一个url
read方法 用于读取Url上的数据
'''
 
def getHtml(url):
  page = urllib.request.urlopen(url);
  html = page.read();
  return html;
 
def getImg(html):
  imglist = re.findall('img src="(http.*?)"',html
  return imglist
 
html = getHtml("https://www.zhihu.com/question/34378366").decode("utf-8");
imagesUrl = getImg(html);
 
if os.path.exists("D:/imags") == False:
  os.mkdir("D:/imags");
   
count = 0;
for url in imagesUrl:
  print(url)
  if(url.find('.') != -1):
    name = url[url.find('.',len(url) - 5):];
    bytes = urllib.request.urlopen(url);
    f = open("D:/imags/"+str(count)+name, 'wb');
    f.write(bytes.read());
    f.flush();
    f.close();
    count+=1

经测试,基本功能还是可以实现的。花的较多的时间就是正则匹配哪里,因为自己对正则表达式也不是非常熟悉。所以还是花了点时间。

注:上面的程序基于 python 3.5。python3 和 python2 还是有些区别的。我刚开始看基础语法的时候就栽了一些坑里。

以上就是python数据爬下来保存在哪里的详细内容,感谢大家的学习和对爱安网的支持。

最新资讯
悦刻电子烟登陆纽交所:开盘价24美元 较发行价上涨100%

悦刻电子烟登陆纽交所

电子烟企业雾芯科技(悦刻)今日正式登陆纽交所,股票代码为
雾芯科技美国上市:市值超百亿美元 红杉为股东

雾芯科技美国上市:市值

电子雾化龙头企业雾芯科技(股票代码为:“RLX”)今日在纽
快手科技据称吸引Capital Group等参与其60亿美元IPO计划

快手科技据称吸引Capi

知情人士透露,Capital Group和加拿大养老金计划投资委
任正非:华为有信心活下来!不要盲目争第一

任正非:华为有信心活下

任正非表示,华为有信心、有决心活下来。华为坚持自强与
科技巨头财报来袭 苹果、微软、FB财报前瞻先睹为快

科技巨头财报来袭 苹

下周科技巨头密集公布财报,苹果、微软、Facebook财报前
高德打车上线助老打车系列服务 新电召、一键叫车便利老人出行

高德打车上线助老打车

为落实交通运输部关于改进提升适老化服务水平的工作要
最新文章
在pycharm中为项目导入anacodna环境的操作方法

在pycharm中为项目导

这篇文章主要介绍了在pycharm中为项目导入anacodna环
tensorflow的ckpt及pb模型持久化方式及转化详解

tensorflow的ckpt及pb

今天小编就为大家分享一篇tensorflow的ckpt及pb模型持
PyTorch笔记之scatter()函数的使用

PyTorch笔记之scatter

这篇文章主要介绍了PyTorch笔记之scatter()函数的使用
python3实现网页版raspberry pi(树莓派)小车控制

python3实现网页版ras

这篇文章主要为大家详细介绍了python3实现网页版raspb
完美解决pycharm导入自己写的py文件爆红问题

完美解决pycharm导入

今天小编就为大家分享一篇完美解决pycharm导入自己写
pycharm内无法import已安装的模块问题解决

pycharm内无法import

今天小编就为大家分享一篇pycharm内无法import已安装