今天小编就为大家分享一篇对pandas写入读取h5文件的方法详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

1、引言

通过参考相关博客对hdf5格式简要介绍。

hdf5在存储的是支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的。 使用压缩可以提磁盘利用率,节省空间。 开启压缩也没有什么劣势,只会慢一点点。 压缩在小数据量的时候优势不明显,数据量大了才有优势。 同时发现hdf读取文件的时候只能是一次写,写的时候可以append,可以put,但是写完成了之后关闭文件,就不能再写了, 会覆盖。

另外,为什么单独说pandas,主要因为本人目前对于h5py这个包的理解不是很深入,不知道如果使用该包存pd.DataFrame格式的文件,不像numpy格式文件可以直接存储,因此本人只能依赖pandas自带一些函数进行处理。

2、写入文件

使用函数:pd.HDFStore

import numpy as np
import pandas as pd
####生成9000,0000条数据,9千万条
a = np.random.standard_normal((90000000,4))
b = pd.DataFrame(a)
####普通格式存储:
h5 = pd.HDFStore('/data/stock/test_s.h5','w')
h5['data'] = b
h5.close()

####压缩格式存储
h5 = pd.HDFStore('/data/stock/test_c4.h5','w', complevel=4, complib='blosc')
h5['data'] = b
h5.close()

3、读取文件

使用函数:pd.read_hdf

参数:文件名,key

data=pd.read_hdf('/data/stock/test_c4.h5',key='data')

以上这篇对pandas写入读取h5文件的方法详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持爱安网。

最新资讯
富士康:疫情不会影响苹果订单的完成 已有后备方案

富士康:疫情不会影响苹

富士康周二表示,可以确认我们已经采取措施确保我们能够
浙大联合拼多多共同设立防控基金 规模达1亿元

浙大联合拼多多共同设

浙江大学宣布,联合上海寻梦信息技术有限公司成立浙江大
联想将继续驰援武汉雷神山医院所有IT设备

联想将继续驰援武汉雷

联想集团还将向正在兴建的武汉市第二所抗击肺炎应急医
寿命之谜:神经兴奋性高,个体寿命短?

寿命之谜:神经兴奋性高

神经系统发出的信号可以有效地调控寿命。现在看来,总神
疫情下的生鲜电商:半夜抢菜、订单增5倍、不计成本

疫情下的生鲜电商:半夜

对于生鲜平台来说,如何稳定供应链,并满足用户的即时需求
蔚来用户信托宣布设立抗击新型肺炎500万专项基金

蔚来用户信托宣布设立

面对新型肺炎疫情,蔚来用户信托宣布设立抗击新型肺炎50
最新文章
使用PyInstaller将Pygame库编写的小游戏程序打包为exe文件

使用PyInstaller将Pyg

这篇文章主要介绍了使用PyInstaller将Pygame库编写的
Python数学形态学实例分析

Python数学形态学实例

这篇文章主要介绍了Python数学形态学,结合实例形式分
Python scipy的二维图像卷积运算与图像模糊处理操作示例

Python scipy的二维图

这篇文章主要介绍了Python scipy的二维图像卷积运算与
python自动发微信监控报警

python自动发微信监控

这篇文章主要为大家详细介绍了python自动发微信监控报
修改 CentOS 6.x 上默认Python的方法

修改 CentOS 6.x 上默

这篇文章主要介绍了修改 CentOS 6.x 上默认Python的方
Python使用Slider组件实现调整曲线参数功能示例

Python使用Slider组件

这篇文章主要介绍了Python使用Slider组件实现调整曲线