今天小编就为大家分享一篇使用python进行拆分大文件的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

python按指定行数把大文件进行拆分

如图大文件有7000多万行,大小为16G

需要拆分成多个200万行的小文件

代码如下:

# -*- coding:utf-8 -*-
from datetime import datetime
 
def Main():
 source_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/jz_yuanshi_list0206.txt'
 target_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/split/'
 
 # 计数器
 flag = 0
 
 # 文件名
 name = 1
 
 # 存放数据
 dataList = []
 
 print("开始。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
 with open(source_dir,'r') as f_source:
  for line in f_source:
   flag+=1
   dataList.append(line)
   if flag == 2000000:
    with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
     for data in dataList:
      f_target.write(data)
    name+=1
    flag = 0
    dataList = []
    
 # 处理最后一批行数少于200万行的
 with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
  for data in dataList:
   f_target.write(data)
 
 print("完成。。。。。")
 print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
 
if __name__ == "__main__":
 Main()
 

结果如下:

生39个文件,最后一个文件行数760821,这样就OK啦

经测试16G文件所需时间如图:不到两分钟

以上这篇使用python进行拆分大文件的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持爱安网。

最新资讯
特斯拉汽车第三季度营收87.71亿美元 净利同比大增131%

特斯拉汽车第三季度营

特斯拉汽车第三季度总营收为87.71亿美元,比去年同期的6
用“二次号”被欠贷:运营商别让用户为衍生问题买单

用“二次号”被欠贷:运

用“二次号”莫名被欠贷或没法注册12306,这些用户困扰
美团七年扶贫样本:马背上的少年成今日骑手

美团七年扶贫样本:马背

骑手工作的技能门槛相对较低,灵活性强,能在较短时间里提
猿辅导22亿美元新一轮融资已交割?猿辅导:近期将披露融资信息

猿辅导22亿美元新一轮

10月21日有媒体报道称,猿辅导在线教育22亿美元新一轮融
A股首个万亿互联网巨头来了!蚂蚁集团最新估值2.1万亿元

A股首个万亿互联网巨

国信证券通过绝对估值法和相对估值法,给出的估值范围是
证监会同意 蚂蚁来A股上“树”了!

证监会同意 蚂蚁来A股

港股IPO进入倒计时之后,蚂蚁集团也正式拿到了A股的“入
最新文章
在pycharm中为项目导入anacodna环境的操作方法

在pycharm中为项目导

这篇文章主要介绍了在pycharm中为项目导入anacodna环
tensorflow的ckpt及pb模型持久化方式及转化详解

tensorflow的ckpt及pb

今天小编就为大家分享一篇tensorflow的ckpt及pb模型持
PyTorch笔记之scatter()函数的使用

PyTorch笔记之scatter

这篇文章主要介绍了PyTorch笔记之scatter()函数的使用
python3实现网页版raspberry pi(树莓派)小车控制

python3实现网页版ras

这篇文章主要为大家详细介绍了python3实现网页版raspb
完美解决pycharm导入自己写的py文件爆红问题

完美解决pycharm导入

今天小编就为大家分享一篇完美解决pycharm导入自己写
pycharm内无法import已安装的模块问题解决

pycharm内无法import

今天小编就为大家分享一篇pycharm内无法import已安装