这篇文章主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

这篇文章主要介绍了pandas和spark dataframe互相转换实例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

from pyspark.sql import SparkSession
# 初始化spark会话
spark = SparkSession \
  .builder \
  .getOrCreate()
spark_df = spark.createDataFrame(pandas_df)

spark的dataframe转pandas的dataframe

import pandas as pd
pandas_df = spark_df.toPandas()

由于pandas的方式是单机版的,即toPandas()的方式是单机版的,所以参考breeze_lsw改成分布式版本:

import pandas as pd
def _map_to_pandas(rdds):
  return [pd.DataFrame(list(rdds))]
  
def topas(df, n_partitions=None):
  if n_partitions is not None: df = df.repartition(n_partitions)
  df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
  df_pand = pd.concat(df_pand)
  df_pand.columns = df.columns
  return df_pand
  
pandas_df = topas(spark_df)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持爱安网。

最新资讯
支付机构新政民意调查:企业开户望留出口 期待反垄断细则出台

支付机构新政民意调查

近日,非银行支付机构(简称“支付机构”)监管文件密集出台
网络互助平台咋就“不香了”?

网络互助平台咋就“不

遭遇分摊人数下降的还有水滴旗下的水滴互助,该互助平台
港股浮世绘:有银行零成交 腾讯一日市值暴增7000亿

港股浮世绘:有银行零成

南下资金来势汹汹,港股飞起,机构抱团腾讯、美团等科技股
上海消保委测试网约车 超半数订单多算公里数

上海消保委测试网约车

结果显示,110次计程计时中,57次计程偏高,40次计时偏高。
掌门教育或赴美IPO 在线教育机构决战“下半场”

掌门教育或赴美IPO 在

2021年伊始,有消息称掌门教育即将赴美上市,预计募资金融
一个腾讯市值凭啥抵过六大行

一个腾讯市值凭啥抵过

腾讯之所以能为股东持续创造价值,是因为具有持续进化的
最新文章
在pycharm中为项目导入anacodna环境的操作方法

在pycharm中为项目导

这篇文章主要介绍了在pycharm中为项目导入anacodna环
tensorflow的ckpt及pb模型持久化方式及转化详解

tensorflow的ckpt及pb

今天小编就为大家分享一篇tensorflow的ckpt及pb模型持
PyTorch笔记之scatter()函数的使用

PyTorch笔记之scatter

这篇文章主要介绍了PyTorch笔记之scatter()函数的使用
python3实现网页版raspberry pi(树莓派)小车控制

python3实现网页版ras

这篇文章主要为大家详细介绍了python3实现网页版raspb
完美解决pycharm导入自己写的py文件爆红问题

完美解决pycharm导入

今天小编就为大家分享一篇完美解决pycharm导入自己写
pycharm内无法import已安装的模块问题解决

pycharm内无法import

今天小编就为大家分享一篇pycharm内无法import已安装