PySpark如何输入数据到Spark中?【RDD对象】

PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象RDD全称为弹性分布式数据集(Resilient Distributed Datasets),PySpark针对数据的处理,都是以RDD对象作为载体,即:

  •数据存储在RDD内

  •各类数据的计算方法,也都是RDD的成员方法

  •RDD的数据计算方法,返回值依旧是RDD对象

PySpark的编程模型(左图)可以归纳为:准备数据到RDD -> RDD迭代计算 -> RDD导出为list、文本文件等,即:源数据 -> RDD -> 结果数据

PySpark如何输入数据到Spark中?【RDD对象】

PySpark支持通过SparkContext对象的parallelize成员方法,将list、tuple、set、dict、str转换为PySpark的RDD对象,示例代码如下:

from pyspark import SparkConf,SparkContextconf = SparkConf(.setMaster("local[*]").\\    setAppName("test_spark_app")sc = SparkContext(conf=conf)rdd=sc.para1lelize(数据容器对象)# 输出RDD的内容print(rdd.collect(0)

注意:字符串会被拆分出1个个的字符,存入RDD对象,字典仅有key会被存入RDD对象。

PySpark也支持通过SparkContext入口对象,来读取文件,来构建出RDD对象,示例代码如下:

from pyspark import SparkConf,SparkContextconf = SparkConf().setMaster("loca][*]").\\    setAppName("test_spark_app")sc = SparkContext(conf=conf)rdd=sc.textFile(文件路径)#打印RDD内容print(rdd.collect())

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/303270.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
黑马程序员黑马程序员订阅用户
上一篇 2023年7月5日 15:26
下一篇 2023年7月5日 15:26

相关推荐

  • PHP入门指南:PHP和Spark。

    PHP是一种非常流行的服务器端编程语言,因为它简单易学、开放源代码和跨平台。目前,很多大企业都采用PHP语言来构建应用程序,例如Facebook和WordPress等。Spark是一种快速且轻量级的开发框架,可用于构建Web应用程…

    2023年5月22日
    04
  • 小编分享rdd.map。

    在Apache Spark中,RDD(Resilient Distributed Dataset)是一个容错的、并行的数据结构,可以让用户在大规模数据集上执行各种操作,Map操作是RDD中的一种基本操作,它将一个函数应用于RDD中的每个元素,并生成一个…

    2024年6月14日
    00

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息