更新时间:2023-02-23 来源:黑马程序员 浏览量:
PySpark支持多种数据的输入,在输入完成后,都会得到一个:RDD类的对象RDD全称为弹性分布式数据集(Resilient Distributed Datasets),PySpark针对数据的处理,都是以RDD对象作为载体,即:
•数据存储在RDD内
•各类数据的计算方法,也都是RDD的成员方法
•RDD的数据计算方法,返回值依旧是RDD对象
PySpark的编程模型(左图)可以归纳为:准备数据到RDD -> RDD迭代计算 -> RDD导出为list、文本文件等,即:源数据
-> RDD -> 结果数据
PySpark支持通过SparkContext对象的parallelize成员方法,将list、tuple、set、dict、str转换为PySpark的RDD对象,示例代码如下:
from pyspark import SparkConf,SparkContext conf = SparkConf(.setMaster("local[*]").\ setAppName("test_spark_app") sc = SparkContext(conf=conf) rdd=sc.para1lelize(数据容器对象) # 输出RDD的内容 print(rdd.collect(0)
注意:字符串会被拆分出1个个的字符,存入RDD对象,字典仅有key会被存入RDD对象。
PySpark也支持通过SparkContext入口对象,来读取文件,来构建出RDD对象,示例代码如下:
from pyspark import SparkConf,SparkContext conf = SparkConf().setMaster("loca][*]").\ setAppName("test_spark_app") sc = SparkContext(conf=conf) rdd=sc.textFile(文件路径) #打印RDD内容 print(rdd.collect())
【AI设计】北京143期毕业仅36天,全员拿下高薪offer!黑马AI设计连续6期100%高薪就业
2025-09-19【跨境电商运营】深圳跨境电商运营毕业22个工作日,就业率91%+,最高薪资达13500元
2025-09-19【AI运维】郑州运维1期就业班,毕业14个工作日,班级93%同学已拿到Offer, 一线均薪资 1W+
2025-09-19【AI鸿蒙开发】上海校区AI鸿蒙开发4期5期,距离毕业21天,就业率91%,平均薪资14046元
2025-09-19【AI大模型开发-Python】毕业33个工作日,就业率已达到94.55%,班均薪资20763元
2025-09-19【AI智能应用开发-Java】毕业5个工作日就业率98.18%,最高薪资 17.5k*13薪,全班平均薪资9244元
2025-09-19