标签:Spark

Spark

Spark 面试题

2

杨不知 发布于 4个月前 (03-29)

Spark 有哪几种运行模式 Local 模式:Local 模式就是运行在一台计算机上的模式,通常用于在本机练手和测试。 Standalone 模式:构建一个 Master + Slave 构成的 Spark 集群,Spark 运行在集群中。 Yarn 模式:Spark 客户端直 […]

阅读(413)评论(0)赞 (0)

Spark

Spark Action算子详解

杨不知 发布于 7个月前 (12-30)

1、reduce():通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 # 案例1 >>> rdd = sc.parallelize([i for i in range(5)]) >>> rdd.reduce(lam […]

阅读(380)评论(0)赞 (0)

Spark

Spark Transformation算子详解

1

杨不知 发布于 7个月前 (12-26)

Spark RDD算子分为Transformation和Action两类,其中Transformation算子又分为单Value型、双Value型、Key-Value型。 Transformation算子是延迟计算的,它只是计录一系列的计算过程(血族关系),并不会立即执行计算任务 […]

阅读(544)评论(0)赞 (0)

Spark

Spark RDD概述以及创建方式

杨不知 发布于 7个月前 (12-25)

一、概述 1、什么是RDD? RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。在代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD用于支持在并行计算时能够高效地利用中间结果,支持 […]

阅读(459)评论(0)赞 (0)

Spark

Spark集群搭建以及使用

1

杨不知 发布于 7个月前 (12-25)

Spark集群的运行方式总得来说可以分为: 1、Local模式,或者叫本地模式。只有一台机器,一般用于学习或者测试。 2、Standalone模式。可以理解为全分布式模式,整个集群由多台服务器组成,但是它的资源调度是Spark自己完成的,不依赖于其它框架。Standalone字面 […]

阅读(467)评论(0)赞 (0)