2019年12月的文章

Spark

Spark Action算子详解

杨不知 发布于 6个月前 (12-30)

1、reduce():通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 # 案例1 >>> rdd = sc.parallelize([i for i in range(5)]) >>> rdd.reduce(lam […]

阅读(316)评论(0)赞 (0)

Spark

Spark Transformation算子详解

1

杨不知 发布于 6个月前 (12-26)

Spark RDD算子分为Transformation和Action两类,其中Transformation算子又分为单Value型、双Value型、Key-Value型。 Transformation算子是延迟计算的,它只是计录一系列的计算过程(血族关系),并不会立即执行计算任务 […]

阅读(440)评论(0)赞 (0)

Spark

Spark RDD概述以及创建方式

杨不知 发布于 7个月前 (12-25)

一、概述 1、什么是RDD? RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。在代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD用于支持在并行计算时能够高效地利用中间结果,支持 […]

阅读(383)评论(0)赞 (0)

Spark

Spark集群搭建以及使用

1

杨不知 发布于 7个月前 (12-25)

Spark集群的运行方式总得来说可以分为: 1、Local模式,或者叫本地模式。只有一台机器,一般用于学习或者测试。 2、Standalone模式。可以理解为全分布式模式,整个集群由多台服务器组成,但是它的资源调度是Spark自己完成的,不依赖于其它框架。Standalone字面 […]

阅读(387)评论(0)赞 (0)

杂七杂八

Linux集群时间同步

杨不知 发布于 7个月前 (12-25)

这里所说的集群时间同步是保证局域网内部时间同步,不是和互联网时间进行同步。 时间同步的原理是找一台机器作为老大,以老大的时间作为标准,其它机器定时跟老大的时间进行同步。 先对老大机型如下配置: 1、检查ntp是否安装 NTP服务器【Network Time Protocol(NT […]

阅读(470)评论(0)赞 (0)

Hbase

HBase集群搭建以及使用

杨不知 发布于 7个月前 (12-25)

一、集群搭建 在搭建HBase集群之前请确保已经正确安装了Zookeeper集群和Hadoop集群,并且zkServer、HDFS和Yarn已经正常启动。关于Zookeeper和Hadoop的集群搭建请看Zookeeper集群搭建以及使用、Hadoop集群搭建以及使用。 由于HB […]

阅读(531)评论(0)赞 (0)

Kafka

Kafka集群搭建以及使用

杨不知 发布于 7个月前 (12-25)

一、集群搭建 1、在Kafka官网下载安装包,并解压到/opt/module目录 $ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/ 2、进入到/opt/module目录,修改解压后的文件名称 $ cd /opt/module […]

阅读(394)评论(0)赞 (0)

Zookeeper

Zookeeper写数据流程

杨不知 发布于 7个月前 (12-24)

1、当Client向Server1写数据的时候会发送一个写请求; 2、如果Server1不是Leader,那么它接收到Client的请求之后会将该请求转发给Leader,Leader会进一步将请求广播给其它几个Server,其它几个Server写成功之后就会通知Leader。这样 […]

阅读(348)评论(0)赞 (0)

Zookeeper

Zookeeper内部原理剖析

杨不知 发布于 7个月前 (12-24)

一、半数以上机制 提到Zookeeper就不得不说它的半数以上机制,其实就是在Zookeeper集群中所有的机器只要半数以上存活,那么该集群就是可用的。比如:假设当前Zookeeper集群由5台机器组成,那么只要有3台机器存活,该集群就可以正常使用,但是2台存活就不行。所以,Zo […]

阅读(205)评论(0)赞 (0)

Zookeeper

Zookeeper集群搭建以及使用

杨不知 发布于 7个月前 (12-24)

一、安装 安装Zookeeper的前提是已经安装了JDK。 1、解压 (1)解压Zookeeper安装包到/opt/module/目录下 $ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/ (2)同步/opt/module/zo […]

阅读(301)评论(0)赞 (0)