程序员虾说程序员虾说

所有文章 第2页

大数据

xsync集群分发脚本

杨不知 发布于 6个月前 (02-01)

在大数据领域中经常需要在各个机器之间同步配置(将同一份文件拷贝到各个机器的相应位置上),不管用scp还是其它方式拷贝,手动执行都是比较烦人的。如果集群比较小也还好,但是如果集群比较庞大,手动执行是不可能的事。所以我们需要一个自动分发的脚本来帮我们执行这个任务。具体步骤为: 1、在 […]

阅读(439)评论(0)赞 (0)

Spark

Spark中的相关术语介绍

1

杨不知 发布于 7个月前 (01-19)

1、Master 和 Worker 在大数据框架中,一般都会有主节点和从节点的概念。主节点负责资源管理和任务调度,从节点负责执行计算并向主节点汇报工作状态。这里的Master代表的就是主节点,Worker代表的就是从节点。Master和Worker是基于物理机器的概念,一般说ma […]

阅读(374)评论(0)赞 (0)

杂七杂八

SSH免密登录配置

1

杨不知 发布于 7个月前 (01-18)

使用SSH免密登录的前提是各机器已经安装了SSH。 SSH免密登录原理: 配置步骤: 1、在服务器A使用cd ~命令进入到家目录。 2、生成ssh免登陆秘钥。执行ssh-keygen -t rsa,然后一路回车,会生 ~/.ssh 文件夹下面生成两个文件id_rsa(私钥)和id […]

阅读(374)评论(0)赞 (0)

Hive

Hive安装以及MySQL相关配置

杨不知 发布于 7个月前 (01-06)

一、安装Hive 1、下载Hive安装包 官网下载地址:http://hive.apache.org/downloads.html 网速慢可以使用这个链接:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 2、安装步骤 (1)将下 […]

阅读(499)评论(0)赞 (0)

Spark

Spark Action算子详解

杨不知 发布于 7个月前 (12-30)

1、reduce():通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 # 案例1 >>> rdd = sc.parallelize([i for i in range(5)]) >>> rdd.reduce(lam […]

阅读(380)评论(0)赞 (0)

Spark

Spark Transformation算子详解

1

杨不知 发布于 7个月前 (12-26)

Spark RDD算子分为Transformation和Action两类,其中Transformation算子又分为单Value型、双Value型、Key-Value型。 Transformation算子是延迟计算的,它只是计录一系列的计算过程(血族关系),并不会立即执行计算任务 […]

阅读(544)评论(0)赞 (0)

Spark

Spark RDD概述以及创建方式

杨不知 发布于 7个月前 (12-25)

一、概述 1、什么是RDD? RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。在代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD用于支持在并行计算时能够高效地利用中间结果,支持 […]

阅读(459)评论(0)赞 (0)

Spark

Spark集群搭建以及使用

1

杨不知 发布于 7个月前 (12-25)

Spark集群的运行方式总得来说可以分为: 1、Local模式,或者叫本地模式。只有一台机器,一般用于学习或者测试。 2、Standalone模式。可以理解为全分布式模式,整个集群由多台服务器组成,但是它的资源调度是Spark自己完成的,不依赖于其它框架。Standalone字面 […]

阅读(467)评论(0)赞 (0)

杂七杂八

Linux集群时间同步

杨不知 发布于 7个月前 (12-25)

这里所说的集群时间同步是保证局域网内部时间同步,不是和互联网时间进行同步。 时间同步的原理是找一台机器作为老大,以老大的时间作为标准,其它机器定时跟老大的时间进行同步。 先对老大机型如下配置: 1、检查ntp是否安装 NTP服务器【Network Time Protocol(NT […]

阅读(550)评论(0)赞 (0)