程序员虾说程序员虾说

24小时更新:3篇     一周更新:4篇最新发布

Hadoop

Hadoop 启动关闭命令总结

杨不知 发布于 10小时前

HDFS: 格式化 NameNode:bin/hdfs namenode -format 启动单个 NameNode:sbin/hadoop-daemon.sh start namenode 启动单个 DataNode:sbin/hadoop-daemon.sh start na […]...

阅读(6)评论(0)赞 (0)

Hive

Hive 数据导入和导出

杨不知 发布于 13小时前

一、数据导入 1.1 load 命令 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] local […]...

阅读(5)评论(0)赞 (0)

Hive

内部表、外部表、分区表、分桶表

2

杨不知 发布于 15小时前

一、内部表 内部表也称为管理表,默认创建的表都是内部表。因为这种表,Hive 会(或多或少地)控制着数据的生命周期。Hive 默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如,/user/hive/warehouse)所定义的 […]...

阅读(15)评论(0)赞 (0)

Hive

Hive DDL操作合集

杨不知 发布于 1天前

关于Hive官方对DDL语言的说明,可以参见此页。 一、数据库操作 1.1 创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs […]...

阅读(25)评论(0)赞 (0)

大数据

xsync集群分发脚本

杨不知 发布于 4周前 (02-01)

在大数据领域中经常需要在各个机器之间同步配置(将同一份文件拷贝到各个机器的相应位置上),不管用scp还是其它方式拷贝,手动执行都是比较烦人的。如果集群比较小也还好,但是如果集群比较庞大,手动执行是不可能的事。所以我们需要一个自动分发的脚本来帮我们执行这个任务。具体步骤为: 1、在 […]...

阅读(40)评论(0)赞 (0)

Spark

Spark中的相关术语介绍

1

杨不知 发布于 1个月前 (01-19)

1、Master 和 Worker 在大数据框架中,一般都会有主节点和从节点的概念。主节点负责资源管理和任务调度,从节点负责执行计算并向主节点汇报工作状态。这里的Master代表的就是主节点,Worker代表的就是从节点。Master和Worker是基于物理机器的概念,一般说ma […]...

阅读(41)评论(0)赞 (0)

杂七杂八

SSH免密登录配置

1

杨不知 发布于 1个月前 (01-18)

使用SSH免密登录的前提是各机器已经安装了SSH。 SSH免密登录原理: 配置步骤: 1、在服务器A使用cd ~命令进入到家目录。 2、生成ssh免登陆秘钥。执行ssh-keygen -t rsa,然后一路回车,会生 ~/.ssh 文件夹下面生成两个文件id_rsa(私钥)和id […]...

阅读(54)评论(0)赞 (0)

Hive

Hive安装以及MySQL相关配置

杨不知 发布于 2个月前 (01-06)

一、安装Hive 1、下载Hive安装包 官网下载地址:http://hive.apache.org/downloads.html 网速慢可以使用这个链接:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 2、安装步骤 (1)将下 […]...

阅读(90)评论(0)赞 (0)

Spark

Spark Action算子详解

杨不知 发布于 2个月前 (12-30)

1、reduce():通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 # 案例1 >>> rdd = sc.parallelize([i for i in range(5)]) >>> rdd.reduce(lam […]...

阅读(77)评论(0)赞 (0)