标签:大数据

Hadoop

Hadoop 启动关闭命令总结

杨不知 发布于 10小时前

HDFS: 格式化 NameNode:bin/hdfs namenode -format 启动单个 NameNode:sbin/hadoop-daemon.sh start namenode 启动单个 DataNode:sbin/hadoop-daemon.sh start na […]...

阅读(6)评论(0)赞 (0)

Hive

Hive 数据导入和导出

杨不知 发布于 13小时前

一、数据导入 1.1 load 命令 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] local […]...

阅读(5)评论(0)赞 (0)

Hive

内部表、外部表、分区表、分桶表

2

杨不知 发布于 15小时前

一、内部表 内部表也称为管理表,默认创建的表都是内部表。因为这种表,Hive 会(或多或少地)控制着数据的生命周期。Hive 默认情况下会将这些表的数据存储在由配置项hive.metastore.warehouse.dir(例如,/user/hive/warehouse)所定义的 […]...

阅读(15)评论(0)赞 (0)

Hive

Hive DDL操作合集

杨不知 发布于 1天前

关于Hive官方对DDL语言的说明,可以参见此页。 一、数据库操作 1.1 创建数据库 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs […]...

阅读(25)评论(0)赞 (0)

Hive

Hive安装以及MySQL相关配置

杨不知 发布于 2个月前 (01-06)

一、安装Hive 1、下载Hive安装包 官网下载地址:http://hive.apache.org/downloads.html 网速慢可以使用这个链接:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 2、安装步骤 (1)将下 […]...

阅读(90)评论(0)赞 (0)

Spark

Spark Action算子详解

杨不知 发布于 2个月前 (12-30)

1、reduce():通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。 # 案例1 >>> rdd = sc.parallelize([i for i in range(5)]) >>> rdd.reduce(lam […]...

阅读(77)评论(0)赞 (0)

Spark

Spark Transformation算子详解

1

杨不知 发布于 2个月前 (12-26)

Spark RDD算子分为Transformation和Action两类,其中Transformation算子又分为单Value型、双Value型、Key-Value型。 Transformation算子是延迟计算的,它只是计录一系列的计算过程(血族关系),并不会立即执行计算任务 […]...

阅读(161)评论(0)赞 (0)

Spark

Spark RDD概述以及创建方式

杨不知 发布于 2个月前 (12-25)

一、概述 1、什么是RDD? RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。在代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 RDD用于支持在并行计算时能够高效地利用中间结果,支持 […]...

阅读(117)评论(0)赞 (0)

Spark

Spark集群搭建以及使用

1

杨不知 发布于 2个月前 (12-25)

Spark集群的运行方式总得来说可以分为: 1、Local模式,或者叫本地模式。只有一台机器,一般用于学习或者测试。 2、Standalone模式。可以理解为全分布式模式,整个集群由多台服务器组成,但是它的资源调度是Spark自己完成的,不依赖于其它框架。Standalone字面 […]...

阅读(93)评论(0)赞 (0)

Hbase

HBase集群搭建以及使用

杨不知 发布于 2个月前 (12-25)

一、集群搭建 在搭建HBase集群之前请确保已经正确安装了Zookeeper集群和Hadoop集群,并且zkServer、HDFS和Yarn已经正常启动。关于Zookeeper和Hadoop的集群搭建请看Zookeeper集群搭建以及使用、Hadoop集群搭建以及使用。 由于HB […]...

阅读(110)评论(0)赞 (0)