作者:empty 页数:767 出版社:empty |
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力, 适用于大数据的技术, 包括大规模并行处理(MPP) .
上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解:1.1数据收集大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具, 如Flume、Log stash、kiba na等, 它们都能通过简单的配置完成复杂的数据收集和数据聚合。1.2数据存储收集到数据后, 下一个问题就是:数据该如何进行存储?通常大家最为熟知是MySQL、oracle等传统的关系型数据库,它们的优点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储, 衍生了Had oop HDFS、KFS、GFS等分布式文件系统, 它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存
大数据学习路线
大数据技术栈思维导图
大数据常用软件安装指南
分布式文件存储系统—HDFS
分布式计算框架——Map Reduce
集群资源管理器——YARN
Had oop单机伪集群环境搭建
Had oop集群环境搭建
HDFS常用Shell命令
HDFS Java API的使用
基于Zookeeper搭建Had oop高可用集群
Hive简介及核心概念
Linux环境下Hive的安装部著
Hive CLI和Beeline命令行的基本使用
Hive常用DDL操作
Hive分区表和分桶表
Hive视图和索引
Hive常用DML操作
Hive数据查询详解
Spark Core
Spark简介
Spark开发环境搭建
弹性式数据集RDD
RDD常用算子详解
Spark运行模式与作业提交
Spark累加器与广播变量
基于Zookeeper搭建Spark高可用集群
Storm和流处理简介
Storm核心概念详解
Storm单机环境搭建
Storm集群环境搭建
Storm编程模型详解
Date Frame和Data Ser
Structured API的基本使用
Spark SQL外部数据源
Spark SQL常用聚合函数
Spark SQL JOIN操作
Spark Streaming简介
Spark Streaming基本操作
Spark Streaming整合Flume
Spark Streaming整合Kafka
Storm项目三种打包方式对比分析
Storm集成Red is详解
Storm集成HDFS-H Base
Storm集成Kafka
F link核心概念综述
F link开发环境搭建
F link DataSource
F link Data Transformation
F link Data Sink
F link窗模型
F link状态管理与检查点机制
F link Standalone集群部署
H base简介
H Base系统架构及数据结构
H Base基本环境搭建(Standalone-pseudo-distributed mode)
H Base集群环境搭建
H Base常用Shell命令
H Base Java API
H base过滤器详解
H Base协处理器详解