游客您好
第三方账号登陆
  • 点击联系客服

    在线时间:8:00-16:00

    客服电话

    17712677918

    电子邮件

    857020071@qq.com
  • 扫描二维码

    关注微信公众号

推荐阅读
vgongye 版主
未知星球 | 未知职业
  • 关注0
  • 粉丝0
  • 帖子97
热议话题
Node.js 简介
2021-08-28 0
Node.js 是一个开源与跨平台的 JavaScript 运行时环境。 它是一个可用于几乎任何项目
精选帖子

大数据技术介绍:01大数据概述

[复制链接]
vgongye 发表于 2020-8-2 09:41:42 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
大数据技术介绍:01大数据概述
大数据技术框架:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop生态系统(1)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop生态系统(2)
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop构成:Flume(非结构化数据收集):
Cloudera开源的日志收集系统
用于非结构化数据收集
Flume特点
分布式
高可靠性
高容错性
易于定制与扩展
日志收集工具:flume
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop构成:Sqoop(结构化数据收集)
20190202101155388.png
Sqoop:SQL-to-Hadoop
连接传统关系型数据库和Hadoop 的桥梁
把关系型数据库的数据导入到Hadoop 系统( 如HDFS,HBase 和Hive) 中;
把数据从Hadoop 系统里抽取并导出到关系型数据库里。
利用MapReduce加快数据传输速度
批处理方式进行数据传输
Hadoop构成:HDFS(分布式文件系统)
源自于Google的GFS论文,发表于2003年10月
HDFS是GFS克隆版
HDFS特点:
良好的扩展性。
高容错性。
适合PB级以上海量数据的存储。
基本原理:
将文件切分成等大的数据块,存储到多台机器上
将数据切分、容错、负载均衡等功能透明化
可将HDFS看成一个容量巨大、具有高容错性的磁盘
应用场景:
海量数据的可靠性存储
数据归档
Hadoop构成:YARN(资源管理系统)
YARN是什么
Hadoop 2.0新增系统
负责集群的资源管理和调度
使得多种计算框架可以运行在一个集群中
YARN的特点
良好的扩展性、高可用性
对多种类型的应用程序进行统一管理和调度
自带了多种多用户调度器,适合共享集群环境
如下图:图1,图2
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop构成:MapReduce(分布式计算框架)
源自于Google的MapReduce论文
发表于2004年12月
Hadoop MapReduce是Google MapReduce克隆版
MapReduce特点
良好的扩展性
高容错性
适合PB级以上海量数据的离线处理
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop构成:Hive(基于MR的数据仓库)
由facebook开源,最初用于解决海量结构化的日志数据统计问题;
ETL(Extraction-Transformation-Loading)工具
构建在Hadoop之上的数据仓库;
数据计算使用MR,数据存储使用HDFS
Hive 定义了一种类SQL 查询语言——HQL;
类似SQL,但不完全相同
通常用于进行离线数据处理(采用MapReduce);
可认为是一个HQL <—>MR的语言翻译器。
日志分析
统计网站一个时间段内的pv、uv
多维度数据分析
大部分互联网公司使用Hive进行日志分析,包括百度、淘宝等
其他场景
海量结构化数据离线分析
低成本进行数据分析(不直接编写MR)
Spark生态系统:
spark主要是面向计算的生态系统,而hadoop则是涉及数据收集、存储、
资源管理和计算等的综合大数据解决方案。
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Flink生态系统:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
典型企业级大数据架构:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop发行版介绍(开源版)
Apache Hadoop
推荐使用最新的2.x.x版本,比如2.7.3
下载地址:http://hadoop.apache.org/releases.html
SVN:http://svn.apache.org/repos/asf/hadoop/common/branches/
CDH(Cloudera Distributed Hadoop)
推荐使用最新的CDH5版本,比如CDH5.8.0
下载地址: http://archive.clouder**/cdh5/cdh/
HDP(Hortonworks Data Platform
推荐使用最新的HDP 2.x版本,比如HDP 2.6版本
下载地址:http://zh.hortonworks.com/hdp/downloads/
Hadoop版本选择
不同发行版兼容性
架构、部署和使用方法一致,不同之处仅在若干内部实现。
建议选择公司发行版,比如CDH或HDP
类比原生linux与Ubuntu/Red Hat关系
更易维护和升级
经过集成测试,不会面临版本兼容问题
Hadoop集群搭建
全人工搭建
自动化安装软件:Cloudera Manager,Ambari
Hadoop发行版CDH:如下图:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop发行版HDP:如下图
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
Hadoop全人工模式安装:常见错误
1.防火墙未关闭(所有节点都要关系)
Connection Refused…
2.配置文件抄错
core-site.xml
yarn-site.xml
hdfs-site.xml
以及mapredsite.xml
3.多次格式化HDFS
每次格式化后,均会导致HDFS启动失败,
解决方案:清空HDFS的各个数据目录,然后重启HDFS
格式化HDFS是非常危险的,会导致所有数据丢失!!!
Hadoop运行模式
本地模式:
一个节点,不会启动任何服务
伪分布式模式:
一个节点,所有服务均运行在该节点上
分布式模式:
多于一个节点
自动化安装:Ambari,如下图
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
自动化安装:Cloudera Manager
Coudera提供的Hadoop管理系统
软件免费,但代码不开源
迄今为止最好用的Hadoop管理系统
Hadoop自动化安装、部署和配置
Hadoop管理(一站式管理各种服务)
Hadoop监控与报警
Hadoop问题诊断
自动化安装:Cloudera Manager(主界面),如下图:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
自动化安装:Cloudera Manager(节点管理),如下图:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
自动化安装:Cloudera Manager(配置管理),如下图:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
自动化安装:Cloudera Manager(搭建集群),如下图:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
自动化安装:Cloudera Manager(审计),如下图:
watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3planVud3pq,size_16,color_FFFFFF,t_70.jpg
学习大数据技术栈:
Linux虚拟机
Linux教程
http://www.92csz.com/study/linux/
集成开发环境:
Eclipse,intellij IDEA
【项目构建(包管理、编译、发布),maven】
maven教程:
https://yq.aliyun.com/articles/28591
http://www.yiibai.com/maven/
http://wenku.baidu.com/link?url=cceOGhtpf7xHs_KFbI2f_uh0B7uo915pSZhqbO2ymD2ouJ7qhcOZmlc1W9xB6VxHnqu9VPD_M9HloZ_Pt-wuL3uTJ6cfKCxuJm0Z_FSxCm

【Hadoop与Spark版本】
Scala 2.11.X(不能是2.10或2.12),Java 1.8
Hadoop 2.7.3
http://hadoop.apache.org/releases.html
Hive 2.1.1
http://hive.apache.org/downloads.html
Hbase 1.2.4
http://www.apache.org/dyn/closer.cgi/hbase/
Flume 1.7.0
http://flume.apache.org/download.html
Sqoop1.99.7
http://mirror.cc.columbia.edu/pub/software/apache/sqoop/1.99.7/sqoop-1.99.7-binhadoop200.tar.gz
Presto 0.166
https://prestodb.io/docs/current/installation/deployment.html
Spark 2.1.0
http://spark.apache.org/downloads.html
Kafka 0.9.0
http://kafka.apache.org/downloads
Zookeeper 3.4.9
http://zookeeper.apache.org/releases.html#download
====================================
【End:2019-02-02 10:21】





上一篇:大数据技术发展史:大数据的前世今生
下一篇:大数据的下一站是什么?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明
icitu.com 信息谷-icit软硬件产品营销与行业智慧化解决方案实施供需对接空间,信息人家园-信息人之间互助互惠互利的资源整合空间,icit人团结起来帮助人们沟通与建设,icit unite to help people communicating&constructing。
0512-68181818
关注我们
  • 访问移动手机版
  • 官方微信公众号

Powered by Discuz! X3.4© 2001-2013 Comsenz Inc. 优康设计 ( 苏ICP备10066271号-2 )|网站地图