欢迎登陆真网站,您的到来是我们的荣幸。 登陆 注册 忘记密码? ☆设为首页 △加入收藏
欢迎加入真幸福QQ群
电脑知识: 基础知识 网络技术 操作系统 办公软件 电脑维修 电脑安全 windows7 windows8 windows10 服务器教程 平板电脑 视频播放教程 网络应用 互联网 工具软件 浏览器教程 QQ技巧 输入法教程 影视制作 YY教程 wps教程 word教程 Excel教程 PowerPoint
云南西双版纳特产小花糯玉米真空包装


酷狗如何随机选歌听
酷狗如何把试听的歌存到电脑
自学Linux命令的四种方法
Windows服务器安全部署的五大策略
哪些行业巨头正在使用Linux操作系统?
如何确定远程计算机所用的操作系统?
linux sed命令详解
使用Update查询指定编号的数据
linux下串口调试工具xgcom安装
linux磁盘管理二
Hadoop是什么
【 来源:网络 】【 点击:1 】 【 发布时间:2017_03_03 08:59:59 】

   Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.

  Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

  数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果.

Hadoop是什么 三联

  HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.

  大文件被分成默认64M一块的数据块分布存储在集群机器中.

  如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

  MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

  Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

  如下图所示:

  NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

  NameNode同时保存了文件系统运行的状态信息.

  DataNode中存储的是被拆分的blocks.

  Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

  JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

  TaskTracker负责某一个map或者reduce任务.

本网站由川南居提供技术支持,fkzxf版权所有 浙ICP备12031891号
淳安分站 淳安分站