大数据技术原理及应用林子雨版课后习题答案解析 - 图文

***

专业资料整理分享

Common Avro

Commeo是n 为 Hadoop其他子项目提供支持的常用工具,主要包括文件系统、 和串行化库

RPC

Avro 是为 Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类 型、快速可压缩的二进制数据格式、 存储持续性数据的文件集、 远程调用的功能 和简单的动态语言集成功能。

HDFS是 Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。

HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库, 一般采用 HDFS作为其底层数据存储。

MapReduce是针对谷歌 MapReduce的开源实现,用于大规模数据集的并行运算。

Zoookepper 是针对谷歌 Chubby的一个开源实现,是高效和可靠的协同工作系统, 提供分布式锁之类的基本服务, 用于构建分布式应用, 减轻分布式应用程序所承 担的协调任务。

Hive 是一个基于 Hadoop的数据仓库工具,可以用于对 Hadoop文件中的数据集 进行数据整理、特殊查询和分布存储。

Pig 是一种数据流语言和运行环境, 适合于使用 Hadoop和 MapReducce平台上查 询大型半结构化数据集。

Sqoop可以改进数据的互操作性, 主要用来在 H大哦哦哦配合关系数据库之间交

完美 WORD格式编辑

***

***

专业资料整理分享

换数据。

Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种 类型的数据收集成适合 Hadoop处理的文件,并保存在 HDFS中供 Hadoop进行各 种 MapReduce操作。

第三章

1.试述分布式文件系统设计的需求。 设计需求 透明性

含义

具备访问透明性、位置透 明性、性能、和伸缩透明 性

HDFS的实现情况 只能提供一定程度的访 问透明性,完全支持位置 透明性、性能和伸缩透明 性

并发控制

客户端对于文件的读写 不应该影响其他客户端 对同一个文件的读写

文件复制

一个文件可以拥有不同

HDFS采用了多副本机制

位置的多个副本

硬件和操作系统的异构 性

可以在不同的操作系统

采用 Java 语言开发,具

和计算机上实现同样的 客户端和服务端程序

可伸缩性

支持节点的动态加入或 退出

建立在大规模廉价机器

上的分布式文件系统集 群,具有很好的伸缩性

完美 WORD格式编辑

***

机制非常简单,任何时候 都只允许有一个程序写 入某个文件

有很好的跨平台能力

***

专业资料整理分享

容错 保证文件服务在客户端 或者服务端出现问题的 时候能正常使用

具有多副本机制和故障 自动检测、恢复机制

安全 保证系统的安全性 安全性较弱

2.分布式文件系统是如何实现较高水平扩展的?

分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,

这些节点分

为两类,一类叫“主节点”(Master Node)或者也被称为 “名称结点”(NameNode), 另一类叫“从节点”( Slave Node )或者也被称为“数据节点” (DataNode)

3.试述 HDFS中的块和普通文件系统中的块的区别。

答:在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,恶如 不是以字节为单位。

HDFS中的块,默认一个块大小为 64MB,而HDFS中的文件会被拆分成多个块, 每个块作为独立的单元进行存储。 HDFS在块的大小的设计上明显要大于普通文 件系统。

4.试述 HDFS中的名称节点和数据节点的具体功能。 答:名称节点负责管理分布式文件系统系统的命名空间, 的每个文件中各个块所在的数据节点的位置信息;

数据节点是分布式文件系统 HDFS的工作节点,负责数据的存储和读取,会 根据客户端或者是名称节点的调度来进行数据的存储和检索, 发送自己所存储的块的列表。

并向名称节点定期 记录分布式文件系统中

hadoop fs -ls 显示指定的文件的详细信息

完美 WORD格式编辑

***

***

专业资料整理分享

hadoop fs -cat

指定的文件的内容输出到标准输出

hadoop fs -mkdir 创建指定的文件夹

hadoop fs -get [-ignorecrc] [-crc]

到本地文件系统 指定的文件或文件夹。 -ignorecrc 验失败的文件。使用 -crc 选项复制文件以及 CRC信息。

复制指定的文件 选项复制 CRC校

hadoop fs -put 从本地文件系统中复制 指定的单

个或多个源文件到 指定的目标文件系统中。 也支持从标准输入 (stdin) 中读 取输入写入目标文件系统。

hadoop fs -rmr 删除指定的文件夹及其的所有文件

第四章

17. 试述在 Hadoop体系架构中 HBase与其他组成部分的相互关系。

答: HBase利用 Hadoop MapReduce来处理 HBase中的海量数据,实现高性能计 算;利用 Zookeeper 作为协同服务,实现稳定服务和失败恢复;使用 高可靠的底层存储,利用廉价集群提供海量数据存储能力

HDFS作为

; Sqoop为HBase的底

层数据导入功能,Pig 和 Hive 为 HBase提供了高层语言支持, HBase是 BigTable 的开源实现。

完美 WORD格式编辑

***

联系客服:779662525#qq.com(#替换为@)