云计算期末考试总结 下载本文

内容发布更新时间 : 2025/1/23 7:16:32星期一 下面是文章的全部内容请认真阅读。

第一章

什么是“新摩尔定律”:

每 18 个月全球新增信息量是计算机有史以来全部信息量的总和。

云计算具有哪些特点:

(1)、超大规模(2)、虚拟化(3)、高可靠性(4)、通用性(5)、高可伸缩性、(6)、按需服务(7)、极其廉价

云计算按照服务类型大致分为三类:

将基础设施作为服务(Iaas)、将平台作为服务(Paas)、将软件作为服务(SaaS) 什么是 Iaas?

将硬件设备等基础资源封装成服务供用户使用,如 AWS 的弹性计算云 EC2 和简单存 储服务 S3。

什么是 Paas?

对资源的抽象层次更进一步,它提供用户应用程序的运行环境,典型的如 Google App Engine。

什么是 SaaS?

它的针对性更强,它将某些特定应用软件功能封装成服务,如 Salesforce 公司提供的 在线客户关系管理 CRM 服务。

云计算技术体系结构分为四层:

物理资源层、资源池层、管理中间件层和 SOA 构建层 (管理中间件层和资源池层是云计算技术的最关键部分) 物理资源层包括计算机、存储器、网络设施、数据库和软件。

资源池层是将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资 源池。构建资源池更多的是物理资源的集成和管理工作。

管理中间件层负责对云计算的资源进行管理,并对众多应用任务进行调度,使资源能够高 效、安全地为应用服务。

大数据具有 4V+1C 的特征:

(1)、数据量大(2)、多样(3)、快速(4)、价值密度低(5)、复杂度 全球企业的 IT 开销分为三部分:硬件开销、能耗和管理成本。 云计算的优势:

云计算有更低的硬件和网络成本、更低管理成本和电力成本以及更高的资源利用率。 云计算与大数据之间的关系:

大数据是需求,云计算是手段。没有大数据,就不需要云计算。没有云计算就无法处理大 数据。

什么是云计算:

长定义:云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上, 使各种应用系统能够根据需要获取计算力、存储空间和信息服务。短定义:云计算是通过 网络按需提供可动态伸缩的廉价计算服务。

云计算的管理中间件层:负责资源管理、任务管理、用户管理、和安全管理等工作。

资源管理:负责均衡地使用云资源节点,检测节点的故障并试图恢复或屏蔽它,并对资源的 使用情况进行监视统计;

任务管理:负责执行用户或应用提交的任务,包括完成用户任务映像部署和管理、任务调度、 任务管理、生命周期管理。

简述亚马逊的云计算:

AWS 率先在全球提供了弹性计算云 EC2 和简单服务存储服务 S3,为企业提供计算和存储 服务。

亚马逊是最大的服务商,谷歌是最大的云计算技术的使用者。

第二章

Google 云计算技术包括:

Google 文件系统 GFS、分布式计算编程模型 MapReduce、分布式锁服务 Chubby、分 布式结构化数据表 Bigtable。

当前主流分布式文件系统有哪些?各有什么优缺点?

答:RedHat 的 GFS(Global File System)、IBM 的 GPFS、Sun 的 Lustre 等。

优缺点:①GFS 采用廉价的商品机器构建分布式文件系统,同时将 GFS 的设计与 Google 应用的特点紧密结合,简化实现,GFS 将容错的任务交给文件系统完成,利用软件的方法 解决系统可靠性问题,使存储成本下降;GFS 将服务器故障视为正常现象,并采用多种方 法、从多个角度,使用不同的容错措施,确保数据存储的安全、保证提供不间断的数据存 储服务。

②IBM GPFS 并行文件系统软件在设计上不存在任何性能瓶颈,因此 GPFS 并行文件系统可 以充分发挥硬件系统的性能。换句话说,GPFS 并行文件系统的性能完全取决于硬件配置的 好坏,而文件系统软件本身对性能的影响微乎其微。IBM GPFS 并行文件系统与其它并行文 件系统之间最大的区别在于 GPFS 不需要专用的元数据(Meta Data)管理服务器,所有元 数据分散在磁盘阵列中,并可以由任何 I/O 节点管理。这样的设计避免了并行文件系统中 最可能产生性能瓶颈的因素——Meta Data Server。

③Lustre 文件系统为例,它只对元数据管理器 MDS 提供容错解决方案,而对于具体的数据 存储节点 OST 来说,则依赖其自身来解决容错的问题。例如,Lustre 推荐 OST 节点采用 RAID 技术或 SAN 存储区域网来容错,但由于 Lustre 自身能提供数据存储的容错,一旦 OST 发生故障就无法恢复,因此对 OST 的稳定性就提出了相当高的要求,从而大大增加了 存储的成本,而且成本会随着规模的扩大线性增长

GFS 容错机制包含:

1、 Master 容错:

Master 上保存了 GFS 文件系统的三种元数据。

(1)、命名空间,也就是整个文件系统的目录结构。 (2)、Chunk 与文件名的映射表

(3)、Chunk 副本的位置信息,每一个 Chunk 默认有三个副本。 前两种 GFS 通过操作日志来提供容错功能。第三种直接保存各个 Chunk

Server 上,当

master 发生故障时,迅速恢复以上元数据。为了防止 master 彻底死机,GFS 提供了 master 远程的实时备份。

2、Chunk Server 容错:

GFS 采用副本的方式实现其容错。如果相关副本丢失或不可恢复,master 自动将副本 复制到其他 Chunk Server.

GFS 把每一个文件划分成多个 Chunk,

MapReduce 与传统的分布式程序设计相比的优点

答:与传统的分布式程序设计相比,MapReduce 封装了并行处理、容错处理、本地化计算、 负载均衡等细节,还提供了一个简单而强大的接口。

Chubby 的设计目标主要有?Paxos 算法在 Chubby 中起什么作用?

(1)、高可用性(2)、高扩展性(3)、支持粗粒度的建议性锁服务(4)、服务信息的直接 存储(5)、支持通报机制(6)、支持缓存机制。Chubby 内部一致性问题的实现用到 Paxos 算法

什么是分布式结构化数据表 Bigtable?

Bigtable 是 Google 开发的基于 GFS 和 Chubby 的分布式存储系统,它的设计应达到以下几 个目标:(1)、广泛的适用性(2)、很强的可扩展性(3)、高可用性(4)、简单性

Bigtable 是:一个分布式多维映射表,表中的数据通过一个行关键字、一个列关键字以及一 个时间戳进行索引。

在 Bigtable 中 Chubby 主要有以下几个作用:

(1)选取并保证同一时间内只有一个主服务器(Master Server) (2)获取子表的位置信息

(3)保存 Bigtable 的模式信息及访问控制列表

Bigtable 主要由三个部分组成:客户端程序库、一个主服务器和多个子表服务器

Paxos 算法中节点被分成了三种类型:

proposers、acceptors、和 learners,其中 proposers 提出决议,acceptors 批准决议、

learners 获取并使用已经通过的决议。一个节点可以兼有多重类型,满足三个条件保持数 据的一致性,(1)、决议只有在被 Proposers 提出后才能批准(2)、每次只能批准一个决议 (3)、只有决议确定被批准后 learners 才能获取这个决议。

Bigtable 性能优化:

1、局部性群组 2、压缩 3、布隆过滤器 GFS 将整个系统的节点分为哪几类角色:

Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。

Master 是 GFS 的管理节点,在逻辑上只有一个,他保存系统的元数据,负责整个文件系统 的管理,是 GFS 文件系统中的“大脑”。

Chunk Server 负责具体的存储工作。数据以文件的形式存储在 Chunk Server 的个数可以有 多个,他的数目直接决定了 GFS 的规模。GFS 将文件按照固定大小进行分块,默认是 64MB,每一块称为一个 Chunk(数据块),每个 Chunk 都有一个对应的索引号(Index)。 GFS 具有哪些特点:

1、 采用中心服务器模式:GFS 采用中心服务器模式管理整个文件系统,增加新的 Chunk