更新时间:03-16 (乖宝宝)提供原创文章
摘 要:本课题是在对于开源云计算平台hadoop系统平台框架的研究工作基础之上,对于 hadoop 云计算平台开发人员在数据存储方面的应用的进一步拓展。
Hadoop是Apache开源组织的一个分布式计算开源框架,它可以运行在大中型集群的廉价硬件设备上,为应用程序提供了一组稳定可靠的接口。同时,它是Google集群系统的一个开源项目总称,Google集群系统是使用低成本的成熟技术构建的一个稳定、高性能、高可用性、可扩展的系统,它的底层是Google文件系统(Google File System,GFS)。HDFS是GFS的开源实现,它是Hadoop的底层实现部分,存储Hadoop集群中所有存储节点上的文件。Hadoop平台虽然是一项新兴的技术,但它的发展非常迅速,究其原因首先在于它将并行计算“平民化",它对程序员屏蔽了并行应用开发的细节,程序员只需将精力放在业务逻辑上。其次Hadoop平台可以运行在普通的PC机群上,极大地降低开发成本,这也让个人研究、实施分布式系更加容易。但是,只是想把HDFS作为存储系统的开发者来说,不需要了解其中的实现细节,但是HDFS缺少这种提供文件和文件夹基本功能操作的统一接口,这给开发者使用带来了很大困难。
本文首先分析了HDFS的在读写文件数据的处理方式和实现的机制,并对开发者运用命令直接与HDFS系统进行交互的过程做了介绍,并对最终运用java程序实现统一接口对HDFS系统进行操作做了分析。
关键字:分布式计算;开源实现;统一接口;交互
目录
摘要
ABSTRACT
第1章 绪论-1
1.1 课题背景-1
1.2 研究意义-1
1.3 研究的内容-2
1.4 本文的组织结构-2
第2章 Hadoop系统运行部署-3
2.1 hadoop运行环境要求-3
2.2 环境搭建及安装-3
2.3 运行hadoop-5
2.4 语言环境及连接-7
第3章 基于HDFS的云存储服务系统分析-9
3.1 HDFS简述-9
3.1.1 NameNode-9
3.1.2 DataNode-9
3.2 HDFS 数据读写的原理分析-10
3.2.1 HDFS数据读取机制-11
3.2.2 HDFS 数据写入机制-12
3.2.3 HDFS 中数据完整性机制-14
3.3 本章小结-15
第4章 基于HDFS的中间件设计与实现-17
4.1 程序与DFS建立链接-17
4.2 连接数据库-18
4.3 程序核心功能实现-19
4.4 客户端设计与实现-21
第5章 总结和展望-27
参考文献-29
致谢-31