大数据时代已经来临,在大数据时代,我们所面临的问题不仅包括数据量相当大,还包括对数据的深度分析,以及数据格式的多样性。传统的关系型数据库虽然已经发展多年,有很多优化技术,其功能和表达能力不断增强。但根据CAP(一致性、可用性、容错性)理论,这三者只能同时满足其中两个,而传统关系型数据库追求高的一致性和容错性,也就丧失了可用性。MapReduce是一种编程模型,设计之初就是用于大规模数据集的并行运算。集群系统具有良好的性价比和可伸缩性,这也使MapReduce成为大规模海量数据平台的首选原因之一。以上正好解决了数据分析所面临的趋势和挑战。而且,Mapreduce模型简单、易于理解、易于使用。Hadoop是MapReduce的开源实现,Hadoop平台上有自己的Hive,所以可以很容易的将基于关系型数据库的系统移植到Hadoop中。
本文首先做了一个基于关系型数据库的查询系统,考虑到以后数据量会很大,所以将该系统移植到Hadoop平台上。然后对这两个系统进行实验比较,从实验结果更加深入的了解Hadoop平台。最后,提出了一些改进Hadoop平台上查询系统的方法。
本文关键词: