56-天亮大数据系列教程之海量数据秒级布署与实时查询项目-课堂笔记-13

时间:2019-01-19
本文章向大家介绍56-天亮大数据系列教程之海量数据秒级布署与实时查询项目-课堂笔记-13,主要包括56-天亮大数据系列教程之海量数据秒级布署与实时查询项目-课堂笔记-13使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

1、关于海量数据布署与查询的说明?
准确的讲项目名称为:海量数据秒级布署与高实时查询项目
布署:将数据进行处理至可以正式提供服务为止的这段过程或时间。
在此项目中,布署环境即为从weibo_json的生成(即数据块已完成)开始到对外可以提供restful service为止。
在此项目中,为何强调秒级布署?
1) 相比于mysql,redis,mongodb,hbase,oracle等而言,该方案在生成索引数据时,
非常的独立和高效,因为充分挥了集群mr和bdb嵌入式计算的特点。
2) 在生成索引数据过程中,对已提供的数据和rest服务,没有任何影响。
3) 在切换新数据源的时候,只需要切换数据源目录即可,通过一个多线程方法可以轻松实现。
在此项目中,何为高实时查询?
1) 之前的本地测试已证明,单次查询可以在3-5ms内完成。
2) 该查询因为采用双索引结构,先是索引号到database,再是database到kv对查询。
不会随着数据量的增长而使查询效率明显降低,需要合适设置数据总量和块数的比例关系。