什么是大数据技术?
基于分布式数据库技术
基于分布式数据库技术,实现本项目相关数据的高可靠稳定的存储和使用,并利用关系型数据库实现平台基础数据、管理数据、公共应用服务数据的存储和使用。利用非关系型数据库实现平台资源数据的存储和使用。
1)数据采集技术
平台的数据采集工具需支持通过数据库代理、日志代理、消息client等多种模式,将不同系统中存储方式不同、格式不同的数据采集到分析引擎中,为后续数据分析提供源数据支撑。
2)数据处理技术
大数据关键数据清洗算法的主要包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足残缺/空值、丢弃数据/变量。
3)大数据分布式存储数据库
Hbase是一个分布式的、面向列的开源数据库,Hbase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是Hbase基于列的而不是基于行的模式。
4)大数据实时计算技术-
Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。
Spark Streaming的优势在于:
能运行在100+的结点上,并达到秒级延迟。
使用基于内存的Spark作为执行引擎,具有高效和容错的特性。
能集成Spark的批处理和交互查询。
为实现复杂的算法提供和批处理类似的简单接口。