什么是大数据技术?

 
楼主   帖子创建时间:  2022-07-12 18:17 回复:0 关注量:97

基于分布式数据库技术

基于分布式数据库技术,实现本项目相关数据的高可靠稳定的存储和使用,并利用关系型数据库实现平台基础数据、管理数据、公共应用服务数据的存储和使用。利用非关系型数据库实现平台资源数据的存储和使用。

1)数据采集技术

平台的数据采集工具需支持通过数据库代理、日志代理、消息client等多种模式,将不同系统中存储方式不同、格式不同的数据采集到分析引擎中,为后续数据分析提供源数据支撑。

2)数据处理技术

大数据关键数据清洗算法的主要包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足残缺/空值、丢弃数据/变量。

3)大数据分布式存储数据库

Hbase是一个分布式的、面向列的开源数据库,Hbase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是Hbase基于列的而不是基于行的模式。

4)大数据实时计算技术-

Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。

Spark Streaming的优势在于:

能运行在100+的结点上,并达到秒级延迟。

使用基于内存的Spark作为执行引擎,具有高效和容错的特性。

能集成Spark的批处理和交互查询。

为实现复杂的算法提供和批处理类似的简单接口。


反对 0举报 0 收藏 0 打赏 0评论