11. 数据湖
概念
数据湖是一个存储企业各种各样原始数据的大型仓库,其中数据可供存取、处理、分析和传输
区别
数据维度
- 数据仓库是通过抽取清洗过、结构化过的数据
- 数据湖是原始数据,存放结构化、半结构化数据
模式维度
- 数据仓库在数据存储之前定义数据模式
- 数据仓库在数据集成之前完成大量工作
- 数据仓库的数据价值提前明确
- 数据湖的在数据存储之后定义数据模式
- 数据湖提供简单、敏捷的数据集成
- 数据湖的数据价值尚未明确
存取方法维度
- 数据仓库提供标准 SQL 接口
- 数据湖为应用程序,类 SQL 接口
优势
数据仓库多数据源集成;干净、安全的数据、转换一次多次使用
数据湖有无限扩展性,可以并行执行,支持编程框架、数据经济
数据仓库只支持数据分析处理
数据湖既支持数据分析处理,也支持事务(业务)处理。