Skip to content

11. 数据湖

概念

数据湖是一个存储企业各种各样原始数据的大型仓库,其中数据可供存取、处理、分析和传输

区别

数据维度

  • 数据仓库是通过抽取清洗过、结构化过的数据
  • 数据湖是原始数据,存放结构化、半结构化数据

模式维度

  • 数据仓库在数据存储之前定义数据模式
  • 数据仓库在数据集成之前完成大量工作
  • 数据仓库的数据价值提前明确
  • 数据湖的在数据存储之后定义数据模式
  • 数据湖提供简单、敏捷的数据集成
  • 数据湖的数据价值尚未明确

存取方法维度

  • 数据仓库提供标准 SQL 接口
  • 数据湖为应用程序,类 SQL 接口

优势

  • 数据仓库多数据源集成;干净、安全的数据、转换一次多次使用

  • 数据湖有无限扩展性,可以并行执行,支持编程框架、数据经济

  • 数据仓库只支持数据分析处理

  • 数据湖既支持数据分析处理,也支持事务(业务)处理。

KESHAOYE-知识星球 V20250415095821