返回项目

企业数据仓库

Data Warehouse

DorisDataWorksMaxComputeSQLPython

项目背景

随着业务数据量的快速增长,原有烟囱式数据开发模式已无法满足跨部门的数据分析需求。 本项目旨在基于阿里云 DataWorks + Doris 构建企业级离线数据仓库,统一数据标准,实现数据资产化管理。

技术架构

  • 数据接入:DataX 离线同步 + MySQL Binlog 实时增量
  • 计算引擎:MaxCompute SQL + Spark 离线批处理
  • 存储层:Doris OLAP 引擎,支持多维聚合查询
  • 调度编排:DataWorks 工作流 + 依赖管理
  • 数据分层:ODS → DWD → DWS → ADS 四层架构

核心成果

  • 覆盖 6 个业务域,200+ 张数据模型表
  • 日报产出时间从 4 小时缩短至 30 分钟
  • 支持 亿级数据量的秒级多维分析查询
  • 统一数据字典 + 数据血缘,数据质量覆盖率 95%+