返回项目

数据质量平台

Data Quality Platform

AirflowSparkPythonGrafanaGreat Expectations

项目背景

数据仓库和实时管道承载核心业务指标,数据质量问题会直接导致决策偏差。 本项目构建了一套自动化数据质量监控平台,覆盖完整性、准确性、一致性、及时性四个维度, 对全链路数据资产进行持续质量检测。

技术架构

  • 编排引擎:Airflow 2.x,DAG 定义质量检查任务
  • 计算引擎:PySpark 分布式数据校验(行数、空值、分布、波动)
  • 规则管理:Great Expectations 验证框架,声明式规则定义
  • 可视化:Grafana 仪表盘,SLA 趋势 + 数据质量评分
  • 告警通知:钉钉 Webhook + 邮件,分级告警策略

核心成果

  • 覆盖 300+ 张核心表,1500+ 条质量规则
  • 数据问题发现时间从 数天缩短至分钟级
  • SLA 达标率从 85% 提升至 99.5%
  • 自动生成数据质量报告,月度合规审计 零人工