返回项目

实时数据管道

Real-time Data Pipeline

Flink CDCKafkaDorisJavaMySQL

项目背景

业务系统 MySQL 数据需要实时同步到 Doris 分析引擎,原有 T+1 批量同步无法满足实时报表需求。 本项目基于 Flink CDC 构建端到端实时数据管道,实现秒级数据同步。

技术架构

  • 数据源:MySQL 业务库(多实例,200+ 表)
  • CDC 采集:Flink CDC 3.0,全量 + 增量一体化
  • 消息队列:Kafka 作为中间缓冲,支持数据回溯
  • 目标端:Doris 实时写入,支持 Upsert 语义
  • 监控告警:Prometheus + Grafana 延迟监控,Webhook 告警

核心成果

  • 同步延迟从 T+1 降至 3 秒以内
  • 支持 200+ 张表的实时同步,日均处理 5 亿条增量数据
  • 断点续传 + 自动故障恢复,数据一致性 99.99%
  • Flink 任务自动扩缩容,资源利用率提升 40%