Flink + StarRocks 实时数仓分层架构

重点: CDC/Kafka -> ODS/DWD/DWS -> OLAP Serving -> 实时大屏. 关键要素: MySQL 8.0, ROW Binlog, GTID(可选).

Use this as a block diagram of the system when explaining architecture.

Preview
Edit this example
Diagram caption: Flink + StarRocks 实时数仓分层架构(CDC/Kafka -> ODS/DWD/DWS -> OLAP Serving -> 实时大屏) has 5 layers: 数据源层(Source Systems), 采集与消息层(CDC + Kafka Bus), 实时计算层(Flink Warehouse), 存储服务层(OLAP Serving), 可视化展示层(Realtime BI).

Prompt

基于 Flink 和 StarRocks 的实时数仓分层架构图。数据源层通过 CDC 采集 MySQL 业务数据和 Nginx 日志写入 Kafka;计算层使用 Flink 引擎进行流式处理,构建实时 ODS 层、DWD 明细层和 DWS 汇总层;存储服务层使用 StarRocks/ClickHouse 承接高并发聚合查询,最终对接 DataV 或 ECharts 实时大屏进行可视化展示。
Highlights
  • Layer details · 数据源层(Source Systems): Modules include MySQL 业务库, Nginx 访问日志.
  • Module responsibilities · 数据源层(Source Systems) / Nginx 访问日志: 产出行为与流量日志; 支撑实时监控与用户行为分析
  • Module responsibilities · 数据源层(Source Systems) / MySQL 业务库: 产出业务事实与维度数据; 通过 Binlog 输出增量变更供 CDC 捕获

Overview

Flink + StarRocks 实时数仓分层架构(CDC/Kafka -> ODS/DWD/DWS -> OLAP Serving -> 实时大屏) has 5 layers: 数据源层(Source Systems), 采集与消息层(CDC + Kafka Bus), 实时计算层(Flink Warehouse), 存储服务层(OLAP Serving), 可视化展示层(Realtime BI).

Layer details

Show all (5)
  • 数据源层(Source Systems): Modules include MySQL 业务库, Nginx 访问日志.
  • 采集与消息层(CDC + Kafka Bus): Modules include MySQL CDC 采集(增量/全量), 日志采集与清洗写入, Kafka 实时数据总线.
  • 实时计算层(Flink Warehouse): Modules include ODS 实时层(贴源标准化), DWD 明细层(事实明细/维表补全), DWS 汇总层(主题域指标汇聚), 作业编排与可观测(可选).
  • 存储服务层(OLAP Serving): Modules include StarRocks(实时聚合查询主承载), ClickHouse(可选:日志与历史明细分析), 指标查询服务(API/SQL Gateway,可选).
  • 可视化展示层(Realtime BI): Modules include 实时大屏(DataV / ECharts).

Module responsibilities

Show all (13)
  • 数据源层(Source Systems) / MySQL 业务库: 产出业务事实与维度数据; 通过 Binlog 输出增量变更供 CDC 捕获
  • 数据源层(Source Systems) / Nginx 访问日志: 产出行为与流量日志; 支撑实时监控与用户行为分析
  • 采集与消息层(CDC + Kafka Bus) / MySQL CDC 采集(增量/全量): 捕获业务库变更并标准化为事件流; 将 CDC 事件写入 Kafka 作为事实源
  • 采集与消息层(CDC + Kafka Bus) / 日志采集与清洗写入: 将日志流稳定写入 Kafka; 保障吞吐与尽量不丢数据
  • 采集与消息层(CDC + Kafka Bus) / Kafka 实时数据总线: 解耦采集与计算/存储; 承接高吞吐实时数据管道; 提供可回放与多消费组能力
  • 实时计算层(Flink Warehouse) / ODS 实时层(贴源标准化): 保留贴源口径与可追溯性; 完成最小清洗与结构统一; 为 DWD 提供稳定输入
  • 实时计算层(Flink Warehouse) / DWD 明细层(事实明细/维表补全): 沉淀可复用的标准明细事实; 统一维度口径并补齐维度属性; 输出 dwd_* 明细模型
  • 实时计算层(Flink Warehouse) / DWS 汇总层(主题域指标汇聚): 形成可直接服务的实时指标层; 降低大屏与应用侧计算开销; 支撑秒级到分钟级刷新
  • 实时计算层(Flink Warehouse) / 作业编排与可观测(可选): 保障实时作业稳定性; 支持弹性扩缩容与故障恢复; 提升运维效率与可追踪性
  • 存储服务层(OLAP Serving) / StarRocks(实时聚合查询主承载): 承接实时写入与高并发聚合查询; 通过列存与 MV 提升查询性能; 为大屏提供秒级响应能力
  • 存储服务层(OLAP Serving) / ClickHouse(可选:日志与历史明细分析): 承接大规模日志与历史明细分析; 补充复杂分析查询能力; 降低在线聚合压力
  • 存储服务层(OLAP Serving) / 指标查询服务(API/SQL Gateway,可选): 对外提供统一指标服务; 屏蔽底层存储差异; 保障大屏高并发稳定访问
  • 可视化展示层(Realtime BI) / 实时大屏(DataV / ECharts): 实时展示指标与趋势; 支持秒级刷新与交互钻取; 辅助运营与值班决策

Key flows

Show all (1)
  • Flow across layers: 数据源层(Source Systems) -> 采集与消息层(CDC + Kafka Bus) -> 实时计算层(Flink Warehouse).