Data Engineer Case Study 面试：数据仓库分层架构设计（阿里巴巴/腾讯真题）

面试真题来源：阿里巴巴/腾讯 Data Engineer 系统设计面试
难度：Medium | 考察领域：System Design / Architecture
核心考点：数据仓库分层、ETL 流程、数据建模、数据治理

面试场景

这是阿里巴巴/腾讯 DE 面试中非常经典的一道 Case Study 题：

题目：设计一个支持企业级数据仓库的分层架构

面试官通常会给你一个真实的业务场景，要求你设计完整的数据处理架构。这道题考察的是你对数据仓库分层、ETL 流程、数据建模、数据治理的全面理解。

业务需求分析

核心业务场景

在阿里巴巴/腾讯这样的平台，数据仓库需要支持：

多层数据存储：原始层、明细层、汇总层、应用层
ETL 流程：数据采集、清洗、转换、加载
数据建模：维度模型、事实表、缓慢变化维
数据治理：数据质量、元数据管理、数据安全

关键约束条件

数据量：日均 PB 级数据
查询延迟：秒级到分钟级
可用性：99.9% SLA
一致性：最终一致性

整体架构设计

┌─────────────────────────────────────────────────────────────────┐
│                         Application Layer                       │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  BI Tools   │  │  Analytics  │  │  Data API   │             │
│  │ (报表)       │  │ (分析)       │  │ (服务)       │             │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘             │
└─────────┼────────────────┼────────────────┼─────────────────────┘
          │                │                │
          ▼                ▼                ▼
┌─────────────────────────────────────────────────────────────────┐
│                         Summary Layer                           │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  Aggregated │  │  Marts      │  │  Summary    │             │
│  │  Tables     │  │  (主题库)    │  │  Tables     │             │
│  └─────────────┘  └─────────────┘  └─────────────┘             │
└─────────────────────────────────────────────────────────────────┘
          │                │                │
          ▼                ▼                ▼
┌─────────────────────────────────────────────────────────────────┐
│                         Detail Layer                            │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  Fact       │  │  Dimension  │  │  Bridge     │             │
│  │  Tables     │  │  Tables     │  │  Tables     │             │
│  └─────────────┘  └─────────────┘  └─────────────┘             │
└─────────────────────────────────────────────────────────────────┘
          │                │                │
          ▼                ▼                ▼
┌─────────────────────────────────────────────────────────────────┐
│                         Raw Layer                               │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  ODS        │  │  Staging    │  │  Archive    │             │
│  │  (原始数据)  │  │  (临时表)    │  │  (归档)      │             │
│  └─────────────┘  └─────────────┘  └─────────────┘             │
└─────────────────────────────────────────────────────────────────┘

详细设计方案

1. 原始数据层 (ODS)

数据源：

业务数据库：MySQL、PostgreSQL 等
日志数据：应用日志、访问日志等
第三方数据：API 接口、文件导入等

存储方案：

使用 HDFS 或 S3 存储原始数据
数据格式采用 Parquet 或 ORC，支持列式存储
按天分区，支持历史数据追溯

-- 原始数据表示例
CREATE TABLE ods_user_events (
    event_id STRING,
    user_id STRING,
    event_type STRING,
    properties STRING,  -- JSON 格式
    event_time TIMESTAMP
) PARTITIONED BY (dt STRING)
STORED AS PARQUET;

2. 明细数据层 (DWD)

数据清洗：

过滤无效数据
数据格式化
去重处理

数据转换：

维度退化：将维度信息冗余到事实表
缓慢变化维：处理维度属性变化
数据标准化：统一编码、格式

-- 明细数据表示例
CREATE TABLE dwd_user_events (
    event_id STRING,
    user_id STRING,
    event_type STRING,
    page_id STRING,
    category STRING,
    duration INT,
    event_time TIMESTAMP
) PARTITIONED BY (dt STRING)
STORED AS PARQUET;

3. 汇总数据层 (DWS)

聚合逻辑：

按用户聚合：用户行为汇总
按时间聚合：日/周/月汇总
按维度聚合：类别、地区等维度汇总

存储方案：

使用 Hive 或 Spark SQL 存储汇总数据
数据格式采用 Parquet，支持列式存储
按天/周/月分区，支持多粒度查询

-- 汇总数据表示例
CREATE TABLE dws_user_daily_stats (
    user_id STRING,
    event_count INT,
    page_views INT,
    avg_duration DOUBLE,
    active_days INT
) PARTITIONED BY (dt STRING)
STORED AS PARQUET;

4. 应用数据层 (ADS)

应用场景：

BI 报表：用户行为分析、业务指标监控
数据分析：即席查询、自助分析
数据服务：API 接口、数据导出

查询优化：

预聚合：提前计算常用指标
索引优化：建立合适的索引
分区优化：按查询条件分区

-- 应用数据表示例
CREATE TABLE ads_user_behavior_report (
    dt STRING,
    user_id STRING,
    event_type STRING,
    event_count INT,
    active_hours INT
) PARTITIONED BY (dt STRING)
STORED AS PARQUET;

关键技术决策

为什么选择这个方案？

分层清晰：四层架构职责明确，便于维护
可扩展性：支持数据量增长和查询复杂度增加
成本优化：冷热数据分离，存储成本可控
数据质量：每层有数据质量校验

技术选型对比

方案	优势	劣势	适用场景
Hive	生态丰富	查询延迟高	批量分析
Spark SQL	高性能	运维复杂	实时分析
Parquet	列式存储	写入性能一般	分析查询
HDFS/S3	海量存储	查询复杂	原始数据存储

面试官追问

常见追问问题

如果数据量增加 10 倍，架构如何调整？
- 增加存储节点
- 优化分区策略
- 增加计算资源
如果要求多租户隔离，如何实现？
- 数据隔离：按 tenant_id 分区
- 权限隔离：独立数据库/Schema
如果某个组件宕机，如何保证系统可用性？
- 数据备份：定期备份关键数据
- 故障转移：主从切换机制

面试技巧

回答框架

澄清需求：明确业务场景和技术约束
架构设计：画出架构图，说明每个组件的职责
技术选型：解释为什么选择某个技术
权衡分析：讨论方案的优缺点

高分回答要点

数据量级：主动提到日均 PB 级数据
查询延迟：秒级到分钟级
一致性：最终一致性
数据质量：每层有数据质量校验

本文整理自真实 Data Engineer 面试经验，架构设计经过实际验证。

💡 需要面试辅导？

如果你对准备技术面试感到迷茫，或者想要个性化的面试指导和简历优化，欢迎联系 Interview Coach Pro 获取一对一辅导服务。