Data Engineer Case Study 面试：数据质量监控平台（Amazon/Snowflake 真题）

面试真题来源：Amazon/Snowflake Data Engineer 系统设计面试
难度：Hard | 考察领域：System Design / Architecture
核心考点：数据质量、监控告警、数据治理、自动化测试

面试场景

这是 Amazon/Snowflake DE 面试中非常经典的一道 Case Study 题：

题目：设计一个数据质量监控平台，支持多维度质量检查和实时告警

面试官通常会给你一个真实的业务场景，要求你设计完整的数据处理架构。这道题考察的是你对数据质量、监控告警、数据治理、自动化测试的全面理解。

业务需求分析

核心业务场景

在 Amazon/Snowflake 这样的平台，数据质量监控需要支持：

多维度检查：完整性、准确性、一致性、时效性
实时告警：异常数据实时通知
数据血缘：追踪数据来源和影响
自动化修复：自动修复简单数据质量问题

关键约束条件

数据量：日均 TB 级数据
检查频率：分钟级到小时级
告警延迟：秒级到分钟级
可用性：99.99% SLA

整体架构设计

┌─────────────────────────────────────────────────────────────────┐
│                         Data Sources                            │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  Databases  │  │  Data Lakes │  │  Data Ware  │             │
│  │  (MySQL等)   │  │  (S3/HDFS)  │  │  (Snowflake)│             │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘             │
└─────────┼────────────────┼────────────────┼─────────────────────┘
          │                │                │
          ▼                ▼                ▼
┌─────────────────────────────────────────────────────────────────┐
│                     Quality Check Layer                         │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  Schema     │  │  Business   │  │  Statistical│             │
│  │  Validation │  │  Rules      │  │  Checks     │             │
│  └─────────────┘  └─────────────┘  └─────────────┘             │
└─────────────────────────────────────────────────────────────────┘
          │                │                │
          ▼                ▼                ▼
┌─────────────────────────────────────────────────────────────────┐
│                     Monitoring & Alerting                       │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  Metrics    │  │  Alerts     │  │  Dashboard  │             │
│  │  Collection │  │  Engine     │  │  (可视化)    │             │
│  └─────────────┘  └─────────────┘  └─────────────┘             │
└─────────────────────────────────────────────────────────────────┘
          │                │                │
          ▼                ▼                ▼
┌─────────────────────────────────────────────────────────────────┐
│                     Remediation Layer                           │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐             │
│  │  Auto       │  │  Manual     │  │  Report     │             │
│  │  Repair     │  │  Review     │  │  Generator  │             │
│  └─────────────┘  └─────────────┘  └─────────────┘             │
└─────────────────────────────────────────────────────────────────┘

详细设计方案

1. 数据质量检查

检查维度：

完整性：必填字段是否为空
准确性：数据格式是否正确
一致性：跨表数据是否一致
时效性：数据是否及时更新

检查规则：

# 数据质量规则配置
quality_rules:
  - table: users
    checks:
      - type: completeness
        column: email
        threshold: 0.99
      - type: accuracy
        column: email
        regex: "^[^@]+@[^@]+\.[^@]+$"
        threshold: 0.99
      - type: consistency
        column: age
        range: [0, 150]
        threshold: 0.99
      - type: freshness
        column: updated_at
        max_delay_hours: 1

2. 实时告警

告警级别：

Critical：数据质量低于阈值，立即处理
Warning：数据质量接近阈值，需要关注
Info：数据质量正常，仅供参考

告警渠道：

Slack/Teams：即时消息通知
Email：邮件通知
PagerDuty：紧急告警

# 告警示例
import requests
from datetime import datetime

def send_alert(rule_name, table_name, severity, message):
    alert = {
        "rule_name": rule_name,
        "table_name": table_name,
        "severity": severity,
        "message": message,
        "timestamp": datetime.now().isoformat()
    }
    
    if severity == "critical":
        # 发送 PagerDuty 告警
        requests.post("https://events.pagerduty.com/v2/enqueue", json=alert)
    
    # 发送 Slack 通知
    requests.post("https://hooks.slack.com/services/...", json=alert)
    
    # 发送 Email
    send_email(alert)

3. 数据血缘

血缘追踪：

表级血缘：表之间的依赖关系
字段级血缘：字段之间的转换关系
任务级血缘：任务之间的执行顺序

血缘可视化：

依赖图：显示表之间的依赖关系
影响分析：变更影响评估
问题追踪：数据问题溯源

# 数据血缘示例
from collections import defaultdict

class DataLineage:
    def __init__(self):
        self.lineage = defaultdict(set)
    
    def add_lineage(self, source, target, field=None):
        if field:
            self.lineage[(source, field)].add((target, field))
        else:
            self.lineage[source].add(target)
    
    def get_upstream(self, table):
        return [source for source, targets in self.lineage.items() 
                if table in targets]
    
    def get_downstream(self, table):
        return self.lineage.get(table, set())
    
    def get_impact_analysis(self, table):
        """影响分析：下游受影响的表"""
        affected = set()
        queue = [table]
        while queue:
            current = queue.pop(0)
            downstream = self.get_downstream(current)
            for target in downstream:
                if target not in affected:
                    affected.add(target)
                    queue.append(target)
        return affected

4. 自动化修复

修复策略：

自动修复：简单数据质量问题自动修复
人工审核：复杂问题人工审核
回滚机制：修复失败自动回滚

修复示例：

# 自动修复示例
def auto_repair(table_name, rule_name, issue_data):
    if rule_name == "email_format":
        # 自动修复邮箱格式
        repaired_data = issue_data.apply(
            lambda x: x.lower().strip() if isinstance(x, str) else x
        )
        return repaired_data
    elif rule_name == "duplicate_records":
        # 自动去重
        repaired_data = issue_data.drop_duplicates()
        return repaired_data
    else:
        # 需要人工审核
        return None

关键技术决策

为什么选择这个方案？

全面检查：支持多维度数据质量检查
实时告警：秒级到分钟级告警延迟
数据血缘：完整的数据血缘追踪
自动化修复：减少人工干预

技术选型对比

方案	优势	劣势	适用场景
Great Expectations	功能丰富	学习曲线陡	数据质量检查
dbt Tests	简单易用	功能有限	SQL 测试
Monte Carlo	AI 驱动	成本高	智能监控
Custom	灵活定制	开发成本高	特定需求

面试官追问

常见追问问题

如果数据量增加 10 倍，架构如何调整？
- 增加监控节点
- 优化检查频率
- 增加告警渠道
如果要求多租户隔离，如何实现？
- 数据隔离：按 tenant_id 分区
- 权限隔离：独立监控视图
如果某个组件宕机，如何保证系统可用性？
- 监控：多节点部署
- 告警：多渠道通知
- 修复：自动回滚机制

面试技巧

回答框架

澄清需求：明确业务场景和技术约束
架构设计：画出架构图，说明每个组件的职责
技术选型：解释为什么选择某个技术
权衡分析：讨论方案的优缺点

高分回答要点

数据量级：主动提到日均 TB 级数据
检查频率：分钟级到小时级
告警延迟：秒级到分钟级
数据血缘：完整的数据血缘追踪

本文整理自真实 Data Engineer 面试经验，架构设计经过实际验证。

💡 需要面试辅导？

如果你对准备技术面试感到迷茫，或者想要个性化的面试指导和简历优化，欢迎联系 Interview Coach Pro 获取一对一辅导服务。