系统设计 Deep Dive：设计推荐系统

面试官真实提问

“请设计一个个性化推荐系统，类似 YouTube 或 Netflix 的’猜你喜欢’功能。需要处理海量用户和物品，实时推荐。”

“如何平衡推荐的准确性和多样性？冷启动问题怎么处理？”

这道题考察机器学习系统架构、离线/在线处理、特征工程和 AB 测试的综合设计能力。

需求澄清清单

功能需求

Must-have：

✓ 个性化推荐（基于用户历史行为）
✓ 实时推荐（用户行为后立即更新）
✓ 多样性（避免信息茧房）

Nice-to-have：

多目标优化（点击率、观看时长、转化率）
探索与利用（Explore vs Exploit）
可解释性（为什么推荐这个）

规模估算

指标	估算值
用户数	5 亿
物品数（视频/文章）	10 亿
每日交互	100 亿次（点击、观看、点赞）
推荐请求 QPS	50 万
P99 延迟	< 100ms

非功能需求

准确性： 高 CTR（点击率）
多样性： 避免同质化推荐
实时性： 用户行为后秒级更新推荐

第 1 步：高层设计

┌─────────┐
│ 客户端   │
└────┬────┘
     │
┌────▼──────┐
│ API GW    │
└────┬──────┘
     │
┌────▼────────────┐
│ Recommendation  │  在线推理服务
│     API         │
└────┬────────────┘
     │
   ┌─┴────────────┐
┌──▼──┐      ┌────▼────┐
│ 召回 │      │  排序   │
│ Recall│     │Ranking  │
└──┬───┘      └────┬────┘
     └───────┬─────┘
          ┌──▼──────┐
          │ 重排序   │  ReRank / 过滤
          │ ReRank  │
          └─────────┘

所有阶段 → Feature Store
          ├── 用户特征 (Redis)
          ├── 物品特征 (Redis)
          └── 交互特征 (Kafka)

离线训练管道：
Data Lake → 特征工程 → 模型训练 → 模型部署

第 2 步：核心组件设计

★ 推荐流水线（三阶段）（核心考点）

阶段 1：候选生成（召回）

目标：从 10 亿物品中快速筛选 1000 个候选
要求：速度快（< 10ms），精度可以稍低

方法：
  - 协同过滤（UserCF/ItemCF）
  - 向量召回（Embedding + ANN）
  - 热门/新品召回
  - 基于规则的召回

阶段 2：排序（精排）

目标：对 1000 个候选精排，选出 Top 50
要求：精度高，速度可以稍慢（< 50ms）

方法：
  - 深度学习模型（DIN, DeepFM, Wide&Deep）
  - 特征：用户画像、物品属性、上下文、交互历史
  - 目标：预测 CTR、CVR、观看时长

阶段 3：重排序

目标：业务规则调整，确保多样性
要求：业务逻辑，不涉及模型

策略：
  - 去重（同一作者/类别限制数量）
  - 多样性（类别打散）
  - 业务规则（新品加权、广告插入）

特征工程

用户特征：

-  demographics：年龄、性别、地区
-  行为统计：历史点击率、平均观看时长、活跃时段
-  兴趣标签：喜欢的类别、关键词
-  embedding：用户向量（100 维）

物品特征：

-  内容特征：标题、描述、标签、类别
-  统计特征：历史点击率、平均分、上传时间
-  embedding：物品向量（100 维）

上下文特征：

-  时间：小时、星期、节假日
-  设备：手机、平板、PC
-  网络：WiFi、4G、5G
-  位置：城市、国家

冷启动策略

新用户冷启动：

1. 注册信息：利用注册时填写的兴趣偏好
2. 热门推荐：推荐当前热门/ trending 物品
3. 探索策略：展示多个类别的物品，观察用户行为
4. 社交推荐：如果用户授权，推荐朋友喜欢的物品

新物品冷启动：

1. 内容特征：利用物品的元数据（标题、标签）做内容推荐
2. 探索流量：给新物品一定的初始曝光
3. 相似物品：找到与新物品相似的老物品，推荐给它们的观众
4. A/B 测试：小流量测试，验证效果后放量

第 3 步：扩展性与优化

[重点] 离线训练管道

Data Lake ──────→ 特征工程 (Spark)
(HDFS/S3)          │
                   ▼
            模型训练 (TF/PyTorch)
                   │
                   ▼
            模型评估 (AUC, NDCG)
                   │
                   ▼
            模型注册 (MLflow)
                   │
                   ▼
            模型部署 (TF Serving)

训练频率：

全量训练：每天一次
增量训练：每小时一次
在线学习：实时（部分模型）

在线推理服务

请求 → API GW → Recommendation API
                    │
              ┌─────┼──────┐
         ┌────▼──┐ ┌▼─────┐│
         │ 召回   │ │ 排序  ││  < 10ms    < 50ms
         └───┬───┘ └──┬───┘│
              └────┬───┘│
                   │ ┌──▼────┐
                   └─►│重排序  │  < 10ms
                      └──┬───┘
                         │
                      返回 Top 50

性能优化：

候选生成：ANN 索引（Faiss、HNSW）
排序模型：模型蒸馏、量化
特征服务：Redis 缓存热点特征

AB 测试框架

实验设计：
  - 对照组：当前推荐算法
  - 实验组：新推荐算法
  - 流量分配：50% vs 50%

评估指标：
  - CTR（点击率）
  - CVR（转化率）
  - 观看时长
  - 用户留存

统计显著性：
  - p-value < 0.05
  - 置信区间

容量估算

指标	计算	结果
特征存储	5 亿用户 × 1KB + 10 亿物品 × 1KB	15TB
模型大小	深度学习模型	10GB
QPS	50 万推荐请求/秒	50 万 QPS
延迟	P99 < 100ms	< 100ms

[问答] 面试官常问 Trade-offs 与实战问答

[问] Q1：你选择哪种推荐算法？

候选人回答：

“我选择混合推荐策略。候选生成阶段用协同过滤 + 向量召回，快速从 10 亿物品中筛选 1000 个候选。排序阶段用深度学习模型（如 DIN），精排选出 Top 50。重排序阶段用业务规则调整，确保多样性。”

面试官追问：

“为什么不用单一的深度学习模型？”

候选人回答：

“单一模型在 10 亿物品上推理太慢。候选生成需要速度快，协同过滤和向量召回可以在 10ms 内完成。排序阶段才用深度学习模型，因为只有 1000 个候选，推理时间可控。“

[问] Q2：冷启动问题怎么处理？

候选人回答：

“新用户冷启动：利用注册信息、热门推荐、探索策略。新物品冷启动：利用内容特征做内容推荐、给新物品初始曝光、找到相似物品推荐给它们的观众。随着数据积累，逐渐过渡到协同过滤和深度学习模型。”

面试官追问：

“如果新用户不填写注册信息怎么办？”

候选人回答：

“展示多个类别的物品，观察用户的前几次点击行为，快速构建用户画像。同时可以使用设备指纹、IP 地理位置等隐式特征做初步推荐。“

[问] Q3：如何保证推荐的多样性？

候选人回答：

“重排序阶段做多样性优化。策略包括：1）去重，同一作者/类别限制数量；2）类别打散，相邻推荐不同类别；3）探索策略，定期插入新类别的物品；4）MMR 算法，平衡相关性和多样性。”

面试官追问：

“如果多样性导致 CTR 下降怎么办？”

候选人回答：

“多样性和 CTR 需要平衡。我会 AB 测试 不同多样性策略的长期效果。虽然短期 CTR 可能下降，但长期用户留存和满意度会提升。同时会监控用户反馈，动态调整多样性权重。“

[问] Q4：模型怎么评估？

候选人回答：

“离线评估：AUC、NDCG、MAP 等指标。在线评估：CTR、CVR、观看时长、用户留存。AB 测试 是最终的评估标准，确保新模型在生产环境的表现优于旧模型。”

面试官追问：

“如果离线指标好但在线指标差怎么办？”

候选人回答：

“可能是数据泄漏、训练/测试数据分布不一致、或者离线指标不能反映真实用户行为。我会检查数据管道、重新设计评估指标、或者增加在线监控，快速发现问题。“

[问] Q5：如何处理实时推荐？

候选人回答：

“用户行为实时写入 Kafka，特征服务实时更新。排序模型支持在线推理，用户行为后秒级更新推荐。对于需要训练的场景，使用增量学习或在线学习算法，实时更新模型参数。”

面试官追问：

“实时特征怎么保证一致性？”

候选人回答：

“使用 Feature Store 统一管理特征。离线训练和在线推理使用相同的特征计算逻辑，避免训练/服务偏差。同时会定期校验特征一致性，发现问题及时修复。“

进阶扩展方向

多目标优化： 同时优化 CTR、CVR、观看时长
强化学习： 长期奖励优化（用户留存）
图神经网络： 用户-物品交互图
可解释性： 告诉用户’为什么推荐这个’

[注意] 常见踩坑点

#	踩坑点	解决方案
1	数据泄漏：训练数据包含未来信息	时间分割验证集
2	训练/服务偏差：离线特征和在线特征不一致	Feature Store + 定期校验
3	信息茧房：只推荐用户喜欢的，导致多样性下降	MMR 算法 + 探索策略
4	评估指标误导：离线指标好但在线效果差	AB 测试 + 在线监控

总结

推荐系统设计考察：

能力	考察点
三阶段流水线	召回、排序、重排序
算法选择	协同过滤、矩阵分解、深度学习
冷启动	新用户/新物品的处理策略
AB 测试	科学评估推荐效果

[重点] 面试提示： 不要一上来就讲深度学习模型。先讲清楚候选生成、排序、重排序的三阶段架构，然后逐步深入每个阶段的技术细节。面试官更看重你的系统思维，而不是模型细节。

💡 需要面试辅导？

如果你对准备技术面试感到迷茫，或者想要个性化的面试指导和简历优化，欢迎联系 Interview Coach Pro 获取一对一辅导服务。