[分享] DeepSeek R1 關鍵技術分享

[分享] DeepSeek R1 關鍵技術分享

投影片連結: https://docs.google.com/presentation/d/e/2PACX-1vRE2WCiPHFADoNDcsqOevHAhA0BCTWCTXH7-2OeQZonRqzDV2C4eFjTpU2XKQUt4OQiXWVcfqy7lniQ/pub

摘要筆記 (by GPT-4o)

🎯 一、總覽摘要 DeepSeek 系列聚焦於：

降低推論成本（僅用 37B 參數實現 671B 架構效果）
提升推理能力（SFT + RL 訓練）
技術創新（MoE、MLA、MTP）

🔍 二、技術重點整理

1️⃣ 模型演進路線

DeepSeek-Coder / LLM / V2 / V3 / R1 / R1-Zero
全部模型皆採用 MoE 架構，Context window 最長可至 128K tokens

2️⃣ 效能比較亮點

DeepSeek-V3 (2024.12 發布的版本) 與 LlaMa-3.1 405B 在綜合表現上相當，但資源使用更省，在數學與程式相關測試表現超越 GPT-4o
DeepSeek-V3-0324 在數學與程式領域超越 GPT-4.5
DeepSeek-R1 與 OpenAI GPT-o1 在綜合表現上相當，但資源使用更省

3️⃣ 三大技術突破

MoE (DeepSeekMoE)
- 精細劃分 Experts（類 ensemble 設計）
- Shared Expert 實現通才+專才搭配
MLA (Multi-Head Latent Attention)
- 壓縮 KV Cache 減少記憶體使用
MTP (Multi-Token Prediction)
- 多點預測輸出，強化學習訊號密度與 transition 學習

4️⃣ 訓練策略全景圖

Pretraining：大規模語料建立通識
SFT (Supervised Fine-Tuning)：學習解題方式
RL (Reinforcement Learning)：透過 reward feedback 強化推理
R1-Zero：全 RL 訓練，專精邏輯與數學任務
Distillation：從 R1 輸出中提煉高品質推理邏輯

5️⃣ Test-Time Scaling

延長 Chain of Thought，提高答案正確率
模型在測試時加入更多反思步驟，可修正初步錯誤答案

📌 三、Take Away 重點速記

類別	關鍵技術 / 方法
節省資源	MoE、MLA、MTP
增強推理	RL、SFT、Distillation、Test-Time Scaling
訓練策略	R1 使用 SFT + RL，R1-Zero 純 RL
模型優勢	少量參數達到大模型效能，尤其在數學與程式領域表現出色

留言