[分享] DeepSeek R1 關鍵技術分享
摘要筆記 (by GPT-4o)
🎯 一、總覽摘要 DeepSeek 系列聚焦於:
降低推論成本(僅用 37B 參數實現 671B 架構效果)
提升推理能力(SFT + RL 訓練)
技術創新(MoE、MLA、MTP)
🔍 二、技術重點整理
1️⃣ 模型演進路線
DeepSeek-Coder / LLM / V2 / V3 / R1 / R1-Zero
全部模型皆採用 MoE 架構,Context window 最長可至 128K tokens
2️⃣ 效能比較亮點
DeepSeek-V3 (2024.12 發布的版本) 與 LlaMa-3.1 405B 在綜合表現上相當,但資源使用更省,在數學與程式相關測試表現超越 GPT-4o
DeepSeek-V3-0324 在數學與程式領域超越 GPT-4.5
DeepSeek-R1 與 OpenAI GPT-o1 在綜合表現上相當,但資源使用更省
3️⃣ 三大技術突破
MoE (DeepSeekMoE)
精細劃分 Experts(類 ensemble 設計)
Shared Expert 實現通才+專才搭配
MLA (Multi-Head Latent Attention)
壓縮 KV Cache 減少記憶體使用
MTP (Multi-Token Prediction)
多點預測輸出,強化學習訊號密度與 transition 學習
4️⃣ 訓練策略全景圖
Pretraining:大規模語料建立通識
SFT (Supervised Fine-Tuning):學習解題方式
RL (Reinforcement Learning):透過 reward feedback 強化推理
R1-Zero:全 RL 訓練,專精邏輯與數學任務
Distillation:從 R1 輸出中提煉高品質推理邏輯
5️⃣ Test-Time Scaling
延長 Chain of Thought,提高答案正確率
模型在測試時加入更多反思步驟,可修正初步錯誤答案
📌 三、Take Away 重點速記
類別 | 關鍵技術 / 方法 |
---|---|
節省資源 | MoE、MLA、MTP |
增強推理 | RL、SFT、Distillation、Test-Time Scaling |
訓練策略 | R1 使用 SFT + RL,R1-Zero 純 RL |
模型優勢 | 少量參數達到大模型效能,尤其在數學與程式領域表現出色 |
留言
張貼留言