[分享] DeepSeek R1 關鍵技術分享

投影片連結: https://docs.google.com/presentation/d/e/2PACX-1vRE2WCiPHFADoNDcsqOevHAhA0BCTWCTXH7-2OeQZonRqzDV2C4eFjTpU2XKQUt4OQiXWVcfqy7lniQ/pub

摘要筆記 (by GPT-4o) 

🎯 一、總覽摘要 DeepSeek 系列聚焦於:

  • 降低推論成本(僅用 37B 參數實現 671B 架構效果)

  • 提升推理能力(SFT + RL 訓練)

  • 技術創新(MoE、MLA、MTP)


🔍 二、技術重點整理

1️⃣ 模型演進路線

  • DeepSeek-Coder / LLM / V2 / V3 / R1 / R1-Zero

  • 全部模型皆採用 MoE 架構,Context window 最長可至 128K tokens

2️⃣ 效能比較亮點

  • DeepSeek-V3 (2024.12 發布的版本) 與 LlaMa-3.1 405B 在綜合表現上相當,但資源使用更省,在數學與程式相關測試表現超越 GPT-4o

  • DeepSeek-V3-0324 在數學與程式領域超越 GPT-4.5

  • DeepSeek-R1 與 OpenAI GPT-o1 在綜合表現上相當,但資源使用更省

3️⃣ 三大技術突破

  • MoE (DeepSeekMoE)

    • 精細劃分 Experts(類 ensemble 設計)

    • Shared Expert 實現通才+專才搭配

  • MLA (Multi-Head Latent Attention)

    • 壓縮 KV Cache 減少記憶體使用

  • MTP (Multi-Token Prediction)

    • 多點預測輸出,強化學習訊號密度與 transition 學習

4️⃣ 訓練策略全景圖

  • Pretraining:大規模語料建立通識

  • SFT (Supervised Fine-Tuning):學習解題方式

  • RL (Reinforcement Learning):透過 reward feedback 強化推理

  • R1-Zero:全 RL 訓練,專精邏輯與數學任務

  • Distillation:從 R1 輸出中提煉高品質推理邏輯

5️⃣ Test-Time Scaling

  • 延長 Chain of Thought,提高答案正確率

  • 模型在測試時加入更多反思步驟,可修正初步錯誤答案


📌 三、Take Away 重點速記

類別 關鍵技術 / 方法
節省資源 MoE、MLA、MTP
增強推理 RL、SFT、Distillation、Test-Time Scaling
訓練策略 R1 使用 SFT + RL,R1-Zero 純 RL
模型優勢 少量參數達到大模型效能,尤其在數學與程式領域表現出色






留言

這個網誌中的熱門文章

[筆記] CRLF跟LF之區別 --- 隱形的 bug

[ML筆記] Batch Normalization

[筆記] 統計實習(1) SAS 基礎用法 (匯入資料並另存SAS新檔,SUBSTR,計算總和與平均,BMI)

[ML筆記] Ensemble - Bagging, Boosting & Stacking