發表文章

目前顯示的是 3月, 2025的文章

[分享] DeepSeek R1 關鍵技術分享

投影片連結:  https://docs.google.com/presentation/d/e/2PACX-1vRE2WCiPHFADoNDcsqOevHAhA0BCTWCTXH7-2OeQZonRqzDV2C4eFjTpU2XKQUt4OQiXWVcfqy7lniQ/pub 摘要筆記 (by GPT-4o)  🎯 一、總覽摘要 DeepSeek 系列聚焦於: 降低推論成本(僅用 37B 參數實現 671B 架構效果) 提升推理能力(SFT + RL 訓練) 技術創新(MoE、MLA、MTP) 🔍 二、技術重點整理 1️⃣ 模型演進路線 DeepSeek-Coder / LLM / V2 / V3 / R1 / R1-Zero 全部模型皆採用 MoE 架構,Context window 最長可至 128K tokens 2️⃣ 效能比較亮點 DeepSeek-V3 (2024.12 發布的版本) 與 LlaMa-3.1 405B 在綜合表現上相當,但資源使用更省,在數學與程式相關測試表現超越 GPT-4o DeepSeek-V3-0324 在數學與程式領域超越 GPT-4.5 DeepSeek-R1 與 OpenAI GPT-o1 在綜合表現上相當,但資源使用更省 3️⃣ 三大技術突破 MoE (DeepSeekMoE) 精細劃分 Experts(類 ensemble 設計) Shared Expert 實現通才+專才搭配 MLA (Multi-Head Latent Attention) 壓縮 KV Cache 減少記憶體使用 MTP (Multi-Token Prediction) 多點預測輸出,強化學習訊號密度與 transition 學習 4️⃣ 訓練策略全景圖 Pretraining :大規模語料建立通識 SFT (Supervised Fine-Tuning) :學習解題方式 RL (Reinforcement Learning) :透過 reward feedback 強化推理 R1-Zero :全 RL 訓練,專精邏輯與數學任務 Distillation :從 R1 輸出中提煉高品質推理邏輯 5️⃣ Test-Time Scaling 延長 Chain of Thought,提高答案正確率 模型在測試時加入更多反思步驟,可...