發表文章

精選文章

[分享] DeepSeek R1 關鍵技術分享

投影片連結:  https://docs.google.com/presentation/d/e/2PACX-1vRE2WCiPHFADoNDcsqOevHAhA0BCTWCTXH7-2OeQZonRqzDV2C4eFjTpU2XKQUt4OQiXWVcfqy7lniQ/pub 摘要筆記 (by GPT-4o)  🎯 一、總覽摘要 DeepSeek 系列聚焦於: 降低推論成本(僅用 37B 參數實現 671B 架構效果) 提升推理能力(SFT + RL 訓練) 技術創新(MoE、MLA、MTP) 🔍 二、技術重點整理 1️⃣ 模型演進路線 DeepSeek-Coder / LLM / V2 / V3 / R1 / R1-Zero 全部模型皆採用 MoE 架構,Context window 最長可至 128K tokens 2️⃣ 效能比較亮點 DeepSeek-V3 (2024.12 發布的版本) 與 LlaMa-3.1 405B 在綜合表現上相當,但資源使用更省,在數學與程式相關測試表現超越 GPT-4o DeepSeek-V3-0324 在數學與程式領域超越 GPT-4.5 DeepSeek-R1 與 OpenAI GPT-o1 在綜合表現上相當,但資源使用更省 3️⃣ 三大技術突破 MoE (DeepSeekMoE) 精細劃分 Experts(類 ensemble 設計) Shared Expert 實現通才+專才搭配 MLA (Multi-Head Latent Attention) 壓縮 KV Cache 減少記憶體使用 MTP (Multi-Token Prediction) 多點預測輸出,強化學習訊號密度與 transition 學習 4️⃣ 訓練策略全景圖 Pretraining :大規模語料建立通識 SFT (Supervised Fine-Tuning) :學習解題方式 RL (Reinforcement Learning) :透過 reward feedback 強化推理 R1-Zero :全 RL 訓練,專精邏輯與數學任務 Distillation :從 R1 輸出中提煉高品質推理邏輯 5️⃣ Test-Time Scaling 延長 Chain of Thought,提高答案正確率 模型在測試時加入更多反思步驟,可...

[筆記] macro, micro 與 binary 不同版本的 acc., precision, recall, fscore 計算方法

圖片
使用套件:  https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html 這篇舉例說明頗清楚: https://blog.csdn.net/jmh1996/article/details/114935105 我也來舉個例子: Notations gt: ground truth pred: predict result 檢測陽性,正樣本 + : label 為 1 檢測陰性,負樣本 - : label 為 0 看表格解釋

[筆記] 使用 pygsheets 記錄實驗數據到 google sheet

圖片
  設定 Google Drive API 去 google cloud console 上建一個專案 https://console.cloud.google.com/ 接著在專案裡面搜尋 Google Drive API 接著啟用它

[Debug] 使用 Python argparse 遇到 error: unrecognized arguments

圖片
情境說明 我在  main.py  裡面定義了許多 argument 參數例如長這樣 然後我的  cmd.sh  長這樣 python main.py --model GaussianCopula \ --input_path data/train_raw.csv \ --output_dir data/ \ --num_rows 1000 \ --save_output \ --gen_dim 23 45 24 99

[筆記] 使用 ABC Notation 採譜 Machinedrum - Infinite Us

圖片
[採譜] Machinedrum - Infinite Us 前言 日前有一位做電音的DJ朋友傳給我這個 https://www.youtube.com/watch?v=u5BPgKB58Xs&ab_channel=irieficus 問我這個和聲原理是啥 瞬間燃起了我的研究興趣! 看似很複雜的和聲設計,只要使用 “樂理” 這個照妖鏡好好看一下 就可以發現它的規律! 以下把我做的反向工程和聲 source code 攤開給大家瞧瞧 ~~ 和弦分析

[ML筆記] Self-Supervised Learning (SSL)

圖片
  Self-Supervised Learning (SSL) 本篇是台大電機王鈺強老師 DLCV 課程筆記 投影片 from 課程網站:  http://vllab.ee.ntu.edu.tw/dlcv.html Self-Supervised Learning (SSL) 用沒有 label 的 data 先 pretrain 再用有 label 的 data fine-tune 好處:label data 資料不夠時,可以用這招訓練 model Self-Supervised Learning (SSL) 怎麼做?

[ML筆記] 3D Vision

圖片
  3D Vision 1. 本篇是台大電機王鈺強老師 DLCV 課程筆記 2. 課程網站:  http://vllab.ee.ntu.edu.tw/dlcv.html 3. 本篇主要紀錄 3D Vision 領域相關的技術概念 如何表示 3D 的影像? Multi-view RGB-D images 用超多不同角度的圖片表示,加入深度資訊 Voxels 用一格小方塊小方塊去紀錄,物體是否有佔據這個空間位置 Polygen Mesh 利用很多小三角形