笔记 / Notes
按学习路径整理的机器学习与语言模型笔记。每篇尽量保留推导过程、关键公式和概念之间的连接,方便从基础一路复习到后训练与强化学习。
NLP 基础
Word2Vec 与词嵌入从 skip-gram、softmax、负采样到 GloVe 和词向量评估。2026-01-23向量与矩阵微分整理 Jacobian、矩阵函数微分和反向传播中常用的矩阵求导形式。2026-01-24神经网络简介从多层网络的反向传播推导到正则化、Dropout 与 Adam 优化器。2026-01-24早期语言模型与 RNN从 n-gram、RNN、LSTM、GRU 理解序列建模的早期路线。2026-01-27Seq2Seq 与 Transformer 模型从机器翻译和 attention 出发,走到 self-attention 与 Transformer 架构。2026-01-28模型的预训练整理语言模型预训练目标、数据和训练范式。2026-02-02强化学习概念与算法基础从状态、动作、奖励和策略梯度开始,为 RLHF 做铺垫。2026-02-14PPO算法:原理与实现推导 PPO 的裁剪目标、优势估计和大模型场景中的训练循环。2026-02-20后训练(Post-Training)概论梳理 IFT、奖励模型、RLHF、DPO 与偏好数据的关系。2026-02-14语言模型架构与超参数整理现代 LLM 架构选择和常见超参数经验。2026-02-21预训练之后:SFT、Midtraining 与 RLHF 数据整理 instruction data、midtraining、偏好标注、PPO/DPO 和奖励过优化。2026-06-28从可验证奖励中学习推理整理 PPO 到 GRPO、可验证奖励、长 CoT、推理蒸馏和 reasoning RL 配方。2026-06-28