Notes

笔记 / Notes

按学习路径整理的机器学习与语言模型笔记。每篇尽量保留推导过程、关键公式和概念之间的连接，方便从基础一路复习到后训练与强化学习。

NLP 基础

Word2Vec 与词嵌入从 skip-gram、softmax、负采样到 GloVe 和词向量评估。2026-01-23NLP / Embedding 向量与矩阵微分整理 Jacobian、矩阵函数微分和反向传播中常用的矩阵求导形式。2026-01-24Math 神经网络简介从多层网络的反向传播推导到正则化、Dropout 与 Adam 优化器。2026-01-24Deep Learning 早期语言模型与 RNN从 n-gram、RNN、LSTM、GRU 理解序列建模的早期路线。2026-01-27Language Model Seq2Seq 与 Transformer 模型从机器翻译和 attention 出发，走到 self-attention 与 Transformer 架构。2026-01-28Transformer 模型的预训练整理语言模型预训练目标、数据和训练范式。2026-02-02Pretraining 强化学习概念与算法基础从状态、动作、奖励和策略梯度开始，为 RLHF 做铺垫。2026-02-14RL PPO算法：原理与实现推导 PPO 的裁剪目标、优势估计和大模型场景中的训练循环。2026-02-20RLHF / PPO 后训练（Post-Training）概论梳理 IFT、奖励模型、RLHF、DPO 与偏好数据的关系。2026-02-14Post-Training 语言模型架构与超参数整理现代 LLM 架构选择和常见超参数经验。2026-02-21LLM Architecture 预训练之后：SFT、Midtraining 与 RLHF 数据整理 instruction data、midtraining、偏好标注、PPO/DPO 和奖励过优化。2026-06-28Post-Training 从可验证奖励中学习推理整理 PPO 到 GRPO、可验证奖励、长 CoT、推理蒸馏和 reasoning RL 配方。2026-06-28RLVR / Reasoning

Transformer 实现

BPE Tokenizer 思路与实现从字节对合并的角度理解 BPE tokenizer 的训练和编码过程。2026-02-02Tokenizer Transformer 语言模型实现把 Transformer 语言模型拆成嵌入、注意力、归一化、前馈层和训练目标。2026-02-08Implementation