Personal ArchiveIlluminum一处慢慢生长的记录空间。这里暂时以学习笔记为主,也会继续收进阅读、想法、项目和其他值得反复回看的材料。浏览内容最近更新About不急着把内容固定成某一种栏目。先把真实读过、推过、写过的东西留下来,等线索变多,再自然长出新的分类。CurrentNotesPaceIteratingShapeOpen-ended最近更新查看全部2026-06-28 / RLVR / Reasoning从可验证奖励中学习推理整理 PPO 到 GRPO、可验证奖励、长 CoT、推理蒸馏和 reasoning RL 配方。2026-06-28 / Post-Training预训练之后:SFT、Midtraining 与 RLHF 数据整理 instruction data、midtraining、偏好标注、PPO/DPO 和奖励过优化。2026-02-21 / LLM Architecture语言模型架构与超参数整理现代 LLM 架构选择和常见超参数经验。内容入口笔记学习、阅读和推导过程中留下的长文记录。数学线索一些反复会用到的概念、公式和推导。实现记录把模型、算法或工具拆开看的实现类材料。近期关注最近正在补全和连接的主题。