A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 发表于 2025-03-03 更新于 2025-10-30 分类于 paper 时过境迁,当时怎么看的已经忘记了。现在我的问题变成了:什么是llm的对齐?vlm也有对齐吗?怎样实现对齐的?从这篇文章出发的话,我应该怎么做 重看论文(1) 阅读全文 »
Pure Vision Language Action (VLA) Models: A Comprehensive Survey 发表于 2025-10-28 分类于 paper 比较新的综述,2025年9月25日发的 写了不整理相当于没写。 这篇文章里面好多分类错误的东西:P,别全信,可以提供思路 ok没读完也不许再看了,现在没空 阅读全文 »
pi0 发表于 2025-10-20 分类于 paper 好方法,一直没看,2025/10/20上午2小时,下午1小时看完论文主要结构,测试没仔细看,代码也没看,主要是我想先比较一下pi0和pi0.5。 阅读全文 »
Task Reconstruction and Extrapolation for π0 using Text Latent 发表于 2025-09-29 好久没看论文了,复建复建 在看这篇论文之前,第一想法 extrapolation,相比interpolation 文本处理 做泛化性的 模型是pi0 阅读全文 »