AN EMULATOR FOR FINE-TUNING LARGE LANGUAGE MODELS USING SMALL LANGUAGE MODELS 发表于 2024-11-04 更新于 2025-08-22 分类于 paper 百篇paper计划(9/100),用小模型微调大模型。 阅读全文 »
Aligner: Efficient Alignment by Learning to Correct 发表于 2025-03-03 更新于 2025-08-22 分类于 paper 百篇paper计划(13/100),对齐,新的方向,提高准确率的,还是微调上面的。 所以LLM的方向实际上就两种:微调和压缩? 阅读全文 »
A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 发表于 2025-03-03 更新于 2025-08-22 分类于 paper 百篇paper计划(14/100),对齐这个方向的综述性文章,好好儿看,就是可能会有很多看不懂的 1003开始看,希望今天一天能看完 阅读全文 »