编码器和解码器 发表于 2024-03-04 更新于 2024-09-20 分类于 ai 写完之后发现编码器和解码器这个框架不是很麻烦,就是一种思想,但是要扯上transformer就很麻烦orz。 一句话总结一下:编码器是可变->固定,解码器是固定->可变 阅读全文 »
Jacobian矩阵 发表于 2024-04-09 更新于 2024-09-20 分类于 math 在映射过程中,描述不同函数变量间变化速度的导数非常重要,Jacobian矩阵提供了一种表达局部输出对于输入的敏感度的方法。 阅读全文 »
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning 发表于 2024-07-01 更新于 2024-09-19 分类于 paper 百篇paper计划(6/100),好像是LoRA的改进,随便找的,而且这篇还没投会议呢。 这一篇也是微调,改lora 阅读全文 »
TRANSFORMER EXPLAINER: Interactive Learning of Text-Generative Models 发表于 2024-09-13 分类于 paper 百篇paper计划(7/100),很短,才2页,重点在code和其project,理解transformer。论文是没啥创新点了,写得也比较拉,看看项目吧。 这一篇写完啦!^^ 阅读全文 »
transformer 发表于 2024-03-05 更新于 2024-09-12 分类于 ai Transformer是一个利用注意力机制来提高模型训练速度的神经网络架构。 #文本生成的架构 这一部分确定完成了,其它部分未完全完成,以后有空再补 阅读全文 »
FlexGen: high-throughput generative inference of large language models with a single GPU 发表于 2024-05-21 更新于 2024-09-04 分类于 paper 推理llm里面搞卸载的。百篇阅读计划(5/100)。看到和以前有点相关联的地方了,卸载和内存优化都是偏系统的。 因为大的背景过于重复了,以后论文注解只记录小的背景了。 阅读全文 »