transformer 发表于 2024-03-05 更新于 2024-12-17 分类于 ai Transformer是一个利用注意力机制来提高模型训练速度的神经网络架构。 #文本生成的架构 这一部分确定完成了,其它部分未完全完成,以后有空再补 阅读全文 »
MANISKILL3: GPU PARALLELIZED ROBOTICS SIMULATION AND RENDERING FOR GENERALIZABLE EMBODIED AI 发表于 2024-11-25 更新于 2024-12-17 分类于 paper 一个机器人模拟平台的论文 阅读全文 »
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 发表于 2024-04-16 更新于 2024-12-17 分类于 paper 思维链论文阅读,百篇paper计划(4/100),思维链这个技术还是prompt这个部分里面的,所以这篇论文还是算prompt 阅读全文 »
FlexGen: high-throughput generative inference of large language models with a single GPU 发表于 2024-05-21 更新于 2024-12-17 分类于 paper 推理llm里面搞卸载的。百篇阅读计划(5/100)。看到和以前有点相关联的地方了,卸载和内存优化都是偏系统的。 因为大的背景过于重复了,以后论文注解只记录小的背景了。 阅读全文 »
CLLMs: Consistency Large Language Models 发表于 2024-10-22 更新于 2024-12-17 分类于 paper 百篇paper计划(10/100),关于持续性,不知道对我有没有启发,先看看吧。 这一篇的实验要求比较高,不精读了,看思想。它有个前提是jacobi方法,没这个基础的话看不太懂。 阅读全文 »
Jacobian矩阵 发表于 2024-04-09 更新于 2024-12-17 分类于 math 在映射过程中,描述不同函数变量间变化速度的导数非常重要,Jacobian矩阵提供了一种表达局部输出对于输入的敏感度的方法。 阅读全文 »