没啥标题

活下去

好方法,一直没看,2025/10/20上午2小时,下午1小时看完论文主要结构,测试没仔细看,代码也没看,主要是我想先比较一下pi0和pi0.5。

阅读全文 »

Transformer是一个利用注意力机制来提高模型训练速度的神经网络架构。

#文本生成的架构 这一部分确定完成了,其它部分未完全完成,以后有空再补

阅读全文 »
0%