没啥标题

活下去

Transformer是一个利用注意力机制来提高模型训练速度的神经网络架构。

#文本生成的架构 这一部分确定完成了,其它部分未完全完成,以后有空再补

阅读全文 »

安装、配置、更新nodejs的流程

但是我现在更新不了……重新配置一遍算了

阅读全文 »

思维链针对的是大模型搞推理问题,让它直接从直接输出一个结果变成写推理过程+结果的形式。

阅读全文 »

局部最优和鞍点都是处在grandient为0的位置,首先是找到这个位置,然后判断它是局部最优还是鞍点,利用海森矩阵从数学公式上就能判定。最后为了让损失函数更新能逃离鞍点,可以用海森矩阵或者动量两种方法。

阅读全文 »
0%