没啥标题

活下去

思维链针对的是大模型搞推理问题,让它直接从直接输出一个结果变成写推理过程+结果的形式。

阅读全文 »

局部最优和鞍点都是处在grandient为0的位置,首先是找到这个位置,然后判断它是局部最优还是鞍点,利用海森矩阵从数学公式上就能判定。最后为了让损失函数更新能逃离鞍点,可以用海森矩阵或者动量两种方法。

阅读全文 »

之前学的时候把softmax当作在公式里的点缀,现在来研究一下整个函数

阅读全文 »
0%