没啥标题

活下去

局部最优和鞍点都是处在grandient为0的位置,首先是找到这个位置,然后判断它是局部最优还是鞍点,利用海森矩阵从数学公式上就能判定。最后为了让损失函数更新能逃离鞍点,可以用海森矩阵或者动量两种方法。

阅读全文 »

windows,系统和使用。有linux了怎么能没有windows

阅读全文 »

"Build the wheels from source" 的意思是 从源代码构建 .whl 文件,然后再进行安装,而不是直接使用已经编译好的 .whl 文件。

阅读全文 »

受不了这种全用脑子记录事情的状态了,测评一下几个todo软件。

阅读全文 »

Transformer是一个利用注意力机制来提高模型训练速度的神经网络架构。

#文本生成的架构 这一部分确定完成了,其它部分未完全完成,以后有空再补

阅读全文 »

之前学的时候把softmax当作在公式里的点缀,现在来研究一下整个函数

阅读全文 »
0%