局部最优和鞍点 发表于 2024-04-02 更新于 2025-08-22 分类于 math 局部最优和鞍点都是处在grandient为0的位置,首先是找到这个位置,然后判断它是局部最优还是鞍点,利用海森矩阵从数学公式上就能判定。最后为了让损失函数更新能逃离鞍点,可以用海森矩阵或者动量两种方法。 阅读全文 »
wheel 发表于 2025-06-30 更新于 2025-08-22 分类于 it "Build the wheels from source" 的意思是 从源代码构建 .whl 文件,然后再进行安装,而不是直接使用已经编译好的 .whl 文件。 阅读全文 »
transformer 发表于 2024-03-05 更新于 2025-08-22 分类于 ai Transformer是一个利用注意力机制来提高模型训练速度的神经网络架构。 #文本生成的架构 这一部分确定完成了,其它部分未完全完成,以后有空再补 阅读全文 »