解耦权重衰减(Decoupling weight decay) 另外,它将学习速率的选择与权重衰减的选择分开,这使得超参数能更好的优化,因为超参数之间不再相互依赖。
基于1个网页-相关网页
decoupling weight decay
去耦权衰减
以上为机器翻译结果,长、整句建议使用 人工翻译 。
应用推荐
模块上移
模块下移
不移动