摘要
标准梯度下降方法容易受到一系列问题的影响,如高相关性和参数空间的不同尺度。这些困难可以通过二阶方法来解决,该方法将预处理矩阵应用于梯度以提高收敛性。不幸的是,这类算法通常难以处理高维问题,部分原因是计算特定的预处理(如反Hessian或Fisher信息矩阵)非常昂贵。我们引入了一阶预处理(FOP),这是一种快速、可扩展的方法,它推广了以前关于超梯度下降的工作(Almeida et al., 1998;Maclaurin等人,2015;Baydin等人,2017)学习仅利用一阶信息的预处理矩阵。实验表明,FOP能够以最小的计算开销提高标准深度学习优化器在视觉分类和强化学习任务上的性能。我们也研究了学习预处理矩阵的性质,并对算法进行了初步的理论分析。
作者
泰德•莫斯科维茨,瑞王,珍妮丝兰,Sanyam卡普尔,托马斯Miconi,杰森Yosinski,Aditya拉瓦尔大声回答
论文全文
评论