作为优步机器学习系统基础的神经网络,已经被证明在解决复杂问题方面非常成功,包括图像识别、语言理解和游戏。然而,这些网络通常被训练到一个终点梯度下降法,这…
托马斯Miconi
工程博客文章雷竞技到底好不好用
雷竞技是骗人的研究论文
通过超梯度下降的一阶预处理
t·莫斯科维茨r .王,j .局域网,美国卡普尔,t . Miconi,j . Yosinski,答:拉瓦尔大声回答
标准梯度下降方法容易受到一系列问题的影响,如高相关性和参数空间的不同尺度。这些困难可以通过二阶方法来解决,该方法将预处理矩阵应用于梯度以提高收敛性。不幸的是,这类算法通常难以处理高维问题,部分原因是计算特定的预处理(如反Hessian或Fisher信息矩阵)非常昂贵。我们引入了一阶预处理(FOP),这是一种快速、可扩展的方法,它推广了以前关于超梯度下降的工作(Almeida et al., 1998;Maclaurin等人,2015;Baydin等人,2017)学习仅利用一阶信息的预处理矩阵。[…][PDF]
神经信息处理系统会议(NeurlPS), 2019
标准梯度下降方法容易受到一系列问题的影响,如高相关性和参数空间的不同尺度。这些困难可以通过二阶方法来解决,该方法将预处理矩阵应用于梯度以提高收敛性。不幸的是,这类算法通常难以处理高维问题,部分原因是计算特定的预处理(如反Hessian或Fisher信息矩阵)非常昂贵。我们引入了一阶预处理(FOP),这是一种快速、可扩展的方法,它推广了以前关于超梯度下降的工作(Almeida et al., 1998;Maclaurin等人,2015;Baydin等人,2017)学习仅利用一阶信息的预处理矩阵。[…][PDF]
神经信息处理系统会议(NeurlPS), 2019
用深度确定性动态梯度估计Q(s,s’)
答:爱德华兹Himanshu萨尼,r·刘,j .挂,a . Jain,r .王,答:Ecoffet,t . Miconi,的时候,j . Yosinski
在本文中,我们引入了一种新的值函数形式Q(s,s’),它表示状态s从一个状态s过渡到相邻状态s’,然后再进行最优行为的效用。为了得到一个最优策略,我们开发了一个正向动力学模型,学习做出下一个状态预测,使这个值最大化。[…][PDF]
国际机器学习会议(ICML), 2020
在本文中,我们引入了一种新的值函数形式Q(s,s’),它表示状态s从一个状态s过渡到相邻状态s’,然后再进行最优行为的效用。为了得到一个最优策略,我们开发了一个正向动力学模型,学习做出下一个状态预测,使这个值最大化。[…][PDF]
国际机器学习会议(ICML), 2020







