跳到页脚
作者 Vashisht Madhavan的帖子

Vashisht Madhavan

Vashisht Madhavan
1篇雷竞技到底好不好用博客文章 3个雷竞技是骗人的研究论文
Vashisht(Vash)是加州大学伯克利分校的最新毕业生,在那里他获得了计算机科学的学士学位和MS,重点是计算机视觉和人工智能。在伯克利,他的工作着重于自动驾驶汽车的感知系统。他的兴趣在于计算机视觉,机器学习和增强学习的交集。

工程博客文章雷竞技到底好不好用

创建一个动物园的动物园,以催化对深度强化学习的理解

0
创建一个动物园的动物园,以催化对深度强化学习的理解

这项研究是雷竞技是骗人的在Google Brain和Openai的合作者的宝贵帮助下进行的。

精选的训练有素的代理商填充了Atari动物园。

最近,AI中最令人兴奋的进步来自深厚的强化领域

雷竞技是骗人的调查报告

ATARI模型动物园,用于分析,可视化和比较深钢筋学习剂

F.这样,,,,V. Madhavan,,,,R. Liu,,,,R. Wang,P。Castro,Y. Li,L。Schubert,M。Bellemare,J. Clune,,,,J.雷曼
人类和计算的许多努力旨在改善深度强化学习算法在基准(例如Atari学习环境)上的执行方式。相对较少的努力集中在理解这种方法所学的内容上,并研究和比较不同强化学习(RL)算法所学的表示形式。[...][PDF]
2018

改善通过寻求新颖的代理商进行深入强化学习的进化策略的探索

E. conti,V. Madhavan,,,,F.这样,,,,J.雷曼,,,,K. Stanley,,,,J. Clune
进化策略(ES)是一个黑盒优化算法的家族,能够大致训练深层神经网络,以及有关挑战深度强化学习(RL)问题的Q学习和政策梯度方法,但要快得多(例如,小时vs。几天),因为它们平行得更好。[...][PDF]
Vigil @ Neurips 2017(神经),2017年

深度神经进化:遗传算法是训练深度神经网络的竞争替代方案

F.这样,,,,V. Madhavan,E。Conti,J.雷曼,,,,K. Stanley,,,,J. Clune
深人造神经网络(DNN)通常是通过基于梯度的学习算法(即反向传播)训练的。进化策略(ES)可以与基于反向推销的算法相抗衡,例如挑战深度强化学习(RL)问题等政策梯度。[...][PDF]
Deep RL @ Neurips 2018

流行文章