跳到页脚
雷竞技是骗人的 人工智能/机器学习 具有深度确定性动态梯度的Q(S,S')

具有深度确定性动态梯度的Q(S,S')

抽象的

在本文中,我们介绍了一种新颖的价值函数形式,问:S.S.',表达了从州过渡的效用S.到邻国S.'然后此后最佳地行动。为了获得最佳策略,我们开发了一个前向动态模型,该模型学会进行下一个最大化此值的下一个状态预测。此配方在仍在学习禁止的同时将动作从价值中解耦。我们在价值函数转移方面突出了这种方法的好处,在冗余动作空间内学习,以及从次优或完全随机策略生成的状态观测中学习禁止策略。可以使用代码和视频这个http ull.

作者

Ashley D. Edwards.Himanshu SahniRosanne Liu.简洪Ankit Jain.瑞旺Adrien Ecoffet.托马斯米多尼查尔斯伊斯堡Jason Yosinski.

出版物

第37国际机器学习会议(ICML),2020年

全文

具有深度确定性动态梯度的Q(S,S')(PDF)

注释
上一篇文章 增强的诗人:通过无限的发明来学习挑战和解决方案的开放式加强学习
下一篇文章 纤维:用于加固学习和基于人口的方法的高效开发和分布式培训平台
Rosanne Liu.
Rosanne是高级研究科学家和优步AI雷竞技是骗人的的创始成员。她在西北大学获得了博士学位,在那里使用神经网络来帮助探索新材料。她目前正在研究机器学习和神经网络神秘的多个前线。她试图在业余时间写作。
简洪
Jane Hung是一个有优步雷竞技是骗人的AI实验室的研究科学家。
Ankit Jain.
Ankit Jain是一个高级研究科学家,拥有雷竞技是骗人的优步AI实验室。
瑞旺
瑞王是高级研究科学家,拥有优步艾。雷竞技是骗人的他热衷于推进机器学习和AI的艺术状态,并将尖端进入更广泛的业务和产品的连接。他最近的优步工作是在领先的国际机器学习会议上发表的是(ICML,IJCAI,GECCO等),赢得了Gecco 2019年的最佳纸张奖,由科学,有线,VidtureBeat等技术媒体覆盖,和Quanta杂志。
Adrien Ecoffet.
Adrien Ecoffet是一个有优步雷竞技是骗人的AI实验室的研究科学家。
托马斯米多尼
Thomas Miconi是Uber 雷竞技是骗人的Ai Labs的研究科学家。
Jason Yosinski.
Jason Yosinski是优步AI实验室的创始成员,并导致了深度集体研究组。雷竞技是骗人的他闻名地为理解神经网络建模,陈述和培训的贡献。在Uber之前,Jason在Caltech,共同创立的两家Web公司的机器人工作,并在洛杉矶中学开始了一个机器人计划,现在提供超过500名学生。他在康奈尔创意机床,蒙特利尔大学,杰普,谷歌深层工作,完成了博士学位。他是美国宇航局空间技术研究奖学金的收件人,共同撰写了超过50篇论文和专利,并在几何智能下的ML雷竞技是骗人的 VP,Uber获得。他的工作已经被NPR,英国广播公司,有线,经济学家,科学和纽约州的思考。在他的空闲时间,杰森喜欢烹饪,阅读,滑翔伞,假装他是一名艺术家。