跳到页脚
雷竞技是骗人的 人工智能 /机器学习 从视频中学习用于多步人类相互作用的生成模型

从视频中学习用于多步人类相互作用的生成模型

0

抽象的

创建由人类与对象相互作用的动态虚拟环境是计算机图形中的一个基本问题。虽然众所周知,代理相互作用在合成此类场景中起着至关重要的作用,但大多数现存的技术仅专注于静态场景,使动态组件排除在外。在本文中,我们提出了一个生成模型,以合成合理的多步动态人类对象相互作用。由于此类交互的空间在对象,活动和时间步骤的数量中是指数的,因此生成多步交互是具有挑战性的。我们建议通过学习合理的人与物体相互作用的较低维空间来处理这种组合复杂性。我们使用动作图将交互作用代表与参与对象及其状态一起作为离散动作的顺序。为了构建动作图,我们提出了一种自动方法,该方法在RGB视频上使用最先进的计算机视觉技术,以检测单个对象及其状态,提取涉及的手并识别执行的动作。该动作图是由观察日常活动的视频构建的,用于培训基于经常性神经网络(RNN)的生成模型。该网络了解各个行动之间的因果关系和约束,可用于产生新颖和多样化的多步人类对象相互作用。我们的表示和生成模型允许在各种应用程序中进行新功能,例如对真正机器人代理的交互预测,动画合成和运动计划。

作者

他王,索伦·皮尔克(Soren Pirk),弗拉基米尔·金(Vladimir Kim),Ersin Yumer,Leonidas Guibas

会议

Eurographics 2019

完整的纸

“从视频中学习用于多步人类相互作用的生成模型”(PDF)

Uber ATG

注释
上一篇文章 使用视觉目标的探索性舞台照明设计
下一篇文章 UPSNET:统一的全景分割网络
Ersin Yumer
Ersin Yumer是一名员工研究科学家,领雷竞技是骗人的导Uber ATG R&D内的旧金山研究团队。在加入Uber之前,他领导了Argo AI的感知机学习团队,在此之前,他在Adobe Research呆了三年。雷竞技是骗人的他在卡内基·梅隆大学(Carnegie Mellon University)完成了博士学位研究,在此期间,他也在Google Research度过了几个夏天。雷竞技是骗人的他目前的研究兴趣在于机器雷竞技是骗人的学习,3D计算机视觉和图形的交集。他开发了端到端的学习系统和整体机器学习应用程序,这些应用程序将视觉世界的信号融合在一起:图像,点云,视频,3D形状和深度扫描。