摘要
我们解决了在图像中识别情况的问题。给定一个图像,任务是预测最显著的动词(动作),并填补其语义角色,如谁在执行这个动作,动作的来源和目标是什么,等等。不同的动词有不同的角色(例如攻击有武器),每个角色可以有许多可能的值(名词)。我们提出了一个基于图神经网络的模型,它允许我们有效地利用在图上定义的神经网络来捕获角色之间的联合依赖性。对不同图连接的实验表明,我们在角色之间传播信息的方法显著优于现有的工作,以及多个基线。在预测全部情况方面,我们比以前的工作得到了大约3-5%的改进。我们还对我们的模型和动词中不同角色的影响进行了深入的定性分析。
作者
李瑞玉,Makarand Tapaswi,Renjie廖Jiaya贾,拉奎尔Urtasun, Sanja费德勒
会议
ICCV 2017
论文全文
超级ATG
评论