多伦多:用百万双眼睛看世界雷竞技是骗人的

多伦多:用百万双眼睛看世界

神龙王,分钟呗,据传Mattyus,挂楚,蕴结罗,本•杨,贾斯汀梁,乔尔Cheverie,拉奎尔Urtasun

2016年12月1日

摘要

尽管近年来存在实质性的进展，但图像标题技术仍然远非完美。现有方法产生的句子，例如，基于RNN的人通常会过度僵化，缺乏可变性。这个问题与在实践中广泛使用的学习原则有关，即最大化训练样本的可能性。这一原则鼓励与“地面真理”标题相比相似，同时抑制其他合理的描述。常规评估度量，例如，Bleu和Meteor，也有利于这种限制性方法。在本文中，我们探讨了一种替代方法，旨在提高人类表达的两个基本性质 - 改善自然和多样性。具体而言，我们提出了一种基于条件生成的对冲网络（CGAN）的新框架，该网络共同学习发电机以在图像和评估器上产生条件的描述，以评估描述符合视觉内容的概念。值得注意的是，训练序列发生器是非虚拟的。 We overcome the difficulty by Policy Gradient, a strategy stemming from Reinforcement Learning, which allows the generator to receive early feedback along the way. We tested our method on two large datasets, where it performed competitively against real people in our user study and outperformed other methods on various tasks.