抽象的
实体匹配(EM)是数据集成的关键部分。我们研究如何从正负匹配示例中综合实体匹配规则。我们解决方案的核心是程序综合,一个强大的工具,可以通过预定义的语法自动生成满足给定的高级别规范的规则(或程序)。该语法描述了一个通用布尔公式(GBF),它可以包括由连词(ź),剖钉(ž)和否定()组合的任意属性匹配谓词,并且表现为足以模拟EM问题,从捕获任意属性组合来处理丢失属性值。GBF形式的规则比以析出正常形式(DNF)为代表的传统EM规则更简洁。因此,它们比决策树和其他机器学习算法更具可解释的,这些算法输出具有许多分支的深树木。我们介绍了一个新的合成算法,只给出作为输入的正向例子,合成了在整个数据集上有效的EM规则。广泛的实验表明,我们以有效性优于其他可解释的规则(例如,低深度的决定树),并且与不可解释的工具相当(例如,具有高深度,梯度升压树木,随机森林和SVM的决策树。
作者
Rohit Singh.,Venkata Vamsikrishna Meduri,Ahmed K. elmagarmid,Samuel Madden,Paolo Papotti,Jorge-ArnulfoQuiané-Ruiz,Armando Solar-Lezama,南唐
出版物
PVLDB.
全文
优步AI.
注释