通过示例综合实体匹配规则|优步研究雷竞技是骗人的

通过示例综合实体匹配规则

Rohit Singh.

2017年10月1日

抽象的

实体匹配（EM）是数据集成的关键部分。我们研究如何从正负匹配示例中综合实体匹配规则。我们解决方案的核心是程序综合，一个强大的工具，可以通过预定义的语法自动生成满足给定的高级别规范的规则（或程序）。该语法描述了一个通用布尔公式（GBF），它可以包括由连词（ź），剖钉（ž）和否定（）组合的任意属性匹配谓词，并且表现为足以模拟EM问题，从捕获任意属性组合来处理丢失属性值。GBF形式的规则比以析出正常形式（DNF）为代表的传统EM规则更简洁。因此，它们比决策树和其他机器学习算法更具可解释的，这些算法输出具有许多分支的深树木。我们介绍了一个新的合成算法，只给出作为输入的正向例子，合成了在整个数据集上有效的EM规则。广泛的实验表明，我们以有效性优于其他可解释的规则（例如，低深度的决定树），并且与不可解释的工具相当（例如，具有高深度，梯度升压树木，随机森林和SVM的决策树。

作者

Rohit Singh.，Venkata Vamsikrishna Meduri，Ahmed K. elmagarmid，Samuel Madden，Paolo Papotti，Jorge-ArnulfoQuiané-Ruiz，Armando Solar-Lezama，南唐

出版物

PVLDB.

全文

“通过示例合成实体匹配规则”（PDF）

优步AI.

注释

鸣叫

投票

reddit.

whatsapp.

0.分享