跳到页脚
雷竞技是骗人的 编程系统 通过示例综合实体匹配规则

通过示例综合实体匹配规则

0.

抽象的

实体匹配(EM)是数据集成的关键部分。我们研究如何从正负匹配示例中综合实体匹配规则。我们解决方案的核心是程序综合,一个强大的工具,可以通过预定义的语法自动生成满足给定的高级别规范的规则(或程序)。该语法描述了一个通用布尔公式(GBF),它可以包括由连词(ź),剖钉(ž)和否定()组合的任意属性匹配谓词,并且表现为足以模拟EM问题,从捕获任意属性组合来处理丢失属性值。GBF形式的规则比以析出正常形式(DNF)为代表的传统EM规则更简洁。因此,它们比决策树和其他机器学习算法更具可解释的,这些算法输出具有许多分支的深树木。我们介绍了一个新的合成算法,只给出作为输入的正向例子,合成了在整个数据集上有效的EM规则。广泛的实验表明,我们以有效性优于其他可解释的规则(例如,低深度的决定树),并且与不可解释的工具相当(例如,具有高深度,梯度升压树木,随机森林和SVM的决策树。

作者

Rohit Singh.,Venkata Vamsikrishna Meduri,Ahmed K. elmagarmid,Samuel Madden,Paolo Papotti,Jorge-ArnulfoQuiané-Ruiz,Armando Solar-Lezama,南唐

出版物

PVLDB.

全文

“通过示例合成实体匹配规则”(PDF)

优步AI.

注释
上一篇文章 优步VS TAXI:司机的眼睛视图
下一篇文章 SGN:连续分组网络,例如分割
Rohit Singh.
Rohit是一位来自MIT计算雷竞技是骗人的机科学和人工智能实验室(CSAIL)的博士学位的AI研究人员。他目前正在Uber上的产品团队中使用Pyro编程语言进行各种AI技术。他以前的工作涉及从编译器和数据库领域的多个域中的机器学习,定量博弈论和程序合成的应用。Rohit曾在谷歌作为实习生,他使用了谷歌脑深入学习框架与YouTube团队的应用程序,并在Yelp上作为PM实习生,他在AD CTR预测上运行了机器学习应用程序。