Apr, 2020

使用预训练语言模型的深度实体匹配

TL;DR本研究提出了使用预训练的 Transformer-based 语言模型的新实体匹配系统 Ditto。本文展示了应用 BERT、DistilBERT 和 RoBERTa 等语言模型应用在实体匹配问题中所带来的匹配质量的提升,作者还提出了三种优化技术:高亮、字符串摘要和数据增强来进一步提高匹配能力。该系统在一个包含 789k 和 412k 条记录的真实世界的大规模实体匹配任务中表现出了高效性,达到了 96.5% 的 F1 分数。