使用 Siamese Transformer Networks 改善地址匹配
该研究论文介绍了语义地址匹配技术,通过使用 OCR 从发票中提取地址并创建地址数据池,然后使用 BM-25 算法对最佳匹配条目进行评分,最后通过 BERT 进行相似查询以获得最佳结果,研究结果表明该方法显著提高了现有技术的准确性和性能。
Apr, 2024
研究了如何使用自然语言处理和 RoBERTa 模型来理解发展中国家(例如印度)中电商客户的运输地址,该方法结合了诸如编辑距离和语音算法之类的预处理步骤,并最终使用 RoBERTa 模型进行分类。
Jul, 2020
本文提出了一种基于深度学习的层次化信息利用方法,可以更好地解决不规则地址匹配的问题并更加关注地址中的特殊部分,实验结果表明,该方法可以将现有方法的准确率提高 3.2%。
May, 2023
本文介绍了一种建立在双向编码器变换器(BERT)架构上的命名实体识别(NER)模型的方法,具体使用了 SlovakBERT 模型。该 NER 模型从语音转文本转录获取的数据中提取地址部分。由于真实数据的稀缺性,使用 GPT API 生成了一个合成数据集。强调了在这种人工数据中模仿口语变异的重要性。我们的 NER 模型仅使用合成数据进行训练,并使用小型真实测试数据集进行评估。
Feb, 2024
提出了一种新型的基于地理关系的预训练模型 G2PTL,它采用了真实的物流交付数据构建了一个包含丰富地理知识和交付信息的大规模异构图,并通过采样子图进行预训练,通过真实世界数据的四项下游任务的全面实验表明,G2PTL 能够显著提高物流系统中与交付相关任务的性能。
Apr, 2023
我们提出了一种新颖的 3D 孪生网络模型,用于文本语义相似性建模,通过将语义信息映射到高维空间,保留了更精确的空间和特征领域信息,并为综合下游建模策略提供了必要的结构条件。通过引入多个模块来增强这一 3D 框架,包括特征提取、注意力和特征融合,在四个文本语义相似性基准上的广泛实验证明了我们 3D 孪生网络的有效性和效率。
Jul, 2023
利用预训练的句子转换器生成匹配候选项,接着使用优化的双重编码器来生成最佳匹配项以便自动匹配知识图谱和本体论。在多个数据集上进行了验证并展示了可行性和卓越的结果。
Apr, 2022
本文描述了 SemEval-2022 任务 8 排行榜上排名第二的系统。我们提出了一种基于实体增强的连体 Transformer,根据新闻文章中讨论的事件的共享叙述、实体、位置和时间等不同子维度计算新闻文章相似性。
May, 2022
本文介绍了一种基于增强 Siamese 神经网络的相似性映射的跟踪系统,该系统考虑了外观和几何信息,并可进行端到端的训练,以减少整体系统复杂性和需要针对特定环境进行调整的超参数数量,在 MOT16 挑战中取得了具有竞争性的速度和准确性。
Sep, 2016