匹配英语语言地址的方法

Mar, 2024

Methods for Matching English Language Addresses

Keshav Ramani, Daniel Borrajo

TL;DR通过研究地址匹配任务中的准确率、召回率和准确性指标，我们对地址匹配的最佳方法进行了研究，探究了从基于距离的方法到深度学习模型的各种方法。

Abstract

addresses occupy a niche location within the landscape of textual data, due to the positional importance carried by every word, and the geographical scope it refers to. The task of →

addresses matching geographical scope entity resolution address matching

发现论文，激发创造

自然语言处理中语义地址匹配的改进

该研究论文介绍了语义地址匹配技术，通过使用 OCR 从发票中提取地址并创建地址数据池，然后使用 BM-25 算法对最佳匹配条目进行评分，最后通过 BERT 进行相似查询以获得最佳结果，研究结果表明该方法显著提高了现有技术的准确性和性能。

Apr, 2024

基于层次信息的地址匹配

本文提出了一种基于深度学习的层次化信息利用方法，可以更好地解决不规则地址匹配的问题并更加关注地址中的特殊部分，实验结果表明，该方法可以将现有方法的准确率提高 3.2%。

May, 2023

电商地址分类的深度上下文嵌入

研究了如何使用自然语言处理和 RoBERTa 模型来理解发展中国家（例如印度）中电商客户的运输地址，该方法结合了诸如编辑距离和语音算法之类的预处理步骤，并最终使用 RoBERTa 模型进行分类。

Jul, 2020

使用 Siamese Transformer Networks 改善地址匹配

采用深度学习的方法，设计出一种模型，用于提高邮地址匹配的效率。测试结果表明，模型在准确性和速度方面都表现良好，对于解决分配过程中的问题具有实际价值。

Jul, 2023

数据集地理：将语言数据映射到语言使用者

研究了自然语言处理中数据可用性对现代 NLP 系统质量的影响，使用实体识别和链接系统，观察了它们的跨语言一致性，并探讨了解释观察到的数据集分布的地理和经济因素。

Dec, 2021

用 Transformers 打击犯罪：在支付数据中进行地址解析方法的经验分析

在金融行业中，从自由文本消息属性中提取街道、邮政编码或国家等字段是解析地址的关键需求，本文利用 Transformer 模型和生成型大语言模型探索应对海量交易数据的性能，并展示训练鲁棒模型处理实际世界的嘈杂交易数据的重要性。结果表明，良好调整的 Transformer 模型通过提前停止显著优于其他方法，而生成型大语言模型则展现出强大的零 - shot 性能，值得进一步研究。

Apr, 2024

利用深度学习为发展中国家生成街道地址

本研究提出了一种基于深度学习和图像区分的地址生成方案，该方案可以通过从卫星图像中提取道路信息、划分社区、标记区域与地址单位等步骤，映射全球道路，并与当前工业和开源地址编码方案进行了比较。

Nov, 2018

深度学习和推理相结合用于非结构化文本文档的地址检测

本文提出了一种深度学习与推理相结合的方法，可从非结构化文本文档中找到并提取地址信息，从而提高公司处理效率。

Feb, 2022

量化攻击性语言分类器的地理表现差异

研究发现，在不同的语言和方言中，文本分类器存在偏见。本文介绍了一个新的数据集 GeoOLID，以及基于该数据集进行的地域相关内容以及其对模型性能差异的完整分析。研究表明，当前模型不能跨位置推广，并且尽管针对非洲裔美国英语的攻击语言模型会引起虚假警报，但是模型性能与每个城市的少数族裔人口比例没有相关性。

Sep, 2022

LLMGeo: 大规模语言模型在野外图像地理定位中的基准测试

利用多模态语言模型，我们系统评估其图片地理定位能力，并通过新的图像数据集和全面的评估框架进行训练及非训练的评估。结果表明，闭源模型展示出更好的地理定位能力，而开源模型通过微调可达到相当的性能。

May, 2024