有用的邻居：利用邻居提高地理要素的发音

Oct, 2022

有用的邻居：利用邻居提高地理要素的发音

Helpful Neighbors: Leveraging Neighbors in Geographic Feature Pronunciation

Llion Jones, Richard Sproat, Haruko Ishikawa, Alexander Gutkin

TL;DR该研究提出了一种新的架构，利用相邻位置名称的发音来推测目标位置名称的发音，并应用于日本地名，展示了该模型在查找和纠错谷歌地图中的错误方面的实用性，并将其应用于比较历史语言学中的同源反射预测。

Abstract

If one sees the place name Houston Mercer Dog Run in New York, how does one know how to pronounce it? Assuming one knows that Houston in New York is pronounced "how-ston" and not like the Texas city, then one can probably guess that "how-ston" is also used in the name of the dog park. We present a novel architecture that learns to use the pronunciations of n

pronunciation neighbor names japanese place names google maps cognate reflex prediction

发现论文，激发创造

Twitter 用户地理位置预测的分层神经网络

本文介绍了一种基于神经网络的层级位置预测模型，通过对用户所在国家和城市的层级结构进行考虑，并采用基于字符的词嵌入层来处理噪声数据，在不同特征组合设定下达到了最优结果，提高了预测精度并显著降低了均值误差距离。

Oct, 2019

毋遺一處：提升人道主義文件的地理定位

地理位置是人道主义响应的关键要素，提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息，但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记，提出了一个名为 FeatureRank 的地理编码方法，将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能（F1 = 0.92），而且缓解了现有工具的偏见，错误偏向西方国家的位置。因此，我们得出结论：需要更多来自非西方文件的资源，以确保现成的 NER 系统适用于人道主义领域的部署。

Sep, 2023

kNN 语言模型的可控生成的风格局部性

使用外部存储器改进的最近邻语言模型，通过检索相似的语境来辅助词语预测，添加局部级别使模型能够学习如何根据相对于源文件中当前文本的位置来加权邻居，从而进一步提高模型性能。我们提出了一种新的方法，并在礼貌、正式、支持性和毒性文本数据上进行自动和人工评估，发现我们的模型能够成功控制风格，并提供比以往更好的流利度 - 风格权衡。

Nov, 2023

最近邻语言模型用于风格可控生成

本文构建并评估了一种基于外部记忆的语言建模方法，利用政治正确、正式性和毒性等属性进行样式控制，结果显示基于样式专用数据存储器的生成性能得到了提高，但仍需在未来的工作中探索预训练数据和特定样式的效果。

Oct, 2022

使用混合密度网络对地理定位和词汇方言学进行位置的连续表示

本文提出了一种基于神经网络模型和高斯分布混合的方法，用于将二维位置嵌入到连续向量空间中。该模型包括两个变体，用于基于文本的地理定位和词汇方言学。在 Twitter 数据上进行评估，该模型优于传统的基于回归的地理定位，并提供更好的不确定性估计。我们还展示了从位置预测词汇在词汇方言学中的有效性，并使用 DARE 数据集进行评估。

Aug, 2017

用户地理定位和词汇方言学的神经模型

本文提出了一个基于神经网络的简单且有效的基于文本的用户地理定位模型，其在三个 Twitter 基准地理定位数据集上实现了最先进的性能，并且在隐藏层中生成词和短语嵌入，我们展示了这些嵌入有助于检测方言术语。作为我们方言术语分析的一部分，我们发布了一个评估方言术语检测方法的 DAREDS 数据集。

Apr, 2017

HeGeL：希伯来文地理位置信息新数据集

本文介绍了 Hebrew Geo-Location（HeGeL）语料库，它是用于采集字面意义上的地方描述和分析语言地理空间推断的，证明数据展示了丰富的地理空间推断使用，并需要一种新的环境表示。

Jul, 2023

利用 BERT-Based 模型预测推文的地理位置

使用神经网络、自然语言处理以及高斯混合模型，对推特文本中的地理位置进行预测，在全球范围以及美国范围内实验结果的中位误差分别小于 30 公里和 15 公里。

Mar, 2023

TopoBERT：基于 Fine-tuned BERT 的即插即用地名识别模块

本文提出了一种基于一维卷积神经网络（CNN1D）和来自 Transformer 的双向编码器表示（BERT）的地名识别模块 TopoBERT，通过 fine-tuned 的方式在三个数据集上得到最优结果，比其他五个基线模型表现更出色，可以应用于多种地名识别任务。

Jan, 2023

通过更好的候选生成和基于 Transformer 的重新排序以及两阶段解析提高地名解析能力

GeoNorm 是一种新的地理编码体系结构，它使用了信息检索技术来生成地理空间本体库中的候选条目列表，然后使用基于变压器的神经网络重新整理这些条目，该神经网络融合了本体库的信息，例如条目的人口。我们提出的地名解析框架在多个数据集上实现了最先进的性能。

May, 2023