有用的邻居:利用邻居提高地理要素的发音
本文介绍了一种基于神经网络的层级位置预测模型,通过对用户所在国家和城市的层级结构进行考虑,并采用基于字符的词嵌入层来处理噪声数据,在不同特征组合设定下达到了最优结果,提高了预测精度并显著降低了均值误差距离。
Oct, 2019
地理位置是人道主义响应的关键要素,提供了弱势人口、持续事件和可用资源的概述。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息,但现有的信息提取工具的性能和偏见尚不清楚。本研究利用 Spacy 和 roBERTa 来进行人道主义文本的地理标记,提出了一个名为 FeatureRank 的地理编码方法,将候选位置与 GeoNames 数据库进行连接。发现人道主义领域的数据不仅提高了分类器的性能(F1 = 0.92),而且缓解了现有工具的偏见,错误偏向西方国家的位置。因此,我们得出结论:需要更多来自非西方文件的资源,以确保现成的 NER 系统适用于人道主义领域的部署。
Sep, 2023
使用外部存储器改进的最近邻语言模型,通过检索相似的语境来辅助词语预测,添加局部级别使模型能够学习如何根据相对于源文件中当前文本的位置来加权邻居,从而进一步提高模型性能。我们提出了一种新的方法,并在礼貌、正式、支持性和毒性文本数据上进行自动和人工评估,发现我们的模型能够成功控制风格,并提供比以往更好的流利度 - 风格权衡。
Nov, 2023
本文构建并评估了一种基于外部记忆的语言建模方法,利用政治正确、正式性和毒性等属性进行样式控制,结果显示基于样式专用数据存储器的生成性能得到了提高,但仍需在未来的工作中探索预训练数据和特定样式的效果。
Oct, 2022
本文提出了一种基于神经网络模型和高斯分布混合的方法,用于将二维位置嵌入到连续向量空间中。该模型包括两个变体,用于基于文本的地理定位和词汇方言学。在 Twitter 数据上进行评估,该模型优于传统的基于回归的地理定位,并提供更好的不确定性估计。我们还展示了从位置预测词汇在词汇方言学中的有效性,并使用 DARE 数据集进行评估。
Aug, 2017
本文提出了一个基于神经网络的简单且有效的基于文本的用户地理定位模型,其在三个 Twitter 基准地理定位数据集上实现了最先进的性能,并且在隐藏层中生成词和短语嵌入,我们展示了这些嵌入有助于检测方言术语。作为我们方言术语分析的一部分,我们发布了一个评估方言术语检测方法的 DAREDS 数据集。
Apr, 2017
本文介绍了 Hebrew Geo-Location(HeGeL)语料库,它是用于采集字面意义上的地方描述和分析语言地理空间推断的,证明数据展示了丰富的地理空间推断使用,并需要一种新的环境表示。
Jul, 2023
使用神经网络、自然语言处理以及高斯混合模型,对推特文本中的地理位置进行预测,在全球范围以及美国范围内实验结果的中位误差分别小于 30 公里和 15 公里。
Mar, 2023
本文提出了一种基于一维卷积神经网络(CNN1D)和来自 Transformer 的双向编码器表示(BERT)的地名识别模块 TopoBERT,通过 fine-tuned 的方式在三个数据集上得到最优结果,比其他五个基线模型表现更出色,可以应用于多种地名识别任务。
Jan, 2023
GeoNorm 是一种新的地理编码体系结构,它使用了信息检索技术来生成地理空间本体库中的候选条目列表,然后使用基于变压器的神经网络重新整理这些条目,该神经网络融合了本体库的信息,例如条目的人口。我们提出的地名解析框架在多个数据集上实现了最先进的性能。
May, 2023