LoFTI: 印度本土化和真实性迁移

Jul, 2024

LoFTI: Localization and Factuality Transfer to Indian Locales

Sona Elza Simon, Soumen Kumar Mondal, Abhishek Singhania, Sayambhu Sen, Preethi Jyothi

TL;DR通过对大规模网络数据集进行训练，大型语言模型（LLMs）可以编码广泛的世界知识。然而，这些数据集通常存在对英语为母语的西方国家的地理偏见，导致LLMs对需要本地化回答的查询产生有偏见或虚构的响应。本研究引入了一种名为LoFTI（Localization and Factuality Transfer to Indian Locales）的新基准，用于评估LLM的本地化和事实转移能力。LoFTI包含关于源地点和目标地点实体的事实陈述；源地点遍布全球，而目标地点都位于印度，且具有不同程度的超本地性（国家，州，城市）。这些实体涵盖了各种各样的类别。我们使用LoFTI评估Mixtral、GPT-4和另外两种适用于本地化事实转移任务的基于Mixtral的方法。我们证明LoFTI是一个高质量的评估基准，并且所有模型，包括GPT-4，在不同级别的超本地化中产生了偏斜的结果。

Abstract

large language models (LLMs) encode vast amounts of world knowledge acquired via training on large web-scale datasets crawled from the internet. However, these datasets typically exhibit a geographical bias towar

发现论文，激发创造

IndicXNLI: 评估印度语言的多语言推理

本文介绍了IndicXNLI，一个NLI数据集，用于11种印度语言的跨语言转移技术的分析，研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。

Apr, 2022

GeoMLAMA：多语言预训练语言模型上的地理多样性常识探针

本文介绍了一个多语种、跨文化的基准数据集GeoMLAMA，旨在探究多语种PLMs中通用知识的多样性，通过在11个标准多语种PLMs上的测试，发现尺寸较大的多语种PLMs并不一定比尺寸较小的更好地存储多样的概念，语言不一定能很好地反映其本地文化的知识，而一个语言在探索非本国国家的知识时，则可能比探索本国国家的知识更好。

May, 2022

语言模型的地理和地缘政治偏差

本文提出了一种地理表示探究框架，通过自我条件方法和实体-国家映射研究了PLMs中存在的地理偏见和知识，发现尽管PLMs的表示与物理世界的各个国家的关联性惊人地契合，但这种知识在不同语言中分享程度却有所不同，同时说明了大型PLMs虽然表现出了地理接近度的概念，但在推断时会过度放大地缘政治偏好。

Dec, 2022

多模式地理预训练方法

该研究提出了一种新颖的多模态地理语言模型 (MGeo) 用于查询-POI 匹配，通过将地理信息视作一个新的模态，在提取多模态相关性的同时准确表示查询中的多个地理对象，提升了通用 PTMs 的查询-POI 匹配能力。

Jan, 2023

使用ChatGPT的多语言旅游协助：比较印地语、泰卢固语和卡纳达语的能力

该研究调查了OpenAI的AI语言模型ChatGPT在将英语翻译成印地语、泰卢固语和卡纳达语方面的效果，旨在帮助在印度多元文化环境下的游客。研究中使用了一个包含50个问题的测试集，涵盖了常识、食物和旅行等不同领域，这些问题由五名志愿者进行准确性和流畅性评估，并将得分换算成BLEU分数。BLEU分数评估机器生成的翻译结果与人工翻译的接近程度，得分越高表示翻译质量越好。研究结果显示，印地语的翻译表现最佳，准确性和流畅性都优于其他语言，而泰卢固语的翻译则稍逊一筹。人工评估者对翻译结果的准确性和流畅性进行了评价，为语言模型的表现提供了全面的观点。

Jul, 2023

GeoLLM：从大型语言模型中提取地理空间知识

在这篇论文中，我们探讨了机器学习在地理空间预测任务中的应用，提出了一种名为GeoLLM的新方法，利用大型语言模型中的地理空间信息和开放街道地图的辅助数据，有效地提取地理空间知识，用于测量人口密度等中心问题，相较于最近邻和直接使用提示信息的基准方法，在多个任务上展现了70%的性能提升，并且与卫星数据的基准结果相当甚至超出，证明了大型语言模型在地理空间任务上的可行性和潜力。

Oct, 2023

全球撒谎者：LLMs随时间和地域的真实性

研究评估GPT模型的事实准确性、稳定性和偏见，发现较新版本的GPT模型并不总是具有更好的性能，存在地域偏见及信息不对称问题，强调了在模型训练和评估中的文化多样性和地理包容性的重要性，以实现全球科技公平和公正分配人工智能的好处。

Jan, 2024

Multi-向性知识评估：利用FActScore评估多语言LLMs的多区域知识

本研究通过对九种语言进行分析，系统评估了跨语言和地理区域的多语言大型语言模型的事实准确性，发现英语在事实准确性和生成事实的数量方面一直表现优异，并且多语言模型对来自西方大陆的事实信息存在偏见，这些发现凸显了改善多语言事实评估的需求和大型语言模型事实生成中的地理偏差。

Feb, 2024

自然语言模型中地理表现的缩放规律

扩展大型语言模型(LLM)到研究结果，观察语言模型在扩展时地理知识是如何演变的，并显示较大的语言模型不能消除训练数据中固有的地理偏见。

Feb, 2024

DOSA: 来自印度不同地理子文化的社会制品数据集

使用参与式研究方法引入DOSA，这是一种由260名参与者从19个不同印度地理亚文化中收集的共同感知的社会艺术品名称和描述的数据集，用于评估LLMs在区域亚文化中推断艺术品的能力。

Feb, 2024