语言生成中的地理抹除
本文提出了一种地理表示探究框架,通过自我条件方法和实体 - 国家映射研究了 PLMs 中存在的地理偏见和知识,发现尽管 PLMs 的表示与物理世界的各个国家的关联性惊人地契合,但这种知识在不同语言中分享程度却有所不同,同时说明了大型 PLMs 虽然表现出了地理接近度的概念,但在推断时会过度放大地缘政治偏好。
Dec, 2022
研究语言模型中的地理偏见,通过比较地理和语义距离,提出四个指标来评估这些偏见,结果强调了检查和纠正语言模型的空间偏见对于确保准确和公平的表达是至关重要的。
Apr, 2024
本研究使用空间探测任务和地理参考文献,评估了 OPT 和 BLOOM 系列预训练语言模型在代表全球不同人口群体方面的偏见程度。结果显示,这些模型在某些人口群体中表现得更好,而在南亚和东南亚等地的人口群体中则表现较差。分析结果显示,这种偏见不能完全通过社会语言学因素、经济因素或地理因素来解释。因此,本研究的基本结论是,预训练模型不能平等地代表世界人口,存在强烈的地域偏倚。该发现质疑了一种模型适用于所有人口群体的观点。
Mar, 2024
本篇研究探究 GPT-4 模型应用于地理数据场景问题的解决能力,试图了解其是否具备对地理位置、距离、海拔,以及更复杂的问题如国家轮廓、旅游网络、路线规划和供应链分析的理解和解决能力。结果表明该模型在一定程度上具备对世界的认识,但仍存在限制。
May, 2023
在这篇论文中,我们探讨了机器学习在地理空间预测任务中的应用,提出了一种名为 GeoLLM 的新方法,利用大型语言模型中的地理空间信息和开放街道地图的辅助数据,有效地提取地理空间知识,用于测量人口密度等中心问题,相较于最近邻和直接使用提示信息的基准方法,在多个任务上展现了 70% 的性能提升,并且与卫星数据的基准结果相当甚至超出,证明了大型语言模型在地理空间任务上的可行性和潜力。
Oct, 2023
研究发现,在不同的语言和方言中,文本分类器存在偏见。本文介绍了一个新的数据集 GeoOLID,以及基于该数据集进行的地域相关内容以及其对模型性能差异的完整分析。研究表明,当前模型不能跨位置推广,并且尽管针对非洲裔美国英语的攻击语言模型会引起虚假警报,但是模型性能与每个城市的少数族裔人口比例没有相关性。
Sep, 2022
大型语言模型开创了人工智能的进展,然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生,针对大型语言模型提供了一种选择性丢弃某些数据的技术,以解决隐私、道德和法律方面的挑战,无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究,介绍了针对文本数据和分类数据的遗忘方法,并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性,指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题,突出了机器遗忘在推动负责任、道德的人工智能方面的作用。
Mar, 2024
论文提出了地缘政治偏见的概念 —— 根据语言环境报告不同的地缘政治知识,并通过多语言模型回答多语言、多选问题的数据集 BorderLines 分析了语言模型在不同语言中的政治偏见,这一现象是跨语言领域的独特量化评估,表明与多语言的人类不同,LMs 的知识在不同的语言中不一致。
May, 2023