语言向异性跨语言模型编辑
本文旨在研究知识编辑领域中源语言编辑对不同目标语言的交叉效应,通过将 ZsRE 从英文翻译成中文,构建大规模的跨语言合成数据集,对不同范式的知识编辑方法进行英文和中文的编辑,并评估其在不同方面的性能。进一步分析编辑模型的不一致行为并讨论其挑战。
Sep, 2023
在多语言的大型语言模型中,已有的模型编辑技术在跨语言的模型编辑范式下存在一定的性能限制,尤其是当涉及到不同语言脚本家族的语言时,需要进一步研究和发展跨语言模型编辑技术以应对这些挑战。
Jan, 2024
提出了一种简单而有效的方法,使用多语言修补神经元来存储跨语言知识,以提升现有方法的跨语言编辑能力,并在两个数据集上进行实验证明其在跨语言编辑任务中表现出了提高的性能。
Jan, 2024
该研究通过考察多语境下的几种知识编辑技术,战略性地确定了语言平等的需求。我们评估了 Mistral、TowerInstruct、OpenHathi、Tamil-Llama 和 Kan-Llama 等模型在英语、德语、法语、意大利语、西班牙语、印地语、泰米尔语和卡纳达语等语言上的性能。研究发现了跨语言一致性方面正常模型和合并模型之间的显著差异。我们采用 “每种语言为自己”(ELFI)和 “每种语言为他人”(ELFO)等策略对这些模型进行了强化测试。研究结果表明,LMM 具有克服语言障碍的潜力,为实现人工智能技术中的语言包容性奠定了基础。
Jun, 2024
本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略,并证明了该策略产生了具有更好上下文学习能力的模型。同时,为了解决混合比例的问题,本研究提出了一种简单而有效的策略。
May, 2023
本研究论文提出了一种创新的方法,针对多语言语言模型的机器遗忘,通过选择性地擦除不同语言中的信息,同时保持总体性能,有效解决了低资源语言攻击的问题,为安全可适应的多语言语言模型设定了新的标准。
Jun, 2024
本研究旨在探讨大型语言模型的编辑问题,提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析,从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。
May, 2023
大型语言模型具有刻板印象偏见,模型编辑方法能够缓解这一问题,本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战,同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。
Feb, 2024
大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而,由于其广泛的参数化,训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧,需要经常更新 LLM 以纠正过时的信息或整合新知识,从而确保它们持续具有相关性。近年来,对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题,然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下,我们提出了一个统一的分类准则,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准 KnowEdit,以对代表性的知识编辑方法进行综合实证评估。此外,我们对知识定位进行了深入分析,从而更深入地了解 LLM 固有的知识结构。最后,我们讨论了知识编辑的几个潜在应用,并概述了它的广泛而有影响力的意义。
Jan, 2024
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019