使用意大利 CoLA 语料库进行单 / 跨语言可接受性判断
在大语言模型背景下,作者介绍了第一份经外语母语人士验证的大规模汉语非英语可接受性数据集 CoLAC,并通过交互式 turing 测试展示 model 和人之间的性能差距,同时也证明了可接受性知识可以跨越不同语言进行跨语言转移。
May, 2023
通过 JCoLA 数据集,对 9 种不同类型的日语语言模型进行了句法知识评估,结果表明有些模型在领域内数据上能超越人类表现,但在领域外数据上无法超越人类表现,并且通过对语言现象的错误分析发现,神经语言模型在处理像参数结构这样的局部语法依赖时表现出色,但在面对像动词一致和 NPI 授权这样的长距离语法依赖时表现出衰退。
Sep, 2023
该研究介绍了由语言学出版物和生成模型构建的 Russian Corpus of Linguistic Acceptability (RuCoLA), 通过基线方法精细分析了接受度分类实验,表明在检测形态和语义错误方面,最广泛使用的语言模型仍然远远落后于人类。研究团队开放了 RuCoLA、实验代码和公共排行榜,以评估俄语语言模型的语言能力。
Oct, 2022
本文研究了人工神经网络在判断句子是否符合语法上的能力,介绍了语言可接受性语料库(CoLA)以及通过该库测试了神经网络模型在接受度分类任务上的性能,结果发现其表现超过了 Lau 等人的无监督模型,但在许多语法结构方面,所有测试的模型都远低于人类的水平。
May, 2018
本篇研究提出了一种新的 Reuters 子语料库,其针对 8 种语言具有平衡的类先验分布,旨在通过使用多语言词向量和句子嵌入来提供跨语言文档分类的基线,并促进该重要领域的研究。
May, 2018
我们介绍了首个多语言语言可接受性基准 MELA,并在 48K 个样本中涵盖了 10 种语言,从不同的语言家族中选择。我们分析了经过精调的 XLM-R 的权重,探索了语言之间的转移困难,结果显示 ChatGPT 得益于上下文实例,但仍落后于精调的 XLM-R;而 GPT-4 在零 - shot 设置中与精调的 XLM-R 的性能相当。跨语言和多任务学习实验表明,在语言可接受度判断中,与语义任务不同,语言内的训练数据至关重要。我们还引入了冲突权重的概念,该概念可能是跨语言转移困难的潜在指标。
Nov, 2023
本文介绍了两个用于对挪威语言模型进行语法性评估的数据集(NoCoLA_class 和 NoCoLA_zero),并展示了它们在不同类型的语言模型上的使用方法及对现有挪威语言模型的比较研究。
Jun, 2023
当前分析或生成混合代码句子的计算方法没有明确建模混合代码句子的 “自然性” 或 “可接受性”,但依赖于训练语料库来反映可接受的混合代码句子的分布。建模混合文本的可接受性可以帮助区分自然的混合文本,并实现质量控制的混合文本生成。为此,我们构建了 Cline 数据集,其中含有英语 - 印地语 (en-hi) 混合文本的人工可接受性判断。Cline 是其类别中最大的数据集,包含 16,642 个句子,其中包括两个来源的样本:合成混合文本和从在线社交媒体上收集的样本。我们的分析表明,用于过滤 / 筛选 / 比较混合文本语料库的流行混合代码指标(如 CMI、转换点数、突发度)与人工可接受性判断之间的相关性较低,凸显了我们数据集的必要性。使用 Cline 进行的实验证明,仅基于混合代码指标训练的简单多层感知机 (MLP) 模型被细调的预训练多语言大型语言模型 (MLLMs) 在具有挑战性的数据设置中表现更佳。具体而言,XLM-Roberta 和 Bernice 在不同配置中优于 IndicBERT。与 ChatGPT 的零和几个样本能力的比较表明,基于更大数据集进行细调的 MLLMs 优于 ChatGPT,在混合代码任务中提供了改进的空间。使用我们的模型检查点进行从英语 - 印地语到英语 - 特鲁古语的零样本转移可接受性判断,超过了随机基线,可以应用于其他混合语言对,并提供了进一步的研究方向。我们公开发布了我们的人工标注数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。
May, 2024
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022