英语语言最小对比基准: BLiMP
介绍了汉语语言模型所获得的知识的研究方法。使用汉语语言的最小对称集构建数据集,评估 11 种不同的语言模型。结果显示,汉语 BERT 在平均精度达到 81.8%,而 LSTM 和 5-grams 的性能仅略高于随机水平。
Jan, 2021
这篇论文介绍了俄语语言最小对对比基准(RuBLiMP),它包含 45k 对的句子,这些句子在语法、形态、句法或语义现象上存在差异,与现有的语言最小对对比基准相比,RuBLiMP 利用了来自开放文本语料库的自动注释句子并仔细筛选测试数据。作者描述了数据收集协议,并展示了对 25 种语言模型在不同场景下的评估结果。研究发现,对于需要理解结构关系、否定、及时态的现象,俄语广泛使用的语言模型在形态和一致性方面较为敏感,但在这些现象上与人类相比存在一定差距。RuBLiMP、代码和其他材料可公开获取。
Jun, 2024
受认知神经学研究的启发,我们介绍了一种新颖的 “解码探测” 方法,利用最小对比基准(BLiMP)逐层探测神经语言模型中的内在语言特征。通过将语言模型视为 “大脑”,其表示为 “神经激活”,我们从中间层的表示中解码最小对比的语法标签。该方法揭示了:1)自监督语言模型在中间层捕捉到了 GloVe 和 RNN 语言模型无法学习到的抽象语言结构。2)句法语法性的信息在 GPT-2 的最初三层中得到了鲁棒地捕捉,且在后续层中也分布广泛。随着句子复杂度的增加,需要更多的层来学习语法能力。3)比起语法,形态和语义 / 句法接口相关特征更难捕捉。4)对于基于 Transformer 的模型,嵌入和注意力机制都捕捉到了语法特征,但显示出不同的模式。不同的注意力头对于不同的语言现象展现出类似的倾向,但贡献有所不同。
Mar, 2024
使用最新一代的大型语言模型,我们系统地研究了双语词典诱导(BLI)任务,包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调,并证明了与当前 BLI 方法相比,这种方法在许多语言对上取得了最新的 BLI 成绩。
Oct, 2023
本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤:双语词汇识别(BLI)。研究了在德国及其两个方言,巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战,使用预训练的大型语言模型(LLMs)的双语文本挖掘和词对齐。最终提供了两个评估数据集和结果分析。
Apr, 2023
通过引入基准 SLING,作者测试了 18 个预训练的母语和多语言模型,研究它们对汉语句子的理解效果以及现象级别、社会性别和单 / 复数等方面的影响。作者发现预训练语言模型在 SLING 上的平均准确率远低于人类表现,并存在很强的个别现象偏见。
Oct, 2022
我们探索了预训练语言与视觉模型在基本语言构造方面的处理程度,并提出了 BLA 评估基准,发现各种类型的基于 Transformer 的系统普遍在零样本设置下难以处理 BLA,但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势,这为将 BLA 用作评估基准以及提高模型的基本语言能力打开了大门。
Oct, 2023
通过利用机器翻译产生多语言数据来实现对预训练的多语言 LLM 的图像编码器的重新对准,从而在消费者硬件上使用少量训练数据来获得第一款多语言 Vision-LLM,与从头开始训练的大规模 Vision-LLM 相比表现出色。
Jul, 2023
本文提出了 BLIP 作为新的 VLP 框架,通过引入 captioner 生成合成字幕,并使用 filter 删除噪音数据,能灵活地传输视觉语言理解和生成任务,获得了在一系列视觉语言任务中最先进的结果,同时在零样本任务中也表现出极强的泛化能力。
Jan, 2022
LLMs 在文化敏感性方面缺乏对日常生活的文化特定知识,不同于在线来源如维基百科,BLEnD 通过手工设计的基准评估了 LLMs 对多元文化和语言的日常知识,结果显示 LLMs 在高度在线代表的文化中表现更好,而在低资源语言文化中表现更好的是英语而非本地语言。
Jun, 2024