构造难题之难即使对于大语言模型也因错误原因而被解决

COLINGMar, 2024

构造难题之难即使对于大语言模型也因错误原因而被解决

Constructions Are So Difficult That Even Large Language Models Get Them Right for the Wrong Reasons

Shijia Zhou, Leonie Weissweiler, Taiqi He, Hinrich Schütze, David R. Mortensen...

TL;DR我们通过引入具有大量词汇重叠的自然语言推理的小型挑战数据集，从 NLP 的角度出发，展示了 GPT-4 和 Llama 2 在此方面的失败，同时从计算语言学的角度，我们发现一组无法通过表面特征区分的三类形容词结构，进而探索 LLM 对这些结构的理解，在多个方面我们发现它们在区分和理解上存在多种失败，这表明它们未充分代表其含义或捕捉词组中词性的特性。

Abstract

In this paper, we make a contribution that can be understood from two perspectives: from an nlp perspective, we introduce a small challenge dataset for NLI with large →

nlp challenge dataset entailment lexical overlap computational linguistics

发现论文，激发创造

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

在测试语言不常见方面的人工智能性能时，暴露对底层意义的不敏感性

本研究探讨基于计算方法和大数据的人工智能应用中所使用的大型语言模型的语言表现，着重考察语言表现是否由语言知识所导引。结果发现即便是常规语法结构之外的、不太常见的语言结构也可能导致大型语言模型表现出不足的语言能力，暗示这种类型的语言模型实际上并不像人类一样具有对语言的深入理解。

Feb, 2023

大型语言模型是否能理解常见词汇的不常见含义？

通过创新构建一个包含细粒度和跨语言维度的词汇语义理解数据集，本研究揭示了大语言模型在基本词汇意义理解任务上的性能不佳，甚至落后于 16 岁的人类 3.9% 和 22.3% 分别。这突显了其关键不足，并激发了进一步研究和开发更智能的大语言模型的新见解。

May, 2024

超越分布式假设：让语言模型学习意思 - 文本对应关系

本文介绍为了解决语言模型 (LMs) 无法满足的逻辑否定性质 (property) 所采用的方法。研究者提出一种名为 Meaning-Matching 的新的任务，用于直接帮助 LM 学习词汇语义信息，进而满足逻辑否定性质 (property)。在七个 GLUE 任务上的微调实验证明了该方法的有效性。

May, 2022

用于跨语言评估的基于逻辑的语料库

本文提出了一种新的语法任务集，专注于矛盾检测，并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果，但在处理计数算子时仍有待改进，同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。

May, 2019

在大语言模型时代中缓解文本分类中的边界不确定性和固有偏差

这项研究发现大型语言模型在文本分类中受到选择数量和排列的变化的影响，为解决这个问题，提出了一种基于两阶段分类框架的方法，该方法通过减少决策空间和进行逐对比较来减轻边界的模糊性和内在偏差。通过对四个数据集的广泛实验证实了该框架的有效性，并使不同的大型语言模型取得了一致的改进。

Jun, 2024

方言？我几乎不了解她：风格控制与刻板印象的挑战

大型语言模型（LLMs）在教育和学习应用中的使用不断增加。研究表明，在控制风格以适应学习者需求的情况下，能够增加理解力，促进包容性，并有助于知识蒸馏。为了了解当代 LLMs 在风格控制方面的能力和局限性，我们评估了五个最先进的模型：GPT-3.5，GPT-4，GPT-4o，Llama-3 和 Mistral-instruct-7B。我们观察到第一个任务存在显著的不一致性，模型的性能在适用于一年级学生的任务中平均介于五年级和八年级阅读水平之间，标准偏差高达 27.6。对于我们的第二个任务，我们观察到性能有了显著的提高，从 0.02 到 0.26。然而，我们发现即使在参考文本中没有刻板印象的情况下，LLMs 在任务中经常生成文化上不敏感的内容。我们提供了详细的结果分析和讨论。

Jun, 2024

随着更大的模型和更长的训练，词汇泛化能力提高

该研究分析了自然语言推理、释义检测和阅读理解中词汇重叠启发式的使用，发现更大的模型较不容易采用词汇重叠启发式，并且更长的训练会导致模型放弃使用词汇重叠启发式，最后提供证据表明模型大小差异的根源在于预训练模型。

Oct, 2022

大型语言模型是否遵循概念注释指南？科学和金融领域案例研究

大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型，根据我们的简单评估方法，我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。

Nov, 2023

大型语言模型不是你所需的全部

本文描述了解决 SemEval 2023 Task 2：MultiCoNER II（多语言复杂命名实体识别）问题所构建的体系结构和系统。我们评估了两种方法：传统的条件随机场模型和经过自定义头部微调的大型语言模型（LLM），并比较了这两种方法。我们探索的新想法有：1）衰减辅助损失（带剩余项）- 在模型上训练粗粒度 NER 的辅助任务并将其包括在损失函数的一部分中；2）三元标记混合 - 探索在最终 NER 层中预测之前混合相邻标记的嵌入方式；3）任务最优头部 - 探索各种用于 LLM 最终层的自定义头部和学习率。我们还尝试了多个 LLM，包括 GPT-3，并在最终模型中使用了多种 dropout 和其他超参数设置，该模型在开发数据上达到了 0.85/0.84 的微观和宏观 F1 值，并在测试数据上达到了 0.67/0.61。我们证明，虽然预训练的 LLM 本身相对传统模型带来了很大的改进，但通过上述额外特征 / 损失 / 模型工程技术的增强，我们还可以显著提高宏观 F1 分数。

Jan, 2024