准确的任务形式化对于 Winograd 模式评估至关重要

EMNLPOct, 2020

准确的任务形式化对于 Winograd 模式评估至关重要

Precise Task Formalization Matters in Winograd Schema Evaluations

Haokun Liu, William Huang, Dhara A. Mungra, Samuel R. Bowman

TL;DR通过分析 Winograd Schema 挑战数据集的输入规范、损失函数、以及预训练模型参数的复用情况，本研究发现这些规范的改变是近期模型在该项挑战中精度飞跃的主要原因，而非模型推理能力的提升。此外，本研究还提出了多项技巧以缓解模型超参数的极端敏感性，并呼吁未来该领域的评测者们应该为评测任务制定更科学的评测规范，以减少规范决策对评测结果的影响。

Abstract

Performance on the winograd schema challenge (WSC), a respected English commonsense reasoning benchmark, recently rocketed from chance accuracy to 89% on the SuperGLUE leaderboard, with relatively little corrobor

winograd schema challenge commonsense reasoning pretrained model formalization hyperparameters

发现论文，激发创造

自然语言推断的公平泛化任务设定

本文提出了一个正式的公平概念，并利用人工数据集来展示标准神经模型在要求的泛化方面表现不佳，只有联合组合前提和假设的任务特定模型能够达到高性能，即使这些模型也不能完美解决任务。

Nov, 2019

基于知识驱动的数据构建在常识问答中的零样本评估

本文提出了一种基于神经符号框架的零样本问题回答方法，利用预训练模型的外部知识资源，获得了在不同任务中的一致性提升，并且在任务结构保持的同时还生成了公平和信息丰富的问题，从而提高了语言模型的学习效果。

Nov, 2020

大型语言模型的反事实任务证据支持紧急类比推理

最近的研究证明，大型语言模型能够以零样本的方式解决各种基于文本的类比问题，表明存在一种新兴的类比推理能力。最近的两篇评论对这些结果提出了质疑，引用了所谓的 ' 反事实 ' 任务的证据，其中标准的字母序列被任意改变，以减少与语言模型训练数据中可能存在的材料的相似性。在这里，我们回应这些批评，并澄清了关于我们原始工作中使用的测试材料的一些误解，并提供证据证明语言模型也能够推广到这些新的反事实任务变体。

Apr, 2024

打下基础先？研究原子技能对复杂推理任务的普遍化

目前的语言模型在基本推理方面已经展示了它们的能力，但在需要结合原子技能的更复杂的推理任务上却存在困难，比如需要算术和单位转换等技能的数学问题。本文首先提出了一个探测框架，以研究原子技能是否能自主泛化到复杂推理任务。然后，引入了分层课程学习训练策略来实现更好的技能泛化。在我们的实验中，我们发现原子技能无法自主泛化到组合任务。通过利用分层课程学习，我们成功诱导了泛化，在复杂推理任务上显著提高了开源语言模型的性能。有希望的是，这种技能的泛化在跨数据集和跨领域的场景中也是有效的。复杂推理也有助于增强原子技能。我们的研究结果为设计更好的复杂推理任务训练策略提供了有价值的指导。

Mar, 2024

oLMpics -- 关于语言模型预训练所捕获内容的研究

本研究提出了八项推理任务并设计了评估方案，发现不同的预训练语言模型在推理任务中表现出不同的能力。此外，还发现预训练模型的推理能力具有上下文限制。

Dec, 2019

知识图谱通识自监督的实证研究

本文旨在研究知识抽取技术对于不同规模和架构的语言模型训练的影响以及如何在各种下游 NLP 任务中进行有效的迁移学习。研究发现，在预训练中选取适当的知识可以显著提高语言模型的泛化性能，数据量越大效果越好，而平衡不同方面的抽样策略可以提高编码解码模型的性能。

May, 2022

通过推理实现可解释的刻板印象识别

在这项工作中，我们展示了推理在基于 Vicuna-13B-v1.3 的零样本刻板印象识别中的重要性，并且我们的发现表明，推理可能是使 LLMs 在超出领域任务（如刻板印象识别）上超越尺度定律的关键因素。此外，通过对选择性推理追踪的定性分析，我们突出了推理不仅提高了准确性，还提高了决策的可解释性。

Jul, 2023

当可以进行变形器基础和组合：来自组合泛化基准测试的见解

使用谷歌的翻译翻译：“该论文介绍了基于变压器的模型如何理解世界，并将语言表达与现实世界联系起来，这对研究者在这一领域的工作非常有帮助。通过在基于网格的导航任务上进行的基准测试，我们发现识别网格世界中的目标位置是模型面临的主要挑战，变压器可以泛化到更深的输入结构，并提供了一种更简单的基于调节的组合任务，以调查变压器的计算行为。

Oct, 2022

推理还是背诵？通过反事实任务探索语言模型的能力和限制

该研究旨在研究当前语言模型的抽象推理能力，提出一种基于 “反事实” 任务变体的评估框架，在一系列 11 项任务中观察到对反事实变体的表现，但表明当前语言模型的表现往往会严重且一致地降级，提示需要更加仔细地解释语言模型的表现。

Jul, 2023

基于模式引导的零 - shot 对话范式

通过显式地提供特定任务对话策略，提出了 Schema Attention Model (SAM) 和改进版 Schema 表示来解决零 - shot 迁移学习问题，在 Star 语料库上验证了 SAM 在零 - shot 模式下的显著改善，F1 值提高了 22 个点。

Jun, 2021