用于事实探索的测试时增强

EMNLPOct, 2023

Test-time Augmentation for Factual Probing

Go Kamoda, Benjamin Heinzerling, Keisuke Sakaguchi, Kentaro Inui

TL;DR使用测试时增强作为一种关系不可知方法，通过在测试时自动增强和集成提示，来减少对提示变化的敏感性，实验结果显示了改进的模型校准性，即使用测试时增强，模型的置信度更好地反映了预测的准确性。

Abstract

factual probing is a method that uses prompts to test if a language model "knows" certain world knowledge facts. A problem in factual probing is that small changes to the prompt can lead to large changes in model

factual probing prompt variations test-time augmentation model calibration prediction accuracy

发现论文，激发创造

通过测试时间增强来改进文本分类

本文提出了一种改进的测试时间增强技术并设计出相应的增强策略，结果表明用于语言模型上的测试时间增强可以显著提高模型的准确性。

Jun, 2022

理解测试时数据增强

利用数据增强在测试期间产生平均输出的测试时间增强（TTA）是一种非常强大的启发式算法，本文旨在为 TTA 提供理论保证并澄清其行为。

Feb, 2024

事实探究是什么：学习 vs 学习回想

本文主要介绍了使用 cloze-style prompts 和 OptiPrompt 等方式，旨在通过预训练语言模型来检索世界事实，并使用 fact prediction 等方式来确定模型预测准确性，并考虑这些 probing 结果是否被解释为下界，而不是固化自己的 prompt 方法从训练数据中获得的信息。

Apr, 2021

利用上下文重写提高黑盒稳健性

机器学习模型在数据内部（ID）上表现出色，但在未见过的数据外部（OOD）输入上存在困难。本研究提出了一种名为 LLM-TTA 的技术，通过基于 LLM 生成的增强方法来改善 BERT 和 T5 模型在情感、毒性和新闻分类任务上的 OOD 鲁棒性，同时减少了生成的增强数量。该技术不受任务模型结构限制，无需 OOD 标签，在低资源和高资源环境下都有效。

Feb, 2024

旅行推销员问题的测试时间增强

通过测试时间增强（TTA）作为一种有效的技术，我们提出了解决组合优化问题，包括旅行推销员问题。与学习图结构的已提出的具有不变性特性的深度学习模型不同，我们将节点索引的排列解释为一种 TTA 方案。结果表明，我们的方法能够获得比最新模型更短的解决方案。此外，我们展示了找到接近精确解的解决方案的概率随增强尺寸的增加而增加。

May, 2024

扰动一致性学习下的测试时自适应

本文介绍了一种名为 PCL 的简单的测试时间自适应方法，用于解决分布转移问题和提高预测的稳定性。实验结果表明，与强大的 PLM 骨干和先前的 TTA 方法相比，该方法能够在更短的推理时间内实现更高或可比较的性能。

Apr, 2023

追溯语言模型中的事实知识来源于训练数据

本研究探讨了语言模型（LM）如何从训练数据中记忆大量的事实知识，同时提出了事实追溯的问题。为了解决该问题，比较了基于梯度和嵌入的两种不同的训练数据指向（TDA）方法，并发现仍有很大的改进空间。

May, 2022

提升开放世界转换中声学基础模型的测试时适应能力

本论文研究了面对开放世界数据变化的预训练声学模型的测试时间适应方法，通过引入无启发式、基于学习的自适应方法并结合置信度提升以及在测试时间优化中应用一致性规范化，证明了该方法在合成和真实数据集上的优越性。

Oct, 2023

视觉 - 语言模型中零 - shot 泛化的测试时提示调整

本文提出一种叫做测试时提示调整 (TPT) 的方法，可在单个测试样本上实时学习适应性提示，优化提前提供的 CLIP 模型动态调整提示，以最小化模型预测时的不确定度，提高 CLIP 模型的泛化能力。实验结果表明，TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6％，并达到了使用额外培训数据的最新先进方法的性能水平。

Sep, 2022

C-TPT：基于文本特征离散度的视觉 - 语言模型校准测试时提示调整

通过观察我们发现，测试时间提示选择显著影响 CLIP 的校准，其中导致更高的文本特征分散的提示导致更好校准的预测。介绍了平均文本特征分散（ATFD），建立了它与校准误差的关系，并提出了一种新的方法，即校准的测试时间提示调整（C-TPT），以增强校准能力。通过对不同的 CLIP 架构和数据集进行广泛实验，我们显示 C-TPT 可以有效地提高测试时间提示调整的校准能力，而无需标记的数据。

Mar, 2024