本文挑战传统的生成建模方法,提出较好的判别式方法,实验结果表明,该方法在自然语言处理任务上具有更好的性能,无需复杂的提示即可获得最新的状态 - 良好的零 - shot 结果
Nov, 2022
本文介绍了一种通过使用预测置信度和难度分数来校准模型的概率估计方法,并基于此方法进行了自然语言推理和重复检测任务的实验,结果表明我们的校准器在 NLI 和 DD 任务中分别提高了 15.81%和 6.19%的准确率。
Aug, 2020
本研究提出了两个方法来改进自然语言处理任务的性能预测:其一是对准确度进行细致的分类表现分析,其二是从置信区间和校准性两个角度理解性能预测模型的可靠性。通过对四类不同的任务分析论证了细致表现预测的必要性,同时说明性能预测方法在未来需要进行可靠性分析,我们公开了代码。
Feb, 2021
通过提出一种简单易实现、产生直观可解释输出的神经网络置信度学习方法,我们成功地实现了对神经网络预测错误的检测以及超出安全执行区域的检测,在该任务中表现优异,并在不需要额外标签或进入区别于正常数据集之外的样本的情况下超过了最近提出的指标构建方法。此外,我们还解决了置信度检测器校准问题,即我们证明被错误分类为正常数据集的正常样本是超出安全执行区域的样本的良好替代品。
Feb, 2018
本研究提出了一种新的方法,使用目标域语言模型作为辨别器,为生成模型提供更丰富和更稳定的令牌级反馈,以便用于二进制分类器在 GAN-based 无监督风格转换系统中。该模型可使用从生成模型下的连续近似离散采样而训练,且相较于以前使用卷积神经网络(CNN)作为辨别器的先前工作,我们的方法在单词替换解密、情感修改和相关语言翻译三项任务上表现出了更好的性能,同时可以省略训练期间的对抗步骤,使过程更加稳定。
May, 2018
本文提出了一种使用回归模型来预测 NLP 实验评估分数的方法,并证明了这种方法可以有效地预测 NLP 实验结果。同时,作者还提出这种方法可以用来确定实验的子集,以获得对所有实验设置的合理预测。
May, 2020
为了实现最先进的性能,我们提出了使用少量干净实例的指导来去噪 NER 数据的方法,通过训练鉴别模型并使用其输出来重新校准样本权重,能够改善性能并在众包和远程监督数据集上保持一致的结果。
Oct, 2023
本文介绍了一种名为置信度正则化的新型去偏方法,旨在提高自然语言理解任务模型对于越界数据的表现,同时保持对内界数据的准确度。实验表明,与之前的方法相比,该方法在提高模型对越界数据的表现方面具有更好的效果。
提出了一种新的 NLP 注释范例,通过创建对照集,意在消除测试数据中的系统性差距,从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。
Apr, 2020
本研究探讨预测模型在医疗健康领域中的应用,特别是自监督模式下标记数据的超拟合问题,发现高斯过程能够以较高的预测准确性评估指标和平均最大预测置信水平,对 3 种不确定性标签进行风险评估并保持强大的预测力。
May, 2022