重新思考多跳问答中的标签平滑
本文提出了一个多跳问题回答(Multi-Hop QA)的具体与形式化定义,并对现有的 Multi-Hop QA 框架进行了组织和总结,同时介绍了创建多跳问题回答数据集的最佳方法,以系统全面地介绍这个有趣而具有挑战性的任务。
Apr, 2022
使用多任务学习和强化学习的方法,通过支持事实的多次跳转生成相关问题,相比于单次跳转模型,我们的模型在 HotPotQA 数据集上表现更好(同时在自动评估指标如 BLEU、METEOR 和 ROUGE 以及人工评估指标中都有着更高的质量和覆盖率)。
Apr, 2020
通过使用软分布,可以提高多类神经网络的泛化性能和学习速度。基于标签平滑的网络不会变得过于自信,而且可以显著提高模型的校准性。但是,如果使用了平滑标签,知识蒸馏的效果就会减弱。标签平滑可通过训练样本的表示,将同一类别的相同样本聚为紧密的簇,这样就导致了这些实例之间的信息损失。
Jun, 2019
提出一种基于模型概率分布的标签平滑正则化方法,使每个样本的平滑程度都不同,从而在训练期间动态自我调整平滑程度,有效提高模型的泛化和校准性能。
Oct, 2022
我们提出了一种新颖的问题校准和多跳建模(QC-MHM)方法,通过融合知识图谱中的问题和时间约束概念来校准问题表示,并借助图神经网络层完成多跳消息传递,最终将问题表示与图神经网络的嵌入输出相结合以生成最终预测。实证结果验证了所提模型在基准数据集上优于现有模型的性能,尤其是在 CronQuestions 数据集的复杂问题上,QC-MHM 的 Hits@1 和 Hits@10 结果较最佳基准模型分别提高了 5.1% 和 1.2%,此外,QC-MHM 能够生成可解释且可信的预测。
Feb, 2024
本研究提出了一种新的机制 Masked Label Smoothing(MLS),该机制有效地解决了标签平滑与词汇共享之间的矛盾,能够在不同数据集上提高神经机器翻译模型的翻译质量和模型校准性能。
Mar, 2022
利用修改的 HotpotQA 数据集为基础,我们引入了第一个基于新的无与伦比的知识的 LLM 多跳问答评估基准,并注释和评估了形式为子问题和中间答案的推理链,以此促进对 LLM 在多跳问答任务上的可信评估的发展。
Feb, 2024
本文提出了一种针对 seq2seq 问题的标签平滑技术,能够克服大量输出的难题,通过充分的 n-gram 重叠和语义相似性,取得了明显的效果提升,并且在不同的数据集上超越了现有技术的最佳水平。
Oct, 2020
本论文提出了 MQA-QG 框架,利用同质和异质数据源生成类人问答对数据,从而实现集成式自监督多跳 QA 模型训练,实验结果表明仅利用生成的数据即可训练出在 HybridQA 和 HotpotQA 数据集上分别达到监督学习性能 61% 和 83% 的多跳 QA 系统,同时利用生成数据进行预训练可以大大减少人工标注训练数据的需求。
Oct, 2020
本文研究标签平滑的结构化方法,通过对训练数据中真实标签进行软化处理,有助于避免过度自信的输出,提高神经网络泛化能力的同时,兼顾不同训练数据的特性,为机器学习领域中的正则化技术提供了一种有效的手段。实验结果表明,该方法在合成与各类真实数据集中均取得了较好的性能表现。
Jan, 2020