NT5?! 训练 T5 进行数字推理
提出了一种新的推理感知预训练方法,使用对比学习将另一种数字表示形式纳入预训练模型,通过基于推理的数字预测任务训练来提高其数值推理能力,实验结果表明该方法在需要数值推理的任务上能够提高准确性,并且人类评估显示该方法能够提高数据集上的事实正确性。
May, 2022
通过在大量数据集上进行多任务训练,我们展示了数值推理可以注入到预训练的语言模型中,使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练,我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美,同时在数学单词问题数据集上保持高性能,这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。
Apr, 2020
本文研究了基于转换器的预训练语言模型应用数字理解方面的能力。作者使用文本到文本的转移学习模型 T5,并考虑了数字编码、大小排序、查找数列中的最小和最大值、排序等四个任务。结果表明,虽然 T5 在内插设置下表现良好,但在所有四个任务的外推设置下仍然存在较大难度。
Sep, 2021
本文提出了三个预训练任务,具体包括:变量完整性排名(Variable Integrity Ranking);变量操作符预测(Variable Operator Prediction);变量关键词屏蔽(Variable Keyphrase Masking)并应用这些任务对数字推理进行建模,结果表明这种方法比基于 Transformer 的模型胜出,对金融报表等表格和文本混合结构进行数字推理具有较高的效果。
May, 2023
本篇论文提出了一种基于预训练的 Transformer 模型 fine-tune 的方法,使之具备在对话语境中进行逻辑推理和回答问题的能力,而无需额外的训练数据集。研究结果表明,该模型在已训练属性上能够达到 90% 以上的精度,在适当的对话语境下能够提取出适当的限制条件传递给下游组件 (e.g. 知识库)。
Feb, 2022
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
介绍了基于 BERT 的阅读理解模型,可以通过简单的程序执行轻量级的数值推理,并在具有挑战性的 Discrete Reasoning Over Passages 数据集上,通过添加浅层程序,实现了 33%的绝对改进。模型可以在数学词问题环境中学习预测新的操作(Roy 和 Roth,2015)。
Aug, 2019
构建一个新的 QA benchmark (MultiHiertt),使用金融报告构建。包含多个表以及更长的非结构化文本,大部分表格是分层的;提供了复杂的数量推理的细粒度注释;提出了一个新的 QA 模型 MT2Net,它首先应用事实检索来提取相关事实,然后使用推理模块对检索到的事实进行符号推理。与现有基线相比,实验结果表明 MultiHiertt 对现有基线提出了严峻的挑战。
Jun, 2022
我们引入了一个新的英语阅读理解基准测试 DROP,它需要对段落内容进行离散推理。最佳系统仅在我们的广义准确性指标上实现 32.7%F1,而专家人类表现为 96.0%。
Mar, 2019