RankT5:使用排序损失对 T5 进行文本排序微调
通过对预训练序列到序列模型进行新的调整,使其能够用于文档排名任务,相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法,我们的方法在实验中展现出了更好的性能,并发现我们的方法在数据较少的情况下更能胜任。
Mar, 2020
该研究提出了一种面向结构预测问题的列表学习框架,通过直接对整个翻译列表进行建模,学习可以更好地适应给定列表样本的参数,并提出了更加敏感于排名错误的顶级增强列表损失函数。研究结果表明,该列表学习框架和顶级增强列表损失函数均可以显著提高翻译质量。
Jul, 2017
本研究探讨了数据生成文本任务中的预训练和微调策略,实验表明,以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术,如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力,此研究希望成为未来研究的有益基础,随着转移学习在数据生成文本任务中的广泛应用。
May, 2020
该研究提出了一个结合监督学习和无监督信号的框架,使用 T5Score 作为度量标准,对生成文本进行评估,并通过实验数据表明 T5Score 在各个数据集上均取得了最佳表现。
Dec, 2022
该研究针对资源较少的斯洛文尼亚语,训练了两个不同尺寸的 T5 类型序列到序列模型,并分析其在 11 个任务中的表现,结果显示 SloT5 模型在分类任务上大多落后于单语斯洛文尼亚 SloBERTa 模型,但在生成性任务上很有用。
Jul, 2022
提出使用预训练的 encoder-decoder 模型,通过 document to query generation 来进行重新排名,同时在推理时,将其分解为仅有 decoder 的语言模型以提高推理速度,实验结果表明该方法可以比传统的交叉注意模型快 6.8 倍,并且能取得相当的效果。
Apr, 2022
本文主要阐述了如何将 transformers 和 self-supervised pretraining 技术应用于文本排名问题,组成了两个高级别的现代技术,即在多阶段架构中进行 reranking 的 transformer 模型和直接进行排名的密集检索技术,并对处理长文档和处理效率和效果之间的平衡这两个主题进行了分析,同时也展望了研究的未来方向。
Oct, 2020
本文介绍了 mT5,这是 T5 的多语言变体,基于新的基于 Common Crawl 的数据集进行预训练,涵盖 101 种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零 - shot 设置中防止 “意外翻译”。
Oct, 2020
本论文提出了一个基于注意力机制的排序框架,旨在训练模型进行句子排序和辨别任务。该框架采用双向句子编码器和自注意力变换网络以获取与输入顺序无关的段落表示。同时,它能够使用各种基于排序的损失函数进行无缝训练,并在两个任务中应用。实验结果表明,该框架在多个评估指标上优于众多最先进的方法。同时,相对于点对排序损失函数,该框架在使用点对和列表排序损失函数时取得更好的结果,这表明将两个或多个句子的相对位置纳入损失函数有利于更好的学习。
Dec, 2019
引入了 IT5 模型,这是首个在意大利语上进行预训练的编码器 - 解码器 Transformer 模型家族,研究表明,它在大多数条件语言生成任务中表现出比其多语种对应物更好的性能。
Mar, 2022