有限数据下数据增强对前缀调校的有效性
本文研究评估了三种不同的微调方法在七种不同的自然语言处理任务中的效果,结果表明数据增强可以有效提高微调后的模型性能,特别是在少样本学习任务中,持续的预训练可以将性能提高 10% 以上。
Jun, 2023
本研究利用丰富的标签语义信息提出了一种新颖的标签引导数据增强框架 PromptDA,通过有效地利用标签语义和数据增强来提高自然语言理解的性能,以解决如何为基于 Prompt 的 few-shot 调整设计有效的数据增强方法的重要研究问题。
May, 2022
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
本文提出字首调整 (prefix-tuning),来解决专用模型使用全量预训练语言模型的空间问题,自动学习小、定制化的向量。通过应用于自然语言生成和文本总结,仅使用 0.1% 的参数即能达到很好的性能。
Jan, 2021
本研究通过实验证明,相较于 fine-tuning 方法,prefix tuning 在面对嘈杂数据时更脆弱,会导致性能下降,特别是在噪声水平增加的数据集中,此外,prefix tuning 在许多污染方法中的 F1 得分方差比 fine-tuning 高,因此在使用这种方法处理嘈杂的数据时应谨慎。
Oct, 2022
本研究聚焦于前缀调整 fine-tuning 技术,并提出了自适应前缀调整(APT)方法,结合门控机制实现对细粒度和粗粒度级别的前缀优化,实证实现了在 SuperGLUE 和 NER 数据集上的有效性和效率验证。
May, 2023
本文提出了通过核方法理解 prefix-tuning,并将其发展为 inducer-tuning 来提高其性能,通过自然语言理解和生成任务的综合实验,证明了 inducer-tuning 可以缩小 prefix-tuning 和 fine-tuning 之间的性能差距。
Oct, 2022
本文研究如何使用计算资源相对较小的方法,结合反事实数据增强技术(CDA)来减少预先训练的语言模型中的偏见,发现参数有效的方法能够有效地减少性别偏见,但对于种族和宗教偏见效果较差,且与全细调的性能相当。
Jun, 2023
本文提出了一种基于对比学习框架的预训练语言模型微调方法,通过硬样本挖掘和使用不同 iable 的数据扩增技术,达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明,该方法在半监督和监督学习设置下都优于现有对比学习方法,并且对标注数据更加高效。
Oct, 2022
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023