Oct, 2023

质量优于数量:基于基础模型生成的封闭领域抽取式问答的合成数据集

TL;DR通过针对特定主题和写作风格生成相关数据进行预先训练,我们提出了一种以萃取式问答为目标的领域适应框架,利用 Galactica 生成与特定写作风格和主题相符的合成语料库,并在 COVID-QA 和 RadQA 两个生物医学萃取式问答数据集上取得了最新成果和整体改进。