BriefGPT.xyz
Ask
alpha
关键词
synthetic corpus
搜索结果 - 4
ACL
零样本数据到文本生成的神经管线
本文利用预处理语言模型进行通用领域训练,使用由维基百科构建的 WikiFluent 数据集,在 WebNLG 和 E2E 数据集上进行实验证明,使用单个项目描述生成 D2T 是可行的,且可以从 RDF 三元组中完成零 - shot D2T
→
PDF
2 years ago
ICLR
TAPEX: 通过学习神经 SQL 执行器进行表格预训练
本文提出了 TAPEX,利用合成语料库学习神经 SQL 执行器来解决表格预训练中数据稀缺的挑战,并在四个基准数据集上实现了新的最先进结果。
PDF
3 years ago
NTT 关于 WMT19 健壮性任务的机器翻译系统
本文介绍 NTT 的 WMT19 鲁棒性任务中的提交成果,并使用合成语料库、领域自适应和占位符机制等技术,大幅优于以前的基线。实验结果显示,占位符机制可以在翻译过程中临时替换包括表情符号等非标准标记,即使在处理带噪音的文本时也能提高翻译精度
→
PDF
5 years ago
eSCAPE:用于自动后期编辑的大规模合成语料库
该论文介绍了 eSCAPE,这是目前最大的免费合成语料库,为机器翻译的自动后编辑训练模型提供了大量数据,并使用模型在通用领域方案中实验证明了其有效性。
PDF
6 years ago
Prev
Next