BriefGPT.xyz
Ask
alpha
关键词
noisy text
搜索结果 - 5
EMNLP
利用外部数据提高语音抄本的标点恢复能力
本文研究了针对嘈杂文本(如电话对话场景)的标点恢复问题,提出了一种基于 n-gram 语言模型的数据采样技术来采样更多类似于我们的领域数据的训练数据,并提出了一种基于 BERT 模型的两阶段微调方法,大量实验表明该方法的 F1 得分提高了
→
PDF
3 years ago
KDD
多源噪声模拟与难例挖掘用于文本分类的鲁棒性学习
本研究提出了一种新的训练框架,通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能,实验表明该框架大大提高了预训练模型的鲁棒性,可以在实际场景下极大地促进 NLP 模型的应用。
PDF
3 years ago
NTT 关于 WMT19 健壮性任务的机器翻译系统
本文介绍 NTT 的 WMT19 鲁棒性任务中的提交成果,并使用合成语料库、领域自适应和占位符机制等技术,大幅优于以前的基线。实验结果显示,占位符机制可以在翻译过程中临时替换包括表情符号等非标准标记,即使在处理带噪音的文本时也能提高翻译精度
→
PDF
5 years ago
ACL
利用合成噪音提高机器翻译的鲁棒性
本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒,提升其抗噪能力并部分缓解由此产生的精度损失。
PDF
5 years ago
EMNLP
MTNT:噪声文本机器翻译测试平台
本文提出了一个用于噪声文本机器翻译的基准数据集(MTNT),包括 Reddit 上的嘈杂评论和专业翻译。作者们通过定性和定量的方法检验了该数据集中所包含的各类噪声,并证明了现有机器翻译模型在应对各种噪声方面的表现不佳,这表明 MTNT 可以
→
PDF
6 years ago
Prev
Next