BriefGPT.xyz
Ask
alpha
关键词
paracrawl
搜索结果 - 2
EMNLP
利用句子顺序进行文档对齐
该研究提出了一种简单的文档对齐方法,该方法在候选生成和候选重新打分中都利用了句子顺序信息,并相对于 WMT16 文档对齐任务的最佳结果减少了 61%的错误。该方法提高了从 ParaCrawl 的网页抓取的僧伽罗语 - 英语文档的下游机器翻译
→
PDF
4 years ago
噪声平行语料的双重条件交叉熵滤波
通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数,对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集,该方法在去噪过程中实现了更高 BLEU 得分,并在 WMT2018 共
→
PDF
6 years ago
Prev
Next