BriefGPT.xyz
大模型
Ask
alpha
关键词
parallel corpus mining
搜索结果 - 3
双语语料库挖掘和多阶段微调以提升讲座文稿机器翻译
展示了一种利用公开的课程资料进行平行语料挖掘的框架,通过动态规划的句子对齐算法和机器翻译相似度,达到了 96% 的句子对齐 F1 分数,并通过机器翻译实验证明,挖掘到的语料能提高课程讲稿翻译的质量。
PDF
8 months ago
ACL
用于零样本跨语言传递和更多应用的大规模多语句向量化技术
该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构,其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语
→
PDF
6 years ago
使用双语句子嵌入的有效并行语料库挖掘
该研究提出了一种有效的并行语料库挖掘方法,使用双语句子嵌入进行训练,通过引入硬负例来实现。该方法是基于语义相似度的,结果表明该方法可以用于重建平行文本,从而训练出 NMT 模型,与使用原始数据训练的模型相差不大。
PDF
6 years ago
Prev
Next