BriefGPT.xyz
Ask
alpha
关键词
monolingual corpus
搜索结果 - 5
一个新的对齐的简单德语语料库
该研究介绍了一种名为‘Leichte Sprache’的德国简易语言,致力于使复杂的书面语言更易理解。研究团队通过自动化句子对齐,创建了一份包含多个文档源的新的德语单语语料库,并在参考手动标记的子集下评估了对齐的质量。评估结果表明,该方法的
→
PDF
2 years ago
L3Cube-MahaCorpus 和 MahaBERT:马拉提语单语语料库、马拉提 BERT 语言模型和资源
该研究介绍了 L3Cube-MahaCorpus,这是一个从不同互联网来源抓取的马拉提语单语数据集,它包含 24.8M 句子和 289M 个记号。该研究基于这个数据集训练了多个模型,如 MahaBERT、MahaAlBERT、MahaRoB
→
PDF
2 years ago
COLING
基于无监督机器翻译的改写生成
本文提出了一种将改写生成任务视为无监督机器翻译的新方法,通过将大规模无标签单语语料库拆分成多个簇并使用这些簇的对训练多个 UMT 模型,然后基于这些 UMT 模型生成的改写语句对,可以训练出一个统一的代理模型,用于生成改写句子,该方法避免了
→
PDF
3 years ago
ACL
减少先验知识、增加单语数据的自然语言代码生成
通过利用较大的单语语料库,本研究调查了一个基于通用 transformer 的 seq2seq 模型是否可以在最小限度的代码生成特定归纳偏差下实现与其他语言模型相当的性能,结果显示其在 Django 上实现了 81.03%的完全匹配准确性和
→
PDF
4 years ago
ACL
无监督的语句改写
该论文提出了一种从非标记的单语语料库中学习的重述模型,通过在重述识别,生成和训练增强方面与基于机器翻译的方法进行比较,发现单语重述在所有场景中均优于无监督翻译。
PDF
5 years ago
Prev
Next