Nov, 2023

OpusCleaner 和 OpusTrainer,用于训练机器翻译和大型语言模型的开源工具包

TL;DR通过 OpusCleaner 和 OpusTrainer 工具,简化机器翻译系统的开发过程,降低工作量并降低新手的门槛。这些工具能够下载、清洗和预处理来自不同来源的双语(或单语)数据,并通过数据调度和数据增强构建大规模、可靠的机器翻译系统和语言模型。