Apr, 2024

MultiParaDetox:利用平行数据扩展文本去毒处理到新的语言

TL;DR文本排毒是一种文本样式转换(TST)任务,其目的是将文本从有毒的表面形式(例如不礼貌的词语)转化为中性语言。本研究将ParaDetox管道扩展到多种语言,提出MultiParaDetox以自动收集潜在任何语言的平行排毒语料库,并通过实验展示平行语料库对获取任何语言的最先进文本排毒模型的巨大益处。