Oct, 2023

仅需演示:推进利用上下文学习进行攻击性内容转换

TL;DR转述冒犯内容是一种比删除内容更好的选择,有助于提高在交流环境中的文明性。本文利用大型语言模型中的上下文学习来发展可用的转述器,通过有限数量的输入 - 标签对指导模型生成特定查询的期望输出,研究了演示数量和顺序、排除提示指令以及降低有毒性等关键因素。研究表明,上下文学习在生成质量方面与监督方法相媲美,人工评估质量上优于监督方法 25%,并能够将有毒性降低 76%。此外,基于上下文学习的转述器即使仅使用 10% 的训练数据,性能下降也不大。