COLINGMar, 2024

人工对齐中的语言模型微调中的数据多样性扩展

TL;DR通过控制文本样本数量,本研究发现更多回复但更少提示比大量的提示更能触发语言模型与人类一致,此外,提出了提示多样性的新公式,并使用数据增强进行了实验证明其对不同算法的效果。