Feb, 2024

反思有监督微调的数据选择

TL;DR通过选择具有长回应的实例,我们重新考虑了监督微调的数据选择直觉,提出了关于反映人类交互而非数据质量或多样性的关键示范的重要性,这种简单的启发式方法暗含了人性化对话的一个关键方面。