Apr, 2024

大型语言模型可靠的论点质量标注员吗?

TL;DR使用最新的大型语言模型作为论证质量评估的代理者,研究了模型、人类专家和新手评估者之间的一致性,结果表明大型语言模型在大多数质量维度上与人类专家之间具有适度高的一致性,并且使用大型语言模型作为额外的评估者可以显著提高评估者间的一致性,因此提出大型语言模型可以作为自动化论证质量评估的有价值工具,从而加快了大规模论证数据的评估过程。