May, 2024

PHUDGE: Phi-3 作为可扩展的评判者

TL;DR通过使用PHUDGE调优的Phi3模型,在反馈测试、反馈OOD、MT Human和Preference Test等四项任务中取得了最先进的结果,大大超越了现有模型在延迟和吞吐量方面。研究还表明,与GPT4和人类注释者相比,这个模型在未见过的数据和绝对相对定级任务中都表现出非常强的相关性。