Jun, 2024

HelloFresh: 在X社群笔记和维基百科编辑流中对真实世界人类编辑行为的LLM评估

TL;DR设计LLM基准测试是具有挑战性的,HelloFresh是一种基于实时数据生成的基准测试方法,可以解决测试数据污染和过拟合问题,并通过不断地生成新的评估数据来实现持续评估。