Jun, 2024
HelloFresh: 在X社群笔记和维基百科编辑流中对真实世界人类编辑行为的LLM评估
HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial
Actions across X Community Notes and Wikipedia edits
TL;DR设计LLM基准测试是具有挑战性的,HelloFresh是一种基于实时数据生成的基准测试方法,可以解决测试数据污染和过拟合问题,并通过不断地生成新的评估数据来实现持续评估。