Sep, 2024
基于排名而非评分:朝着可靠和稳健的自动评估LLM生成的医学解释性论证
Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation
of LLM-Generated Medical Explanatory Arguments
Iker De la Iglesia, Iakes Goenaga, Johanna Ramirez-Romero, Jose Maria Villa-Gonzalez, Josu Goikoetxea...
TL;DR本研究解决了在医学领域评估LLM生成文本的关键挑战,通过引入基于代理任务和排名的新评估方法,减少了典型评判中存在的偏见。最重要的发现是,该方法在抵御对抗性攻击方面表现出稳健性,只需最少的训练样本,能有效判断代理任务是否适合评估医学解释性论证。