Jun, 2024

Luna: 评估基础模型以高准确度和低成本捕捉语言模型幻觉

TL;DRLuna 是一个针对 Retriever Augmented Generation 的幻觉检测的 DeBERTA-large(440M)编码器,通过在各个行业领域中的轻量级建模和广义化的多领域数据上的优良表现,实现了较低的成本和延迟以及优于 GPT-3.5 和商业评估框架的 97% 和 96% 的幻觉检测准确度。