BriefGPT.xyz
Ask
alpha
关键词
user-llm interactions
搜索结果 - 1
HaluEval-Wild: 评估野外语言模型的幻觉
为了评估大规模语言模型 (LLMs) 在动态的现实世界环境中产生幻觉的能力,我们引入了 HalEval-Wild,这是一个特别设计的评估幻觉的基准测试。通过收集现有的用户 - LLM 交互数据集中具有挑战性的用户查询,并使用强大的 GPT-
→
PDF
4 months ago
Prev
Next