关键词automated evaluation
搜索结果 - 29
- ACLFineSurE: 利用 LLMs 进行细粒度总结评估PDF3 days ago
- DreamBench++:个性化图像生成的人工智能基准测试PDF10 days ago
- SIGIR评估 RAG-Fusion 与 RAGElo:自动基于 Elo 的框架PDF14 days ago
- 走向客观和可解释的语音障碍评估:基于 CNN 和 Transformer 的模型的比较分析PDFa month ago
- WildBench:基于真实用户的挑战性任务对 LLMs 进行基准测试PDFa month ago
- 自动问卷可用性评估工具PDFa month ago
- 开源语言模型的反馈能力评估:利用 GPT-4 作为评委帮助学生的能力PDF2 months ago
- 通过最大差异竞争实现对大型语言模型的高效人工评估PDF3 months ago
- Erato: 自动化诗歌评估PDF8 months ago
- 软件元数据的生成型人工智能:FIRE 2023 软件工程信息检索赛道综述PDF8 months ago
- DeepVox 和 SAVE-CT:一种对比度和剂量无关的三维深度学习方法,用于胸部主动脉分割和动脉瘤预测的计算机断层扫描PDF8 months ago
- 使用大型语言模型进行任务导向对话评估的用户模拟PDF9 months ago
- FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架PDF10 months ago
- 使用语义角色标注评估文本的事实一致性PDFa year ago
- 使用大语言模型重新审视自动主题模型评估PDFa year ago
- 潜力穿透性传球 (P3)PDFa year ago
- ACLHaRiM$^+$:使用幻觉风险评估摘要质量PDF2 years ago
- EMNLP神经主题模型失效了吗?PDF2 years ago
- 学生论证写作的自动评价:一项调查PDF2 years ago
- 面向基于文本的咨询的自动实时评估PDF2 years ago
Prev