关键词benchmarking experiments
搜索结果 - 3
- 多视图自编码器教程
本篇论文针对多模态建模提出了一个统一的数学框架,同时扩展了 exttt {multi-view-AE} 库的文档和功能,通过基准实验评估实现的性能,并作为该领域的教育资源,旨在建立多模态建模的一致基础。
- 用于离线组合强化学习的机器人操作数据集
本研究提供了四个来自 CompoSuite 的离线强化学习数据集,用于解决机器人操作的组合任务,评估表明组合方法比非组合方法优越,但当前方法仍无法提取任务的组合结构以推广到看不见的任务,需要进一步研究。
- MedGPTEval: 一份用于评估大型医学语言模型响应的数据集和基准测试
通过对 LLMs 进行基于交互式医疗对话的实验评估,设计了一套涵盖医疗专业能力、社会综合能力、语境能力和计算机稳健性等方面的 16 个指标的评价标准,并针对这些标准选取了 ChatGPT, ERNIE Bot 和 Doctor PuJian