- ICLEval:评估大型语言模型的上下文学习能力
通过 ICLEval 基准测试,我们展示了不同大语言模型中 ICL 能力普遍存在,并且模型大小不是 ICL 功效的唯一决定因素。
- 多语言自然语言处理中的评估实践:机器翻译能否替代人工翻译?
对多语言语言模型进行评估,提出可靠的评估实践方向,通过机器翻译研究其在低资源语言上的性能,并发现简化的基准模型能够取得相对强的性能表现。
- AGALE: 图感知的持续学习评估框架
最近几年,连续学习技术在从流数据中保留知识的同时进行学习方面取得了重要的进展,但现有的评估框架不适用于具有图结构数据的情况。本研究提出了一个考虑图结构数据的图感知评估框架,解决了以往评估框架的局限性,并在连续学习、连续图学习和动态图学习领域 - 基于 LLM 的推荐系统环境
通过利用大型语言模型(LLMs)模拟人类行为,本研究提出了一个综合框架,用于训练基于强化学习(RL)的推荐系统,并提供了深入的消融研究,通过电影和书籍推荐实验证明了其有效性。
- 目标检测器的校准:陷阱、评估与基准
使用物体探测器需要进行校准,本研究针对最近的评估框架、评估指标和校准方法存在的问题进行了分析,并提出了一种基于准确度和校准性能同时评估物体探测器的原则性评估框架,以及为物体检测任务量身定制的高效且易于使用的校准方法。实验证明,相较于最近的训 - 医疗行业中评估大型语言模型应用的综合调研
综述探讨了在医疗保健领域中应用大型语言模型 (LLMs) 的广泛应用和必要的评估,强调了充分利用这些模型提升医疗保健结果的能力的关键验证需求。
- 大型语言模型是超人级化学家吗?
通过 ChemBench 等评估框架,我们发现大型语言模型在化学科学中展示出卓越的能力,但仍需进一步研究以提高其安全性和实用性。
- 超越概率:揭示大型语言模型评估中的不一致性
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。
- 多模式摘要的细粒度和可解释性事实评估
多模态概括旨在根据文本和图像生成简洁的摘要,但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性,我们提出了两个细粒度且可解释的评估框架(FALLACIOUS),用于不同的应用场景,即基于参考物的真实性评估框架和基于非参考物的真实性 - AttackEval:评估大型语言模型越狱攻击的有效性
我们采用两种不同的评估框架来评估 GPT-4 和 LLaMa2 等大型语言模型上越狱攻击的有效性,并开发了一个专门针对越狱任务的综合数据集,为当前研究提供了关键基准,并在未来的研究中建立了一个基础资源。通过与传统评估方法的仔细比较,我们发现 - 运用社会选择理论评估代理人
通过将任务视为单独的投票者,使用序数排名或成对比较来产生整体评估,我们认为许多一般的评估问题都可以通过投票理论来解决。通过将聚合器视为社会福利函数,我们能够利用社会选择理论的数百年研究成果,得出具有公理基础的原则性评估框架。我们应用这种 “ - TRECVID 2022 视频检索任务综述
介绍了 TREC 视频检索评估 (TRECVID) 的目标、历史、任务、数据集、评价框架和指标,以及 2022 年 Ad-hoc 视频搜索、视频文本字幕生成、灾难场景描述与索引、长视频中的活动、深度视频理解和电影摘要任务的高级结果概述。
- 针对对话推荐系统的合成数据集评估
本研究提出对生成模型产生的数据集进行多方面评估的框架,探讨了各种评估方法的优缺点
- 建筑中的可解释人工智能: 内容、环境、过程、结果评估框架
本文提出了一个内容、上下文、过程和结果评估框架,旨在帮助建筑公司理解可解释人工智能的采用和有效管理,为建筑业实现可解释人工智能的商业价值和好处提供了参考。
- ICCVe-ViL: 视觉语言任务中自然语言解释的数据集和基准测试
本研究介绍了 e-ViL 和 e-SNLI-VE 为可解释的视觉语言任务建立了一个统一的评估框架。该任务旨在生成自然语言解释,并涉及四个模型和三个数据集。研究人员还提出了一种新模型,该模型结合了 UNITER 和 GPT-2,对所有数据集的 - 排名中的公平性:综述
本文对过去几年来有关将公平性要求纳入算法排名器的工作进行了系统概述,提供了跨学科的算法形式化和方法连接的广阔视角,并针对公平性增强干预分类架构描述了四个分类框架,并讨论了公平排序评估数据集和技术工作。我们还讨论了公平分数排序和公平学习排序的