evaluation process | BriefGPT

关键词evaluation process

搜索结果 - 11

τ-bench：一种真实世界领域中工具 - 代理人 - 用户交互的基准
现有的基准测试无法测试语言代理与人类用户的交互或遵循特定领域规则的能力，我们提出了 $ au$-bench，这是一个基准测试，模拟了语言模型模拟的用户与具备特定领域 API 工具和策略指南的语言代理之间的动态对话。我们采用了高效且忠实的评估
PDF19 days ago
A-Bench: LMM 在评估 AI 生成图像方面的能力
如何准确高效地评估人工智能生成的图像（AIGIs）仍然是生成模型面临的重大挑战。为了避免用户研究时高昂的成本和广泛的时间投入，许多研究人员已转向大型多模型模型（LMMs）作为 AIGI 评估器，其精确性和有效性仍然存疑。此外，传统的基准测试
PDFa month ago
整体评估指标：用于联邦学习的案例敏感评估指标
综合评估指标（HEM index）通过集成多个度量组件和各自的重要向量来全面评估和确定最适合特定场景的联邦学习算法。
PDF2 months ago
模仿学习数据集：创建数据集、训练智能体和基准测试的工具包
通过创建模仿学习数据集，解决模仿学习领域中的专家数据、数据集创建和评估过程方面的问题。
PDF4 months ago
TreeEval：通过树规划实现大型语言模型的无需基准测试评估
通过树评估方法 (TreeEval) 对不同参数规模的 LLM 进行评估，避免了数据泄漏问题，并使用约 45 个问题与 AlpacaEval2.0 实现了最高的相关系数。
PDF5 months ago
单 GPU GNN 系统：陷阱与注意事项
目前的图神经网络系统在不显示训练准确率结果的同时，直接或间接地依赖较小的数据集进行评估，这导致系统设计和评估过程中存在许多陷阱，质疑了许多已提出的系统优化的实用性及其结论和经验教训，我们对许多单 GPU 系统进行了分析，展示了这些陷阱的基本
PDF5 months ago
AgentBoard: 多轮 LLM 代理人的分析评估板
为了评估大型语言模型的能力并加快其实际应用，我们引入了 AgentBoard，一个综合性的基准测试评估框架，它不仅提供了对模型能力的深入理解，还促进了其性能的可解释性。
PDF5 months ago
ChatEval：基于多智能体辩论的 LLM 评估器改进
通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估
PDFa year ago
财务虚假陈述检测：实际评估
本文提出并综述了财务报表中错误检测的评估流程，并提出了基于时间和错误检测等实际因素的新型评估方法，分析不同模型和特征类型在其下的表现。
PDFa year ago
手术阶段识别中指标的重要性
本文概述了自动手术阶段识别方法的评估过程中常见的偏差和对先前报告的结果进行了结构化的概述，以考虑评估协议的差异，并提出更加注重评估细节可能有助于在手术阶段识别任务上获得更一致和可比较的结果，并最终实现对该领域进展的可靠结论及其在临床实践中的
PDFa year ago
通过扩充 - wise 重叠改进自动扩充
本文提出了一个基于 Augmentation-Wise Weight Sharing 的快速高效的代理任务，用于替代繁琐的全模型训练和验证，来评估自动数据扩增方法的性能。实验证明，该方法在效果和效率方面都具有很大优势，结果表明相较于现有的自
PDF4 years ago