evaluation metric | BriefGPT

关键词evaluation metric

搜索结果 - 112

再思基于 LLM 的偏好评估
最近，使用大型语言模型（LLM）进行偏好评估已被广泛采用来比较模型回答的优劣。然而，观察到一种严重偏向较长回答的偏差，引发了对这种评估方法可靠性的关注。通过一系列实验，我们设计了这项工作，研究了 LLM-based 偏好评估指标的主要影响因
PDF3 days ago
ACLMPCODER：具有显式和隐式风格表示学习的多用户个性化代码生成器
利用 MPCoder（多用户个性化代码生成器）通过明确的代码风格残差学习和隐式风格学习，训练多用户风格适配器进行对比学习，从而实现多用户个性化代码生成，同时提出了一种用于估计不同代码风格之间相似性的新型评估指标。实验结果证明了我们方法在这一
PDF9 days ago
电子表格测评：迈向挑战现实世界电子表格操作
通过从在线 Excel 论坛收集的 912 个真实问题和相关表格构建的 SpreadsheetBench 测试数据集，我们介绍了一种挑战性的电子表格处理基准，旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠
PDF13 days ago
六 - CD：用于良性文本图像扩散模型概念去除的基准测试
通过引入新数据集 Six-CD 和新评估指标，我们对文本到图像扩散模型中的概念去除方法进行了细致评估，并提供了有价值的观察和讨论。
PDF13 days ago
从用户界面轨迹识别用户目标
介绍了从观察到的用户界面轨迹中抽取目标的任务，并提出了一种新的评估指标来评估特定用户界面环境下两个任务描述是否是释义关系。通过与用户界面自动化任务的逆关系，利用 Android-In-The-Wild 和 Mind2Web 数据集进行了实验
PDF14 days ago
层次指导分类法：大型语言模型的通用评估框架
通过引入层次化提示分类法及其规则以及自适应层次化提示框架，研究衡量大型语言模型在解决多样任务中的效果，进而发展一种用于评估数据集复杂性和语言模型能力的通用评价指标。
PDF16 days ago
WebCanvas：在线环境下对网络代理进行基准测试
WebCanvas 是一种创新的在线评估框架，用于有效解决 Web 交互的动态特性，包含评估指标、基准数据集和注释工具，并开源了可进行在线推理和评估的代理框架。
PDF16 days ago
KDDPATE：接近感知的时间序列异常评估
评估时间序列数据中的异常检测算法是至关重要的，因为不准确的检测可能导致各种实时分析和数据驱动策略中的错误决策。我们引入了 Proximity-Aware Time series anomaly Evaluation (PATE)，这是一种新
PDFa month ago
引导绝对梯度：梯度大小对解释定位和显著性的影响
本文提出了一种新的基于梯度的 XAI 方法，称为引导绝对梯度方法，用于显著图解释。我们利用正负梯度幅度，并采用梯度方差来区分噪声扣除的重要区域。我们还引入了一种名为 ReCover And Predict（RCAP）的新型评估指标，考虑到解
PDF2 months ago
ACL自然语言推理中错误多少是由于释义的变异导致的？
大型语言模型在对意义保持改写的输入作出回应时表现不一致。我们提出了一种度量自然语言推理模型改写一致性的评估指标，该指标基于模型在同一问题的两个改写上的正确性概率，并将其与改写相关的正确性变化的比例数学上相连。通过收集 ParaNLU 数据集
PDF3 months ago
SIGIR行为对齐：评估基于 LLM 的对话推荐系统的新视角
基于大型语言模型的对话式推荐系统在行为一致性方面存在差异，本研究提出了行为一致性评估指标 Behavior Alignment，该指标通过与人类推荐者进行对比能够更好地衡量系统性能，并且提出了一种基于分类的隐式测量方法来评估该指标的鲁棒性。
PDF3 months ago
PairEval：使用配对比较进行开放域对话评价
提出了一种基于对话响应之间的比较评估的对话评估度量方法 PairEval，该度量方法比基准度量方法更具鲁棒性，并且与人类判断的相关性更高。
PDF3 months ago
您的同事很重要：评估语言模型在 Blocks World 中的协作能力
通过设计一个块世界环境，在这个环境中，两个拥有独特目标和技能的语言代理需要通过行动和自然语言交流合作来建立一个目标结构，并采用中间推理步骤来模拟合作者的状态并识别和纠正执行错误，最终的实验结果表明语言代理具有很强的基础能力，并且我们的方法显
PDF3 months ago
上下文对聊天翻译评估是否有帮助？
通过对自动度量、机器翻译聊天等领域进行元评估，我们发现引用自由度量相较于引用依赖度量滞后，尤其在评估英文以外的翻译质量时。我们研究了如何将对话上下文信息融入度量中，并发现将上下文信息与神经学习度量相结合有助于提高自由度量在无参考情景下与人类
PDF4 months ago
ROUGE-K：您的摘要是否含有关键词？
我们提出了一种关键词取向的评估指标 ——ROUGE-K，该指标通过定量回答 “摘要中是否包含关键词” 这个问题来评估自动摘要模型是否包含有信息性的单词。通过这种关键词感知的度量方法，我们令人惊讶地发现，当前的一个强基准模型在摘要中常常会遗漏
PDF4 months ago
时间编织者：一种条件时间序列生成模型
基于异构元数据的时序生成，Time Weaver 模型通过利用分类、连续和时变变量显著提高时序生成，并创新性地提出了适用于时序领域的评估指标，证明在真实世界的能源、医疗、空气质量和交通数据集上，在下游分类任务中性能优于生成对抗网络（GANs
PDF4 months ago
ChatGPT4PCG 2 比赛：科学鸟类级别生成的提示工程
该研究论文介绍了 2024 年 IEEE 游戏会议上的第二届 ChatGPT4PCG 竞赛，它旨在推动和探索面向程序化内容生成的提示工程。通过引入多样性度量、允许提交 Python 程序以及改进评估流程等措施，该竞赛旨在解决第一届竞赛中的限
PDF4 months ago
数据有效学习：一项综合医学基准
我们的研究论文针对数据有效学习在医学领域的研究空白，引入了一种全面的基准，用于评估医学领域中的数据有效学习。该基准包括来自 31 个医疗中心的数百万数据样本的数据集（DataDEL），用于对比的基线方法（MedDEL），以及客观衡量数据有效
PDF5 months ago
SeMaScore：一种用于自动语音识别任务的新评估指标
本研究提出了 SeMaScore，它使用基于片段的映射和评分算法生成，并作为自动语音识别任务的评估指标。SeMaScore 利用错误率和更稳健的相似性得分，实验证明我们算法的评分生成优于现有的 BERTscore。我们的实验结果显示 SeM
PDF6 months ago
大型语言模型的面向对象编程评估基准
推动自动化编程需要强大和全面的代码生成基准，然而当前的评估框架在功能编程 (FP) 方面相对而言忽视了面向对象编程 (OOP)，本研究引入了一个面向对象编程的开创性基准，包含了 431 个涵盖关键的 OOP 概念和特性的 Python 程序
PDF6 months ago