evaluation strategies | BriefGPT

关键词evaluation strategies

搜索结果 - 19

（或许）超越人类翻译：利用多智体协作翻译超长文学文本
近期机器翻译 (MT) 的进展在各个领域极大地提高了翻译品质，但是由于文学作品的复杂语言、比喻表达和文化内涵，对文学文本的翻译仍然是一个巨大挑战。本文介绍了一个基于大型语言模型 (LLMs) 的新型多智能体框架，名为 TransAgents
PDFa month ago
揭示蛋白质相互作用基准中的数据泄漏
分析了蛋白质相互作用数据集中常见的数据泄漏问题并提出了构建基于蛋白质相互作用界面的结构相似性的数据集划分方法。
PDF3 months ago
逐帧解析：理解视频扩散模型中的复制
通过对视频扩散模型的研究，我们系统调查了样本复制现象，分析了最近的视频合成扩散模型在无条件和有条件生成情景下对空间和时间内容的复制倾向，并提出了减少复制的策略和考虑复制问题的新评估策略。
PDF3 months ago
Counting-Stars: 评估长上下文大语言模型的简单、高效和合理策略
近期的研究工作集中在开发具有强大的长上下文能力的大型语言模型（LLMs），由于缺乏适当的评估策略，对于领先的 LLMs（例如 ChatGPT 和 KimiChat）的长上下文处理能力和性能了解甚少。为了填补这一空白，我们提出了一种简单、高效
PDF4 months ago
使用非结构化事实更新语言模型：实现实用的知识编辑
知识编辑目标是将知识更新注入语言模型中以保持其正确性和最新性。然而，当前的评估策略明显不实用：它们仅以精心策划的结构化事实（包含主语、关系和宾语的三元组）进行更新，而真实世界的知识更新通常出现在无结构的文本中，如新闻文章。本文提出一个新的基
PDF4 months ago
LLM 指导调优的数据选择调查
通过介绍使用的指导数据集，提出了数据选择方法的新分类，并详细介绍了最近的研究进展、评估策略和结果，强调了这一任务的挑战和新的前沿。
PDF5 months ago
基于概念的可解释人工智能综述
通过对 C-XAI 方法进行 thorough review，本文提供了分类体系、选择指南和常见评估策略，旨在促进可解释人工智能领域的发展。
PDF6 months ago
连续监测中使用可穿戴设备评估机器学习模型的再考虑
利用可穿戴设备进行连续健康监测的机器学习模型评估面临的挑战以及从大规模心脏研究中提供的全面指南。
PDF7 months ago
文本分类：深度学习方法的视角
本文介绍基于深度学习的文本分类算法，包括文本分类任务所需的重要步骤，如特征提取、特征降维和评估策略与方法，并对不同的深度学习文本分类方法进行比较和总结。
PDF9 months ago
基于大型语言模型的自主代理的调查
通过对基于大语言模型的自主代理的综合调查，本文提出了一个统一框架来概括以往研究，并总结了在社会科学、自然科学和工程领域中应用大语言模型的人工智能代理的各种应用及评估策略。同时，我们还讨论了该领域的挑战和未来方向。
PDF10 months ago
对话代理 101：设计高效对话系统的关键要素初学者指南
本研究提供了关于对话代理的主要特征、支持任务、相应的开放领域数据集以及用于基准测试这些数据集的方法的详细综述，强调了构建对话代理的关键因素，并提出了用于在不同任务之间建立统一基础模型的 UNIT 模型，本文作者还审查了用于测量对话代理绩效的
PDFa year ago
构建 Android 恶意软件检测的机器学习流水线：实践、挑战和机会的程序化调查
本文通过 42 篇高引用的文献回顾了过去十年间对针对安卓设备恶意应用检测的机器学习方法的研究，介绍了一个新的程序分类法以及对其评估和解释策略所做的工作，并指出现有知识中的缺陷和未来的研究方向。
PDFa year ago
MRI 中回顾性运动校正的深度学习：综述
本文综述了深度学习在核磁共振成像中运动校正方面的研究现状，讨论了不同方法及其面临的挑战和潜力，并探讨了未来方向以促进不同应用领域和研究领域之间的互动。
PDFa year ago
SIGIR当新不如旧：深度学习是否真正有益于从隐式反馈中进行推荐？
通过对 13 种流行的推荐模型进行大规模实验，首次提出了一组评估策略来比较神经模型和传统模型在推荐系统的表现，发现在不同方面神经模型都不一定优于传统模型，并且在子群体方面表现更优。
PDFa year ago
共情式对话系统：现有进展、差距和机遇综述
本研究通过五个评估维度研究人们在对话系统中尝试引入共情时所存在的关键点和未来机会，发现用户建模和对用户情感的检测和鉴别是需要进一步研究的核心问题；同时，处理多模式输入，显示更细腻的共情行为，以及包括其他对话系统特征也是需要关注的问题。
PDF2 years ago
IJCAI可解释推荐评估的综合调查：从 “为什么” 角度衡量推荐系统
本文综述了可解释推荐的评估策略，提出了按照评估方法和角度进行分类的不同分类方法，并分析了现有评估方法的（不）优点并提供了选取它们的一系列指南，并根据来自 IJCAI，AAAI，TheWebConf，Recsys，UMAP 和 IUI 等顶尖
PDF2 years ago
ICML属性归因方法一致高效的评估策略
本文提出了一种新的本地特征归因方法评估框架 Remove and Debias (ROAD)，该框架通过减少信息泄漏和消除计算昂贵的重新训练步骤，为不同的归因技术提供高一致性的评估。
PDF2 years ago
文档级神经机器翻译：方法与评估调查
这篇综述论文旨在总结文档级机器翻译的最新研究进展，重点讨论了神经网络模型、训练策略、评估指标等方面的创新，为该领域的研究者提供状态认知和未来方向。
PDF5 years ago
图神经网络评估的陷阱
本文探讨了现有的 Graph Neural Networks（GNN）模型评估策略的局限性，通过对四个知名 GNN 模型进行彻底的实证评估，发现只有在公平的条件下比较各种模型的性能才是合理的，简单的 GNN 架构通过超参数和训练程序的公平调
PDF6 years ago