evaluation techniques | BriefGPT

关键词evaluation techniques

搜索结果 - 15

利用动态激活组合对大型语言模型进行多属性调控
本研究评估了不同的激活导向策略，并提出了动态激活组合方法，以确保在生成过程中实现高度的条件控制同时最小化对生成流畅性的影响。
PDF9 days ago
提升 LLMs 的信任度：比较和解释 LLMs 的算法
评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。
PDFa month ago
JailbreakBench：大型语言模型越狱鲁棒性评估基准
JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challe
PDF3 months ago
DyVal 2：通过元探测代理动态评估大型语言模型
通过元探测代理 (MPA) 和心理测量学为大型语言模型 (LLM) 设计的动态评估协议，我们对 LLMs 进行了细致的评估并发现大多数 LLMs 的性能较差，揭示了基本认知能力与模型规模之间的强相关性，同时 MPA 还可用作数据增强方法以增
PDF4 months ago
神经风格迁移的评估：综述
神经风格迁移的评估方法和指标存在着不一致性和局限性，为了促进方法之间更有意义、更公平的比较，以及对研究结果的理解和解释的提升，我们提供了对现有评估技术的深入分析，并提出了标准化评估实践的建议。
PDF5 months ago
利用大型语言模型进行自然语言生成评估：综述
自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评
PDF6 months ago
文化鸿沟导航：探索和解锁文化视角的文本到图像模型
通过对 CulText2I 数据集进行内在评估、外在评估和人类评估，探索 TTI 模型中嵌入的文化知觉，揭示了模型的文化意识、文化差异和跨文化应用的潜力。
PDF9 months ago
ICML扩散 ODE 的最大似然估计的改进技术
本研究提出多个改进扩散 ODE 的最大似然估计技术，包括训练和评估技术，通过这些技术，我们无需变分去量化或数据增强在图像数据集上实现了具有最先进似然估计结果（CIFAR-10 上的 2.56，ImageNet-32 上的 3.43）。
PDFa year ago
语义变迁的计算建模
该研究论文介绍语义变化的计算建模方法，对不同类别的模型进行优缺点讨论，探讨了语义变化计算研究的重要方面与评估技术。
PDFa year ago
乌兹别克语文本分类数据集和分析
本研究分析了多标签新闻分类任务的数据集创建步骤和评估技术，提供一个收集自十个不同新闻和出版网站的 15 类新闻、出版和法律文本的新文本分类优范，研究比较了从传统的词袋模型到深度学习架构的不同模型，实验结果显示 RNN 和 CNN 模型优于基
PDFa year ago
图表问答：现状和未来方向
本篇综述论文旨在系统回顾当前关于数据可视化分析中图表问题回答（Chart Question Answering，CQA）系统的最新研究进展。论文采用分类法，从任务输入输出和解决方案等多个角度进行了整理和讨论，并总结了相关试验评估技术，同时还
PDF2 years ago
因果学习：可解释机器学习的新视角
本文概述了因果分析的基本背景和关键概念，总结了最近的可解释机器学习的因果方法，讨论了评估方法质量和因果可解释性中的开放问题。
PDF4 years ago
卷积网络的神经结构搜索简介
本文介绍了神经架构搜索的基本概念以及搜索空间、算法和评估技术的主要进展。
PDF4 years ago
在评估可解释 AI 系统时，代理任务和主观度量可能会误导
本研究通过在线实验和现场思考研究评估了两种当前常用的 XAI 系统评估技术，并发现代理任务和主观度量在实际决策任务中均未能预测评估结果，这表明当前的评估方法可能错误地拖慢了我们开发可靠执行出色的人工智能与人类团队的进步。
PDF4 years ago
使用干预措施和实证数据评估因果模型的论证
本论文阐述因果推断对人工智能的重要性，分析了现有的评估技术和存在的局限，并提出采用干预措施和实际数据进行评估的方法，探讨了其可行性和优越性。
PDF5 years ago