quantitative evaluation | BriefGPT

关键词quantitative evaluation

搜索结果 - 31

多人游戏中的虚拟行动
本论文首次引入了 Feint 在多人游戏中的形式化、实现和定量评估，通过基于非传递性主动马尔可夫游戏模型的形式化，结合最新的多智能体建模进展（即多智能体强化学习），我们考虑了 Feint 在多人游戏中的实际实施细节，并定量检验了我们设计的有
PDF4 months ago
LLM 基于智能代理模拟外星文明的世界观差异
通过使用大型语言模型，本研究引入了创新的人工智能框架 “CosmoAgent”，以模拟人类与外星文明之间的复杂互动，特别关注 Stephen Hawking 关于不要毫无规划地向宇宙发送无线电信号的警告。通过数学模型和状态转移矩阵，本方法量
PDF4 months ago
评估合创性使用总体信息流
通过量化评估音乐合创过程中的信息流，本文旨在创造一种基于总信息流的度量，即创作音乐过程的 “好坏” 指示。通过使用预训练的生成模型作为熵估计器计算信息流的方法，我们展示了如何通过定性研究验证了我们的方法与人类感知的匹配性。
PDF5 months ago
可训练噪声模型作为 XAI 评估方法：用于遥感图像分割的 Sobol 应用
该研究采用最近的无梯度 Sobol 解释模型方法对语义分割进行了实验，提出了一种基于可学习噪声模型的量化解释评价方法，在高分辨率卫星图像上运行和评估了三种 XAI 方法，包括 Seg-Grad-CAM、Seg-Grad-CAM++ 和 Se
PDF9 months ago
借助反事实知识蒸馏来纠正 Clever-Hans 预测器
本文介绍了一种被称为反事实知识蒸馏 (CFKD) 的新技术，通过人类专家反馈帮助检测和消除深度学习模型对混淆因素的依赖。该技术在受监管或安全关键领域有着重要作用，论文还展示了反事实解释相对于其他类型解释的优点，并提出了一个实验方案来定量评估
PDF9 months ago
ICCV静止肖像照片中头发吹动的自动动画
我们提出了一种新颖的方法来在静止的肖像照片中为人发进行动画。通过先进的实例分割网络，我们的方法提取有意义和自然的发丝，并提出了一种发丝感知的动画模块，以令人愉悦的动作方式进行发丝动画，同时避免明显的伪影。广泛的实验证明了我们方法的优越性，在
PDF9 months ago
开放光照：逆向渲染评估的多光照数据集
OpenIllumination 是一个包含 108k 多个图像的真实世界数据集，其中包括 64 个对象，具有不同的材料，在 72 个摄像机视图和大量不同的光照条件下捕获。我们提供了数据集中每个图像的准确相机参数、光照真值和前景分割掩码。该
PDF10 months ago
可演唱歌词翻译的计算评估框架
本文介绍了一个计算框架，旨在定量评估可唱译歌词，该框架无缝地融合了歌曲、语言和文化维度；通过收集一个可唱歌词数据集，并进行可唱和不可唱歌词的比较分析，我们验证了我们框架的有效性；我们的多学科方法揭示了歌曲翻译艺术的关键因素，并为未来的计算歌
PDF10 months ago
学习和评估人类对话头生成的偏好
我们提出了一种名为 Preference Score（PS）的新型基于学习的评估指标，用于对人类偏好进行定量评估，验证其在与人类感知的一致性、对未见数据的鲁棒性和泛化能力方面的优越性，对推进对话头生成具有重要价值。
PDFa year ago
解释性机器学习中罗生门效应的实证评估
本研究分析了 Rashomon 效应对可解释机器学习的影响，提供了三种不同比较场景的统一视角，并在不同数据集、模型、归因方法和指标上进行了定量评估，结果发现超参数调整和指标选择对结果有实质影响，并为科学家和实践者带来挑战。
PDFa year ago
AMEE：时间序列分类中的解释评估鲁棒框架
本文提出一种名为 AMEE 的模型无关解释评估框架，可以量化和比较用于时序分类的多个显著性解释方法，并通过扰动输入时间序列来测量其对分类准确度的影响以进行解释评估。
PDFa year ago
聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估
对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提
PDFa year ago
IJCAI离散扩散概率模型用于符号音乐生成
本文提出了一种使用 Discrete DDPMs (D3PMs) 直接生成 Polyphonic Symbolic Music 的方法，并展示了该模型的高质量和灵活的属性，并警示无法通过量化指标完全评估样本质量。
PDFa year ago
自动构建单词含义解释的评估
本研究介绍了一种基于大型语料库信息和词汇速写的新工具，用于自动生成详尽精确的单语词典中的单词释义，并重点计算名词释义的质量评估。该方法在某种程度上与语言无关，但本文介绍的验证则仅限于捷克语和英语，研究结果表明，该方法约 90% 的释义包含有
PDFa year ago
使用 Fine Tuned GPT-2 模型自动生成德语戏剧文本
本文提出了一种自动生成德语戏剧文本的方法，包括应用 GPT-2 模型生成情节场景大纲，以及从大纲中生成场景，该方法在自动量化评估上表现良好，但手动定性分析揭示出生成文本的质量较差，可能由于数据集或训练输入的质量。
PDFa year ago
自然语言处理的自动切片检测框架：发现、解释、改进
本文介绍了一种 “发现，解释，改进” 的框架，以系统研究片段检测模型在自然语言处理中的量化评估，准确发现高错误率的数据点，提高模型性能。
PDF2 years ago
AAAI人类驱动动态数据集扩充改进行为克隆
本文介绍了如何将行为克隆与人在环环学习相结合，利用一种新方法在模拟中允许专家随时控制代理并提供最优解，从而解决了行为克隆中的一些缺陷，提高了训练效率和降低了所需资源，实验表明该方法在定量评估和人类相似性方面都具有更好的效果。
PDF2 years ago
从 RGB 视频中实现无限制联合手部和物体重建
本文旨在从单目视频中获取手部和操纵对象的三维重构，提出了一种学习免费的拟合方法以应用于无法获取训练数据且具有不同难度等级的数据集，并量化评估了该方法。
PDF3 years ago
U-Noise：可学习的噪声掩码，用于可解释的图像分割
利用添加噪声的方法，我们提出了一种全新的解释深度学习图像分割模型的方法，能在医学等重要决策应用中提高模型的可解释性，并演示了该方法优于传统的 Grad-CAM 和遮挡敏感方法，同时，我们证明了该可解释性模型可以基于遮挡图像的下游性能进行定量
PDF3 years ago
EMNLP面向端到端的图像内神经机器翻译
本文旨在研究在图像中的机器翻译任务：将包含一种语言文本的图像转化为包含另一种语言文本的图像。我们提出了一个基于神经网络的端到端模型，并证明纯像素级监督可以得到很好的初步结果。我们进行了定量和定性评估，并讨论了一些常见的失误模式。最后，我们提
PDF4 years ago