evaluations | BriefGPT - AI 论文速递

关键词evaluations

搜索结果 - 28

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估
本文针对大型语言模型的逻辑推理能力进行全面评估，选择 15 个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。
PDFa year ago
现有端到端实体链接系统的公正深入评估
本文针对实体链接系统的评估存在的问题，提出了更具意义和公正的方法，通过多个广泛使用的基准测试和两个新的基准测试，评估了多种现有的端到端实体链接器的强弱点及其可重复性。
PDFa year ago
使用模型编写的评价方法发现语言模型行为
本文研究了不同规模的语言模型的行为表现，并提出一种使用语言模型自动生成评估的方法，并发现了一些逆比例缩放情况下的新现象，例如：更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣，并且此类的逆比例缩放（Inverse scaling）情况在
PDF2 years ago
面向人类中心的可解释人工智能：模型解释的用户研究
本文通过系统文献综述，评估了 85 篇人基于 XAI 评估的核心论文，并对解释方法的可信、可懂、公平、可用性和人工智能团队表现等进行了归类。作者提出了关于设计和进行 XAI 用户研究的最佳实践指南，并强调了将心理科学和以人为中心的 XAI
PDF2 years ago
决策树学习的全球评估
将聚类中的距离传递到决策树的构建过程中，通过全局距离代替单个叶节点评估，提出了一种改进的 ID3 算法，并与原版本进行比较，讨论其在实践中的优势和问题，进而确定其他适用于全局评估的场景。
PDF2 years ago
EMNLP非递增编码器时代的增量处理：双向模型在增量自然语言理解中的实证评估
研究了在交互系统中，使用增量接口对双向编码器进行逐步处理的可能性，结果支持可以保留大部分双向编码器非增量质量。
PDF4 years ago
CVPR模仿：实现 GAN 研究的可复现性
本文介绍了 Mimicry - 一个基于 PyTorch 的轻量级库，提供了流行的生成对抗网络和评估指标的实现，以便在文献中再现已报道的结果。通过在相同的条件下训练这些 GAN，使用相同的程序评估它们，本文在七个广泛使用的数据集上提供了不同
PDF4 years ago
迈向稳健的持续学习评估
针对目前连续学习研究中存在的实验不够真实的问题，文章提出了连续学习评估的几个重要方面，并介绍了新的实验设计方法，以准确地评估不同的连续学习方法和数据集，建议学界重新分配研究方向。
PDF6 years ago