measure | BriefGPT - AI 论文速递

关键词measure

搜索结果 - 5

CriticBench: 评估大型语言模型作为评论家
论文介绍了一种用于全面可靠评估大型语言模型 (Large Language Models) 的批评能力的新的基准，该基准包括九个不同的任务，评估了语言模型在不同质量粒度下的批评响应能力，并揭示了批评能力与任务、响应质量和模型规模之间的有趣关
PDF5 months ago
自动常识推理基准：一项调查
论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchma
PDFa year ago
Transform-o-meter：预测创新变革影响的方法
本文介绍了一种名为 Transform-o-meter 的方法，用于衡量和预测创新的变革影响和潜力，并可适用于任何有形或无形的创新，但需要进一步研究和发展。
PDF2 years ago
量子演化的纠缠性和非马尔可夫性
本文提出了两种针对不同实验环境的量化量子系统与环境交互作用的非马尔科夫性的方法，这些方法可以不需要优化过程而准确地测量马尔科夫性，其中一种方法需要完整的演化信息，而另一种方法则只需要最少的信息。
PDF15 years ago
指数族的封闭
描述具有凸集规范参数的指数族的变差距封闭度，不需要任何正则条件；利用度量的凸核心和指数族扩展的概念，以及凸集的可达面的新概念。该研究还描述了与信息分歧相关的另外两种封闭度。
PDF19 years ago