- 多种医学模态下的合成数据生成人工智能:最新发展及挑战的系统综述
本研究综述了生成模型在合成各种医学数据类型方面的广泛应用,探索了合成应用、生成技术和评估方法等方面的见解,强调了医学数据的唯一性和临床应用的需求。同时,研究也揭示了医学图像评估方法的不足之处,呼吁进行深入评估、基准测试和比较研究以促进开放和 - 提高多变量时间序列分类的解释方法评估和可操作性
基于多元时间序列分类的解释方法研究,通过评估和改进解释方法的精确度和效率,展示解释方法在频道选择的应用中具有的可操作性,并展示基于扰动法的解释方法在各种数据集、分类器和任务中的优势。
- 利用估计目标框架提高人工智能 / 机器学习评估的有效性和实用性
使用改编自国际临床试验指南的估计框架,提出一种改进评估方法的方法,用于评估 AI 或机器学习模型的有效性和实用性,以揭示其潜在问题、原因和解决方案。
- JailbreakEval: 评估大型语言模型遭受越狱攻击的综合工具包
这篇论文对监狱越狱评估方法进行了综合分析,提出了一个系统的分类法,并介绍了 JailbreakEval 工具包,该工具包可以简化监狱越狱研究的评估过程,推动社区内的监狱越狱评估标准的形成。
- 面向联邦域去学习的验证方法和挑战
我们的研究第一次全面系统地研究了多领域上下文中现有技术在联邦领域消除中的特征和挑战,揭示了忽视领域特定数据对模型行为的细微影响所造成的性能下降和准确性损失。为此,我们提出了专为联邦领域消除量身定制的新型评估方法,旨在在不损害模型整体完整性和 - 文本生成:任务、评估和挑战的系统文献综述
文本生成领域的文献回顾研究了 244 篇论文,将文本生成的工作分类为五个主要任务,并分析了相关特点、子任务和具体挑战。此外,研究还评估了目前的评估方法,并确定存在的问题。研究指出了九个主要挑战,并提供了详细分析和解决方案,以及进一步研究需求 - 评估 LLMs 在时间泛化上的表现
大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型,并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench,用于动态生成最新的现实世界预测性预测的评估基准 - 生成范式中的跨度提取评估:关于面向方面的情感分析的思考
在生成式语言模型和情感分析的领域中,针对现有的评估方法进行重新审视和重构,强调了针对生成式模型的复杂性,并提出了一份全面的指导方针以确保准确反映生成能力的情感分析评估。
- Khayyam 挑战(波斯 MMLU):你的 LLM 是否真的掌握了波斯语?
评估大型语言模型的挑战在于它们的生成性质,不仅需要精确的评估方法,同时还需要针对非英语语言的评估方法,为许多语言缺乏或薄弱的语言模型所提供支持。为了满足这一需求,我们介绍了哈亚姆挑战(也称波斯 MMLU),这是一个精心策划的集合,包含了 2 - FreeEval: 大型语言模型的可靠高效评估的模块化框架
介绍了一个名为 FreeEval 的模块化和可扩展框架,用于可靠高效地自动评估大型语言模型,通过统一的架构整合了各种评估方法,并结合人工评估和数据污染检测等元评估技术,实现了评估结果的公平性。
- 零样本多任务幻觉检测
在这项研究中,我们正式定义了虚构,并提出了一种在零镜头环境中定量检测虚构的框架,利用我们的定义和模型输出包含任务和样本特定输入的假设。我们的解决方案在模型感知环境中实现了 0.78 的准确度,在模型无关环境中实现了 0.61 的准确度。值得 - 基于错误人工评估的 GPT-4 在句子简化中的深入评估
通过设计错误基础的人类注释框架来评估 GPT-4 在句子简化方面的能力,进一步深入了解大型语言模型的性能,同时确保评估的可靠性。该研究发现 GPT-4 相对于现有最先进的模型来说,普遍生成较少错误的简化输出,但在词汇转述方面仍然存在限制。此 - 大型多模态代理:综述
大型语言模型在多媒体领域的研究和发展方向的全面回顾,介绍了大型多媒体代理的开发要素和分类,评估方法的编制以及未来研究方向的提出。
- ICML实用自动语音识别与后处理:可解释错误基准指南的呼吁
通过提出一个 Speech 和 Text 综合考虑的 Error Explainable Benchmark 数据集,我们能够更全面地了解 ASR 模型的不足之处,消除系统的弱点,从而提高用户体验。
- 构建与伊斯兰世界观相符的领域专用 LLMs:幻觉还是技术可能性?
构建与伊斯兰世界观一致的领域特定大型语言模型 (Large Language Models) 的挑战、解决方案和评估方法的研究。
- 现代大语言模型中数据污染问题研究
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
- ViLMA:视频 - 语言模型中的语言与时间基准的零样本评测
通过提出 ViLMA(视频语言模型评估)作为一个任务无关的基准,我们针对预训练的视频语言模型的微观能力开展了一个鲁棒的评估方法,该基准通过精心策划的反事实情况提供了一个控制的评估套件,揭示了这些模型的真实潜力以及与人类理解水平相比的性能差距 - EMNLP后图灵:LLM 评估地图绘制
大语言模型的评估方法学的引入和标准化是一个重要的挑战,本文追溯了 LLM 评估的历史轨迹,从 Alan Turing 提出的基础问题到现代人工智能研究的时代。我们将 LLM 的发展划分为不同的时期,每个时期都有其独特的基准和评估标准。随着 - 超越文档页面分类:设计、数据集和挑战
本文强调将文档分类基准测试更贴近实际应用的需求,包括在测试的数据性质 ($X$:多通道、多页、多行业;$Y$:类别分布和标签集的多样性) 以及所考虑的分类任务 ($f$:多页文档、页面流和文档捆绑分类);我们确定了公共多页文档分类数据集的缺 - 印象感知推荐系统
利用 impressions 的推荐系统的系统文献综述,主要关注推荐系统、数据集和评估方法三个方面,提供了对使用 impressions 的推荐系统进行分类、分析和评估的细节,并指出未来研究中需要关注的问题和方向。