- BERGEN: 检索增强生成的基准库
以 BERT 为基础的生成模型,利用外部知识辅助检索,通过系统性评估不同组件在 RAG 流程中的影响,提出 BERGEN,一个用于标准化可复现研究的端到端库,对问答问题进行广泛的研究,并评估不同的检索器、排序器和生成模型,同时分析现有的 R - 现代代码审查中的人工智能辅助编码实践评估
AutoCommenter 是一个自动学习和执行编码最佳实践的系统,针对四种编程语言进行了实现和评估,结果表明其对开发者工作流程有积极影响,并述及了在大规模部署中所面临的挑战和相应的经验教训。
- 如何使用和解读激活修补
激活修补是一种流行的机械解释技术,但在应用和解释结果方面存在许多细微之处。我们根据使用这种技术的经验提供了建议和最佳实践的摘要,包括不同的激活修补应用方式的概述及结果解释的讨论。我们着重介绍激活修补实验对电路的提供的证据以及度量选择及相关陷 - 大型语言模型训练数据集中的代码许可侵权初探
大语言模型的训练是否会侵犯代码许可证?是否有可以安全使用来训练这些模型的可用数据集而不违反这些许可证呢?通过 53 个训练于文件级代码的大语言模型的研究,我们发现每个数据集都存在许可证一致性问题。因此,我们建议研究人员和社区都应优先发展和采 - 运行大型语言模型上的认知评估:要注意的事项和不要做的事项
本文描述了评估使用基于语言的行为评估方法来评估大型语言模型(LLMs)认知能力的研究方法考虑因素。作者通过三个案例研究(常识知识基准、心理理论评估和语法一致性测试)描述了在将认知测试应用于 LLM 时可能出现的常见问题。作者还列出了 10 - ICCV放松休闲:通过观看 SlowTV 学习重建世界
自我监督单目深度估计(SS-MDE)具有可扩展到大量数据的潜力。我们通过从 YouTube 中策划的 SlowTV 数据集提供了更多的数据,培养了一个能够实现对室内 / 室外数据集的零 - shot 泛化的 SS-MDE 模型,这一结果超越 - 机器学习系统的最佳实践:分析和优化的工业框架
该研究论文提出了一个用于分析机器学习系统中软件工程最佳实践集的质量影响和优先级的框架,并介绍了适用于 ML 系统的分层软件质量模型 (SQM)。通过应用集函数优化技术,可以回答哪些实践集可以最大程度地增加 SQM 覆盖范围,哪些是最重要的, - 强化学习中的超参数及其调整方法
本论文旨在提高深度强化学习的可重复性,通过比较多个 HPO 工具,展示了 HPO 方法通常具有更高的性能和更低的计算开销,并提出采用从 AutoML 中建立的最佳实践,以及在广泛的搜索空间内进行原则性的 HPO。最终,论文推荐了一套适用于 - 循着最佳实践指引的机器学习
本文旨在通过分析机器学习在软件工程中的最佳实践,填补现有文献不足的空缺,并针对机器学习应用所面临的挑战和开发过程,提出一系列以软件工程视角为基础的建议。
- 数据网格:动机因素、挑战和最佳实践
本研究通过 15 个半结构化的专家面谈,研究了数据网格概念的动机因素、相关挑战、最佳实践、商业影响和潜在典型。研究结果表明,企业专家在向联邦治理的转变、数据产品的开发、提供和维护的责任转移、数据产品模型等方面存在困难。因此,作者得到了多个最 - MM情感词汇表的创建和使用最佳实践
本文介绍了情感计算和 AI 伦理学的想法,旨在呈现有关情感词汇表创建和使用的实践和伦理考虑事项 —— 最佳实践。该目标是提供全面的相关考虑因素,以便读者(特别是那些新于情感处理的人)可以在一个地方找到相关信息。 我们希望这项工作将促进更多思 - 机器学习运维 (MLOps):概述、定义和架构
本文旨在通过文献综述、工具综述以及专家访谈的研究方法,提供了机器学习运营的定义、必要原则、部件及角色,及其架构和工作流程的综合概述,并强调了该领域的开放性挑战,为想要用指定的技术来自动化和操作他们的机器学习产品的研究人员和从业者提供了指导。
- 数字图书馆中几乎无监督信息提取工作流的图书馆视角
本文介绍信息抽取如何支持数字图书馆,讨论数字图书馆如何处理无监督抽取并报告机会和局限性,最后探讨无监督抽取工作流程的最佳实践。
- 与计算笔记本协作的最佳实践引导
这篇论文以多声部文献综述和数据科学专业人士的采访为基础,提出了一系列协同数据科学计算笔记本的最佳实践,结果显示专家们在日常工作中大多数能够意识到和采用这些最佳实践,同时指出由于缺乏适当的工具支持,某些最佳实践并不被所有人采纳。因此,作者设想 - 架构对于连续学习很重要
本研究证明了架构的选择对不断学习的性能有显著影响,不同的架构在记忆以前的任务和学习新任务之间存在不同的权衡。此外,本研究研究了各种架构决策的影响,提出了可以改善不断学习性能的最佳实践和建议。
- EMNLP评估风格迁移的评价指标:以多语言形式转移为例的案例研究
本文评估了风格转移 (ST) 领域自动度量标准对于形式风格转移这一常见任务的效果,包含了葡萄牙语、法语和意大利语,这是这一领域第一个多语言评估的工作,提出了最佳实践,指出了几个与人类评测高度一致的、在多语言下表现良好的模型,期望协助加速风格 - ICCVTrivialAugment:无需调参却能实现最先进的数据增强
该研究提出了一种无需参数的基准自动增强方法 TrivialAugment,只对每个图像应用单一的增强,并通过实验比较和分析其表现及其对于算法表现的重要需求,同时提出最佳实践以供参考。
- 自监督表征学习的良好实践
本文通过对大量实证分析,分析了最近在自我监督表征学习的成功背后背后的最佳实践,发现对比实例学习在无监督学习中表现出色。
- ACL并非所有断言都是平等的:选择正确的统计方法评估假设
该论文探讨了自然语言处理中假设评估的问题,提出使用贝叶斯方法评估假设,并提供了针对该领域的最佳实践和指南。
- 展示你的工作:实验结果的改进报告
通过使用验证数据和计算预算等指标,本文提出了一种新的模型比较方法,从而帮助实现更好地汇报实验结果和确保未来准确对比。