- 基于条件生成的大型语言模型性能基准测试
本文提出如何将 PLMs 应用到现有应用程序特定的生成基准上,对输入和输出语言等不同维度的 PLMs 在自然语言生成任务方面的优点和局限性进行了深入的实证研究,并分享了在开发新 PLMs 时考虑到的基准生成能力的最佳实践。
- 了解对于拉取式开发的失效机器人的有益性:20 个大型开源项目的实证研究
回顾 20 个大型热门开源项目的经验研究发现,虽然 Stale bot 用于处理未解决的 Pull Requests 可以提高项目的效率,但过于依赖 Stale bot 可能导致贡献者减少和社区参与度下降。
- 大型语言模型的增强型提示集成
我们提出了一种基于提示集成的方法来进一步提高语言模型推理性能,并在 GSM8k 和 AQuA 数据集上的实验中验证了该方法的优越性。
- 神经网络中的稀疏性可增加其隐私性
本文研究了稀疏性如何增强神经网络抵御成员推断攻击的能力,并通过实证结果展示稀疏性能够提高隐私保护,在任务完成效果不受影响的前提下,完成并扩展了现有文献。
- mPLUG-2:跨文本、图像和视频的模块化多模态基础模型
该论文提出了一种新的多模态预训练统一范式 mPLUG-2,该范式具有模块化设计和通用模块的共享,可以处理多种任务,包括文本,图像和视频的多模态理解和生成,达到了最先进的结果。
- 神经时序点过程用于预测高阶和方向交互
本论文提出了一种基于深度神经网络的模型,名为 “有向超节点时间点过程 (Directed HyperNode Temporal Point Process)”,用于预测高阶有向交互作用,具有很高的效率并经过了大量实证研究。
- PyExperimenter:轻松分发实验并跟踪结果
PyExperimenter 是一个自动化工具,旨在帮助人工智能领域的研究人员设置、记录、执行和后续评估算法的实证研究结果,从而显着减少涉及的手动工作。
- 软件配置调优是否重视绩效目标?
本文旨在为配置软件系统的优化提供决策支持。通过对 426 个论文和 14 个真实环境的综合研究,本文发现指导性能调优的优化模型选择取决于期望的现实可实现度;指导性能调优的位置和性质在选择方面不太重要,但它们对改进的程度有影响;调整预算虽然在 - 使用模板解析阐释性参数解决开放式规则
本研究探讨使用解释论证而确定开放性规则术语如何影响人们对其正确解释的使用和推理,使用 Aporia 作为框架进行实证研究,着重于解释可理解的人工推理器的实际应用。
- 印度语言技术公正研究的文化再情境化
本文提出了一个完整的研究议程以便在印度社会背景下重新定义 NLP 公平性研究,同时考虑印度文化价值,缩小技术和资源方面的差异,并总结了一个关于印度社会不平等各个方面存在的社会偏见的实证研究,表明它们在语料库和模型中的普遍存在。
- ICML强化学习中策略优化的 Bootstrap 优势估计
本文提出了一种基于数据增强的优势估计方法,该方法基于 bootstrap 方法计算优势估计,并用于学习和更新策略和价值函数,有效地提高了累积奖励和未知环境的测试性能。
- 半监督离线强化学习与无动作轨迹
通过开发新的算法流程,利用多种数据来源进行线下强化学习,仅使用 10%的数据可以达到与完全有标签的数据集相似的性能,同时进行大规模控制实验,以确定半监督学习应用于 RL 的最佳实践。
- 变换器在语境中能学到什么?简单函数类的案例研究
该文提出一种新的模型训练方法,称为 in-context learning,可以使 transformer 模型通过给定的输入输出对,学习出新的输入对应的输出,而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-conte - 预训练语言模型中数据到文本生成的困难之处是什么?
本文对预训练语言模型和自回归预训练语言模型在 DART 数据集上的 D2T 任务表现进行实证研究,考虑了任务数据量的大小,以及零样本和少样本学习以及模型微调等方式,研究表明需要更多仔细手工策划的数据集来改善基于此的 D2T 生成任务。
- 超越通用机器翻译:需要上下文特定的实证研究以设计适当的用户信任
本文讨论 MT 系统的质量评估和信任度,分享医生使用 MT 系统的经验和挑战,并提倡实证研究是解决用户和 MT 系统之间信任问题的重要第一步。
- DeepCore: 深度学习中数据子集选择的全面库
本文提出 DeepCore 库,并对目前主要的 coreset 选择方法在 CIFAR10 和 ImageNet 数据集上进行了实证研究,结果表明,虽然各种方法在某些实验设置上具有优势,但随机选择仍然是一个强有力的基准。
- 人工智能决策的科学化:经验研究综述
研究了人工智能辅助下的人类决策制定,结合超过 100 篇论文总结了该领域的三个重要方面,即决策任务、AI 模型和 AI 辅助元素以及评估指标并提出了未来研究建议,强调建立共同框架以促进人工智能和人机交互社区协作,形成推广的科学知识。
- KDD解密图神经网络解释
该研究论文探讨了关于图神经网络(GNNs)在决策过程中透明度不足的问题,并针对生成 GNNs 解释的方法和数据的评估,研究了三个主要领域的普遍问题:(1)合成数据生成过程,(2)评估指标,以及(3)解释的最终呈现。此外,本文进行了一项实证研 - IJCAI分区函数估计:量化研究
本论文探讨了 18 种基于概率图模型的分区函数的估计方法,并经过广泛的基准实验进行了严格的实证研究。研究发现精确技术与近似技术的效率是相同的,因此我们对设计具有增强可扩展性的近似技术的机会持乐观态度。
- 多标签分类方法的综合比较研究
这项研究对各个领域的大量数据集使用 20 种不同的评估方法对 26 种不同的多标签分类方法进行了全面的实证研究,发现 RFPCT,RFDTBR,ECCJ48,EBRJ48 和 AdaBoostMH 是效果最好的方法,希望今后引入新方法时,应