- 鲁棒聚合中基本率忽视的惊人益处
我们研究了预测聚合中考虑基本概率忽视的问题,发现中等程度的基本概率忽视可以降低后悔程度,在最坏情况后悔模型中表现出 V 形曲线。我们还提出了一种在未知基本概率的情况下具有低后悔的新的聚合方法,并进行了实证研究来测试基本概率忽视模型和不同聚合 - 大型语言模型对齐的低冗余优化
在这篇研究论文中,研究人员通过对大型语言模型(LLMs)的经验研究发现了对齐训练中存在的冗余神经元,并提出了一种名为 ALLO 的低冗余对齐方法。该方法通过梯度策略识别与人类偏好数据相关的神经元,通过奖励模型计算损失来识别与对齐相关的关键词 - ACLM-QALM: 通过问答评估大型语言模型在临床阅读理解和知识回忆方面的能力
研究了大型语言模型在临床和生物医学领域中与相关知识的召回和整合性方面的性能,发现指导调优等因素能够提高召回和理解能力,并展示了在医学知识数据集上进行直接微调的鼓舞人心的结果,为语言模型中的临床知识表示学习的进一步发展提供资源和标准方法论。
- 低位量化的 LLaMA3 模型效果如何?实证研究
LLaMA3 在低位量化方面存在明显的性能下降问题,需要在未来的发展中弥合低位宽度下的性能差距,此经验研究对于推进未来模型的发展非常有价值。
- 连续学习模型的校准
持续学习聚焦于在非平稳数据流上最大化模型的预测性能。本文通过第一次对持续学习中校准方法行为的实证研究,展示了持续学习策略并不能自然地学习到校准模型,并设计了一种持续校准方法,该方法通过后处理校准方法在不同基准和持续学习策略范围内提升性能。
- 基于需求异味的自然语言需求可测试性衡量
本文提出了一种基于需求异味嗅探和自动生成词典的数学模型,对自然语言需求的可测试性进行评估和排名,并通过经验研究验证了该模型在检测需求异味和测量需求测试性方面的卓越性能。
- 评估文本与图像生成模型:人类图像合成的实证研究
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一 - ACL具有异构学习模型的一致联合决策
该研究论文介绍了一种新的决策框架,它促进不同模型所做的决策的一致性,同时利用外部知识。通过利用整数线性规划(ILP)框架,我们将各种模型的预测映射为全局归一化和可比较的值,同时结合决策的先验概率、置信度(不确定性)和模型的预期准确性的信息。 - 大型语言模型中越狱攻击的跨语言调查
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显 - 知识蒸馏中参数选择的实证研究
本文通过大规模实证研究,探讨配置参数选择对知识蒸馏(KD)性能的影响,以及如何在 13 个数据集、4 个 NLP 任务和 3 种学生规模下对学生性能的影响进行评估,最终确定一种在各方面表现良好的配置。
- 黑暗之后的黎明:大型语言模型中的事实错觉的实证研究
在大型语言模型时代,幻觉(即生成事实不准确的内容)对于在现实应用中可信可靠地部署语言模型构成了巨大的挑战。为了解决语言模型幻觉问题,本研究对幻觉检测、幻觉来源和幻觉缓解这三个重要问题进行了系统的实证研究。研究通过构建一个新的幻觉基准 Hal - 通过部分或完全匹配三元组来查询三元概念
通过倒排索引的完全或部分匹配三元组的方法,我们介绍了一种查询三元概念的新方法,以检索包含一组术语在其范围、意图和 / 或模式中的已经计算过的三元概念。与 Ananias 中描述的近似方法相反,我们的方法不需要保留初始的三元上下文或其三个二元 - EMNLP如何确定最强大的预训练语言模型而无需暴力微调?实证调查
通过对现有可迁移性估计方法的全面调查和基于 GLUE 基准的详细实证研究,我们展示了现有方法的优点和缺点,并证明了 H-Score 在有效性和效率方面具有卓越性能。此外,我们还提出了在训练细节的考虑、文本生成的适用性以及与特定指标的一致性等 - 大型语言模型是否能理解内容和传播路径以检测虚假信息:一个实证研究
大型语言模型在虚假信息检测任务中的性能研究显示,多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能,突出了大型语言模型检测虚假信息的潜在能力。
- 深度学习在叶片图像中植物识别和病害分类的应用:多预测方法
通过对植物病理学方面的当前深度学习方法进行调研和现有机器学习方法的研究,我们提出了一种名为通用堆叠多输出 CNN 的新模型(GSMo-CNN),并在三个基准数据集上进行了大量实验。实验结果表明,InceptionV3 是作为骨干 CNN 的 - EMNLP多语言表示的联合矩阵因式分析
我们提出了一种基于联合矩阵分解的分析工具,用于比较多语言和单语言模型的潜在表示。我们使用这个工具,研究了多语言预训练模型学习的表示中在何种程度上和如何反映了形态句法特征。通过对 33 种语言和 17 种形态句法类别进行大规模实证研究,我们发 - EMNLP指导调优大型语言模型的实证研究
通过深入实证研究指导调优中文语言模型,本文提供了宝贵的研究结果,有助于定制能更好地应对中文指令的大型语言模型。
- 给定计算时间限制的伪布尔优化的自动算法选择
构建适用于 NP-Hard 的 Pseudo-Boolean 优化问题的任意时刻元求解器,明显提高了性能,并改进了在组合求解器组合中性能表现最好的单个求解器 Gurobi 的成功率。
- 情境感知度在语言模型中的测量
我们研究大型语言模型中的 `情景意识 ' 的出现,提出了` 脱离上下文推理 ' 作为情景意识的一种能力,并通过实验探索了该能力。我们发现,模型的成功在于训练设置,并且需要数据增强。这些发现为进一步的实证研究提供了基础,以预测和潜在地控制大型 - 基于 HTN 的概率性情境规划实现高质量方案
这篇论文介绍了一种名为 High-Quality Contingent Planner(HQCP)的概率性和遗传性任务网络(HTN)规划器,在部分可观察环境中生成高质量的计划。该规划器在 HTN 规划的形式化中引入了部分可观察性,并根据成本