- 负面指示的影响:何时何种情况下会产生效果?
该论文首次全面研究了负面提示的机制和效果,揭示了负面提示的两个主要行为:延迟效果和通过中和效应的删除效果,为负面提示的潜在实际应用提供了重要的见解。
- 利用分层群组结构实现交叉公平的合成数据生成
该论文介绍了一种特定的数据增强方法,旨在增强分类任务中的交叉公平性。这种方法利用交叉性内在的层级结构,将群体视为其父类别的交集,通过学习组合父类群体数据的转换函数,对较小群体进行数据增强。我们对四个不同数据集进行的实证分析(包括文本和图像) - COLINGLLMs 作为标注者的有效性:直接表征的比较概述和实证分析
通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的 - 温度是大语言模型的创造力参数吗?
使用具有预定固定上下文、模型和提示的叙述生成任务,我们对不同温度值下大型语言模型(LLMs)的输出进行实证分析,以检验温度参数是否能够调节创造力,发现温度与新颖性弱相关、与不连贯性中度相关,但与连贯性和典型性无关;然而,温度对创造力的影响比 - ACL测试代码文档对大型语言模型代码理解的影响
通过对代码和文档的底层特性进行实证分析,我们发现错误的文档会大大阻碍大型语言模型对代码的理解能力,而不完整或缺失的文档似乎并不显著影响大型语言模型对代码的理解能力。
- 大型语言模型作为规划领域生成器
通过对 7 个大型语言模型进行实证分析,我们发现大型语言模型在从自然语言描述中生成正确的规划领域模型方面具有适中的能力。
- 揭示安卓恶意软件检测中的机器学习解决方案关键
机器学习方法对于安卓恶意软件检测起到了关键作用,而本文则通过实证分析全面调查了基于机器学习的安卓恶意软件检测的研究进展,并总结出一些建议以引导未来的研究。
- 数据与模型的机器学习公平性测试:实证研究
通过对模型的前后公平性进行评估,研究发现,在数据分布和训练数据规模发生变化时,数据和模型公平性指标之间存在线性关系。这表明,在训练之前对公平性进行测试可以尽早发现有偏见的数据收集过程,检测生产系统中的数据漂移,并减少全面训练周期的执行,从而 - 领域泛化的多样目标和贡献调度
本文通过理论和实证分析揭示了领域通用中梯度冲突的存在,并提出了一种基于经验源领域风险的全新视角及相应的解决方案(DTCS),通过多样化目标监督和多样化贡献平衡两个创新模块,来解决常用的单热标签和源领域平等贡献的局限性,实验证明该方法在四个基 - 具有 4 位状态的内存高效优化器
通过详细的经验分析,本研究将优化器状态位宽降到 4 位,通过更好的量化方法,解决了动量中的离群值问题和二阶动量的零点问题,从而在自然语言理解、机器翻译、图像分类和指令优化等任务中实现了与全精度对应方法相当的准确性,同时提高了内存效率。
- 分类神经网络中的中间隐藏层神经失调
分类神经网络的中间隐藏层中出现一定程度的神经崩溃,而崩溃的程度通常与该层的深度正相关。此外,浅层网络主要减少样本内类别方差,类之间的角度分离随着隐藏层深度的增加而增加。实验结果提供了有关特征在分类神经网络中结构传播的细粒度洞察。
- 我应与谁合作?自然语言处理中学术界和工业界研究合作的比较研究
调查学术界与工业界协作对自然语言处理(NLP)的影响,通过从 NLP 论文中提取机构和引用构建了一个流程,并将其分为学术界、工业界和混合界(学术界与工业界的协作)。我们的实证分析发现,工业界和学术界 - 工业界合作发表的论文数量呈增长趋势, - ChatGPT 是否是通用自然语言处理任务解决方案?
本文通过对 20 个流行的任务数据集进行评估,就 ChatGPT 的零 - shot 学习能力进行了实证分析,并发现它在推理能力较强的任务上表现良好,如算术推理,但在特定任务(如序列标记)的解决方面仍面临挑战。
- 将立场检测建模为文本蕴涵识别,并利用社会科学的测量知识
本文通过实证分析探讨将立场检测问题建模为通用的文本蕴涵识别任务的可能性,并利用社会科学的测量知识提高模型性能。
- 数字自动化中生产力收益的估算
本文提出了一种新型生产力评估模型,用于评估在生产链中采用人工智能 (AI) 组件的影响。我们的模型提供了支持解决 “AI” 的 Solow 悖论的证据,其基础包括(i)理论和实证证据以解释 Solow 的二分法;(ii)数据驱动模型以评估和 - ACL重构 GPTk 语言的教学提示
通过对 12 个自然语言处理任务的实验比较,研究着手从多个方面进行指导语的重构,以便更好地指导语言模型的零样本和少样本学习,并且比较了各个模型的不同结果,结果表明:重新构建的指导语有助于提高语言模型的学习效果。
- ACLDialDoc21 中的 CAiRE:面向信息获取对话系统的数据增强
使用数据增强方法和预训练语言模型训练技巧来学习任务的通用模式,以实现对用户需求的流畅,连贯和信息丰富的响应,该方法在 DialDoc21 竞赛中取得了良好的成效。
- ACLDialogSum:一个真实场景下的对话摘要数据集
提出了 DialogSum,一种大规模标注的对话摘要数据集,通过对该数据集使用最先进的神经摘要器进行经验分析,结果表明对话摘要中存在诸如口语术语、特殊话语结构、代词和省略、语用学和社会常识等独特挑战,需要特定的表示学习技术来更好地处理。
- MM密码生成的生成式深度学习技术
本文研究了基于深度学习和概率的密码猜测模型,提出了基于 VAE 的最新深度学习模型,在经典数据集上进行了实证分析并比较了各种方法的生成性能和样本特征。
- 自监督表征学习的良好实践
本文通过对大量实证分析,分析了最近在自我监督表征学习的成功背后背后的最佳实践,发现对比实例学习在无监督学习中表现出色。