- 人工智能协作:AI 委派对人类任务执行和满意度的影响
在一项 196 名参与者的实验研究中,我们发现,无论人类是否意识到辅助作业的人工智能模型,通过代理任务来协同完成工作可以提高任务的表现和满意度,同时提高自我效能感,这为 AI 担负更多的管理责任是人 - AI 协作的有效形式提供了初步证据。
- 通过问答学习实体视觉导航和任务完成
该研究提出一种名为 ELBA 的模型,以增强具有互动人类能力的代理,通过问答实现动态获取附加信息,以提高任务完成性能,并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。
- 教授小型语言模型推理
本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于 1000 亿参数的模型,实现任务的表现提升,对算术、常识和符号推理数据集效果显著,例如在 PaLM-540B 生成的思考链上进行微调后,T5 XXL 在 GSM8K 的准确率从 8.1 - 对话中的噪音来源及其处理方法
本文提出了一种针对会话设置的数据清洗算法,通过构建一些噪音分类法,并在多个实验中展示不同模型在遇到不同噪音时的表现,我们的研究发现,尽管现有的去噪声算法能够很好地解决标签错误问题,但是对话式噪音对模型的表现有着负面影响。
- 具有超大词汇量的大型预训练模型:希伯来 BERT 模型的对比分析和一个新模型的超越
本篇论文提出了一种新的针对现代希伯来语的预训练语言模型 AlephBERTGimmel,其使用比以前的标准希伯来语 PLMs 更大的词汇表(128K 项)。通过与所有先前的希伯来语 PLMs(mBERT、heBERT、AlephBERT)进 - EMNLP利用文本蕴涵数据缓解性别偏见
MABEL 是一种中间预训练方法,用于减轻上下文表示中的性别偏见,它通过对自然语言推理(NLI)数据集中对应增强的性别平衡蕴含对的对比学习目标,以及在相反性别方向上拉伸相同蕴含对的对准器,大量评估了我们的方法,表明 MABEL 在公平性方面 - EMNLP控制偏见暴露以实现公平和可解释的预测
本文提出了一种公平去偏算法,通过调整预测模型的信念,尽可能使用敏感信息来进行预测,并在必要性最小化的同时承受一定的惩罚,以达到去偏和任务性能之间的理想平衡,并生成经过去偏的证明。
- CVPRRF-Next:卷积神经网络高效感受野搜索
本研究提出了一种全局到本地的搜索方案,探索更好的感受野组合以提高任务性能,通过将感受野搜索插入不同的模型中,如对象检测、实例分割等,提高了模型性能,源代码公开可用。
- 超越模仿游戏:量化和推断语言模型的能力
通过引入 Beyond the Imitation Game 基准测试(BIG-bench),我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现,发现规模越大,其表现和校准也越好,但与人类专家相比还是很差,同时也发现在歧义上 - GrIPS:无梯度、基于编辑的指令搜索,用于提示大型语言模型
GrIPS 是一种基于编辑的、无梯度搜索方法,用于自动改进针对大型语言模型的任务指令,可以在 API 基础上进行调整,具有较高的效率,可显著提高大型语言模型在分类任务上的性能。
- 时间不等人!时间错位分析与挑战
本研究旨在通过建立多样化跨不同领域和时间段的 8 个任务套件,量化时间错位对 NLP 模型性能的影响。我们发现时间错位对任务性能的影响比先前报告的要大,结论表明仍需继续研究以提高 NLP 模型的时间强度。
- EMNLPMixture-of-Partitions:将大型生物医学知识图谱注入 BERT
本文提出 MoP(Mixture-of-Partitions)方法,该方法可以将大型知识图谱分割成较小的子图,并使用轻量级适配器将其特定的知识注入到各种 BERT 模型中,以处理许多知识密集型任务,并在 NLI,QA 和分类等方面评估了我们 - ICML无自编码的无监督解缠的陷阱和未来方向
本文研究基于对比学习的正则化方法来实现大规模数据集的非监督式解缠表示学习,并分析了不同正则化方法的利弊与下游任务性能表现。
- ICCV学习为计算机视觉任务调整图像大小
通过实验证明,针对不同的任务,基于卷积神经网络的学习型图像缩放器可以用于提高网络的性能,而相比于传统的图像缩放器,它并不一定能够提高图像的感知质量。该研究给出了基于 ImageNet 数据集的分类任务和 AVA 数据集上的图像质量评估案例证 - EMNLP关于变压器适配器效率的 AdapterDrop 研究
本文提出了一种名为 AdapterDrop 的方法,使得从 Transformer 层中移除适配器可以动态地减少多任务推理的计算开销,且可以在保持整体性能的同时提高推理效率。
- 基于隐式人类反馈的任务学习 EMPATHIC 框架
本文提出了一种基于数据驱动的框架 EMPATHIC,该框架可以从人类面部表情等隐式反馈中学习如何优化机器人执行任务的表现,其中包括使用深度神经网络将隐式反馈转化为任务统计数据以及应用该框架在机器人操纵路径评估等多个领域的实例。
- ECCVAiR: 具有推理能力的注意力
本文提出 Attention with Reasoning capability (AiR) 框架,使用注意力机制来理解和改善导致任务结果的过程,并通过一系列原子推理操作定义了一个评估指标来量化考虑推理过程的注意力。作者收集了人类眼动和答案 - EMNLPByte Pair Encoding 不适用于语言模型预训练
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram - EMNLP预训练转换器的校准
通过对 BERT 和 RoBERTa 在自然语言推理、释义检测和常识推理三方面的实验,本研究发现预训练模型在领域内使用时具有校准性,而且与基准相比,在领域外的校准误差可以低至 3.5 倍;降温和标签平滑等方法可以进一步减少领域内的校准误差和 - EMNLP谱中的秘密:使用谱相似度测量预测跨语言任务性能
本研究通过跨语言 NLP 任务探讨了单语嵌入空间的相似性与性能之间的关系,提出了基于光谱的同构测度技术,证明其比先前的标准同构测度方法表现更佳,且其与基于语言距离的方法的结合有助于提高任务性能相关性。