- FRACTAL:基于文本标签的细粒度评分
我们介绍了一种将响应级别标签细分为句子级别(伪)标签的方法,该方法利用多实例学习(MIL)和学习标签比例(LLP)技术以及先前信息训练专用模型进行句子级别评分,并利用模型预测对训练集进行伪标签,以进一步提高性能。我们在六个数据集和四个任务上 - 通过捕获物体间的关系提升航空图像中的检测能力
基于 transformer 的方法在三个基准测试中表现出一致的性能提升,特别是在 DOTA-v1.5 和 HRSC 2016 上名列前茅,相对于基线方法分别增加了 1.59 mAP 在 DOTA-v1.0、4.88 mAP 在 DOTA- - SHIELD:可解释人工智能的正则化技术
介绍了一种名为 SHIELD(选择性隐藏输入评估学习动力学)的可解释人工智能正则化技术,通过隐藏部分输入数据并评估预测结果的差异,改善模型质量、提高解释性,并在基准数据集上验证了其有效性,为开发透明可靠的人工智能正则化技术开辟了有前途的道路 - 提高大型语言模型的推理效率:研究优化策略与架构创新
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性 - 揭示 2022 年 ACL 和 EMNLP 会议数据集的趋势
自从采用 Transformer 架构以来,自然语言处理(NLP)已经显著发展。Transformers 催生了预训练大型语言模型(PLMs)。在多个任务中,NLP 系统的性能有了巨大提升,有些情况下甚至超过了人类。然而,事实仍然是,在预训 - 跨注意力并非必需:音频 - 视觉维度情感识别的动态跨注意力
视频情绪识别中,音频和视觉模态通常被期望具有互补关系,本研究提出了动态交叉注意力(DCA)模型来动态选择跨模态特征的交叉注视或不注视,以优化音频 - 视觉特征的表示,从而提升系统性能。在 RECOLA 和 Aff-Wild2 两个具有挑战性 - VersaT2I:利用多功能奖励改进文本到图像模型
最近的文本到图像 (T2I) 模型在大规模和高质量数据的帮助下,展现出令人印象深刻的性能,然而,这些 T2I 模型在生成具有美感、几何精确、忠实于文本和具有良好低级质量的图像方面仍然存在困难。我们提出了 VersaT2I,这是一个多功能的训 - 光谱卷积变换器:为视觉变换器协调实数与复数多视角光谱算子
通过在初始层使用卷积操作捕获局部信息,并利用复杂的傅里叶基函数捕获全局信息,我们提出了光谱卷积变换器(SCT),在减少参数的同时提供了在 ImageNet 数据集上胜过现有方法的性能改进,达到了 84.5%的 top-1 准确度,在 CIF - 进化计算对机器人设计的影响:一项基于欠驱动手外骨骼的案例研究
利用进化计算方法对机器人外骨骼设计进行优化,特别是在优化下驱动式手部外骨骼 (U-HEx) 的性能和可用性方面,结果显示进化计算方法在较短时间内持续提供精确和最佳解决方案,显著提高了转移给用户的扭矩大小和设备效率。
- 基于检索增强的 LLMs 的事件时间关系抽取
利用大型语言模型从相关知识中检索来增强提示模板和语言生成器的新型检索增强事件时间关系抽取方法,通过生成各种创意来有效提高事件时间关系抽取任务的性能。
- COLINGDr3: 对大型语言模型在开放领域多跳问答中不给出题外答案的要求
通过引入 Discriminate->Re-Compose->Re-Solve->Re-Decompose (Dr3) 机制,本论文在开放领域多跳问题回答(ODMHQA)中显著减少了离题答案的发生,改善了精确匹配(EM)表现近 3%。
- Jetfire:使用 INT8 数据流和每块量化实现高效准确的 Transformer 预训练
Jetfire 提出了一种高效准确的 INT8 预训练方法,通过 INT8 数据流优化内存访问和每个块的量化方法来实现与 FP16 基线相当的准确性,且相对于 FP16 基线,提供了 1.42 倍的训练加速和 1.49 倍的内存减少。
- 适应领域特定 RAG 的语言模型 RAF
在这篇论文中,我们提出了一种名为检索增强微调 (RAFT) 的训练方法,它能够提高模型在领域内回答问题的能力,并处理无关文档干扰,从而提升大规模语言模型的性能。
- EMNLPCDGP: 基于预训练语言模型的自动填空干扰项生成
本文通过探索预训练语言模型(PLMs)的应用作为备选项干扰项生成的替代方案,研究了填空干扰项的自动生成。实验证明,PLM 增强模型显著提高了性能,最佳模型使得 NDCG@10 得分从 14.94 提升至 34.17。我们的代码和数据集可在此 - 通过竞争激发机器人潜力
基于竞争学习框架,通过引入竞争环境中的竞争信息作为辅助信号,可以帮助个体机器人从竞争中获取知识,充分激发其动态潜力,从而提高性能。
- 改进分类器性能的通用框架:基于可解释人工智能方法
该论文提出了一个使用可解释人工智能技术方法来自动提升预训练深度学习分类器性能的通用框架,避免了重新训练复杂模型所带来的计算开销,通过两种不同的学习策略,自动编码器和编码器 - 解码器,来实现这一架构。
- 少即是多:用于视觉指令调优的数据值估计
通过对视觉指令数据集的实证研究,发现其存在显著冗余性,因此提出了一种新的数据选择方法 TIVE,它基于计算梯度估计了视觉指令的任务级别和实例级别价值,并根据估计值确定了视觉指令中的任务比例,选择代表性实例组成较小的训练集,实验证明该方法只需 - 第一位知道的人:令牌分配如何揭示大型视觉语言模型中的隐藏知识?
大型视觉 - 语言模型(LVLMs)在理解和回应人类指令时偶尔生成幻觉或有害内容。本研究利用线性探测方法揭示 LVLMs 输出层的隐藏知识,证明首个令牌的逻辑回归分布包含足够信息以决定是否回应指令,包括识别无法回答的视觉问题、防御多模态越狱 - 利用大型语言模型作为发错流产生器提升发错流检测
利用大型语言模型(LLM)生成多样和更真实的句子作为数据增强,结合不确定性感知的数据过滤方法,提高失语检测性能,进一步增强成本效益。
- 优化风险厌恶的人工智能人类混合团队
通过使用一种标准的强化学习方案以及经理人的学习,我们提出了一种能够改善混合团队(即人类与人工智能系统共同工作的团队)性能的方法,并展示了这个经理人在多个格子环境下的最优表现。