- 基于激光雷达的全景分割与追踪
本文提出了一个简单而有效的基于检测的网络,用于激光雷达全景分割和追踪任务,通过使用点级别注释训练目标实例检测分支,以及使用轨迹级别监督回归模态中心和物体范围来获取细粒度实例段,该方法在多个 3D/4D LPS 基准测试中表现出色,超过最新的 - ACLTik-to-Tok:一个逐令牌翻译语言模型的嵌入初始化策略用于有效语言适应
通过模型转换策略将高资源单语言模型转化为新的目标语言,从而在低资源语言和中等资源语言上实现了新的最先进性能。
- 自动发音评估的新型损失函数:保留音素区分的序数回归
我们提出了一种训练基于回归的自动发音评估模型的方法,通过引入音素 - 对比次序(PCO)损失函数,从而更好地保留了音素类别之间的区分度和回归目标输出的顺序关系,并在一些现有的最先进模型上进行了可行性和有效性的实验证明。
- 数据过滤网络
通过构建数据过滤网络,该论文研究了大训练集上数据筛选的问题,并基于该网络构建了新的图像 - 文本数据集,为状态 - of-the-art 模型训练提供了高性能数据集,同时还释放了可从公开数据从头训练高性能数据过滤网络的新的 200 亿样本数 - 自动武器检测的新型深度学习流程
提出了一种新的流程,该流程由一组具有不同架构的卷积神经网络组成,用于监测实时视频中的武器,相比现有系统,该流程平均提高了 5% 的准确性、特异性和召回率。
- 多文档摘要:一项比较评估
本研究通过对不同领域不同类型数据集上的最新多文档摘要模型进行评估,探究现有模型的局限性,为未来研究方向提供参考。研究发现,在 MS2 数据集中,通用预训练模型 LED 的表现优于 PRIMERA 和 PEGASUS 模型。本研究以 ROUG - GPT 的金融素养:来自于金融素养测试的洞察,以及人们如何将其作为咨询来源的初步测试
我们评估了 GPT - 一种大型语言模型 - 作为大众财务机器人顾问的能力,通过使用一项财务识别力测试。
- WeatherBench 2:面向下一代数据驱动的全球天气模型的基准测试
WeatherBench 2 是由 Rasp et al. (2020) 提出的全球中程(1-14 天)天气预测基准的更新版本,旨在加速数据驱动的天气模型的进展。本文描述了评估框架的设计原则,并呈现了当前最先进的物理模型和数据驱动的天气模型 - 时空对齐网络用于动作识别
通过引入视点不变特征表示,研究提高现有动作识别架构;提出了一种轻量级通用的空间 - 时间对齐网络(STAN)用于学习动作识别的几何不变表示;实验证明 STAN 模型在广泛使用的数据集上能够在从头开始训练的模式下持续改进动作识别任务的最先进模 - 保持传递性的图表示学习,以桥接局部连接性和基于角色的相似性
本文介绍了统一图转换网络(UGT)方法,它能够有效地将局部和全局的结构信息整合为固定长度的向量表示,并提出了一种有效学习转移概率的自监督学习任务,以融合局部和全局的结构特征,该方法在各种下游任务上显著优于最先进的模型基准。
- AI 代码生成器中的漏洞:探索有针对性的数据中毒攻击
通过数据污染评估 AI 代码生成器的安全性,这是一种通过将恶意样本注入训练数据以生成易受攻击代码的攻击方法;我们通过注入含有安全漏洞的代码来污染训练数据,并评估该攻击对代码生成的最新模型的成功程度。我们的分析显示,即使是少量的数据污染,也会 - 利用多个帖子依赖性改进社交媒体知名度预测
提出了一种名为依赖感知序列网络 (Dependency-aware Sequence Network, DSN) 的新型预测框架,该框架充分利用了社交媒体帖子之间的多个依赖关系,通过多模态特征提取器和层级信息传播方法提高了预测准确度,并使用 - SwiFT:Swin 4D fMRI Transformer
使用 SwiFT 模型,利用多头自注意机制和绝对位置嵌入,从 4D 功能性脑 MRI 数据中直接学习大脑动态。实验结果表明,SwiFT 在诸如预测性别、年龄和认知智能等任务中始终优于最新一代模型,并可进行对比损失自我监督预训练以获得更好的性 - ACL2023 BEA 共享任务:在教育对话中生成 AI 教师回答
本文选举为教育对话中教师回应产生共性任务的首个任务,以基于生成语言模型的人工智能教师为校准目标;在八个参赛者中,NAISTeacher 系统以 GPT-3.5 生成器为基础靠类似于提示流的集合和对话环境上的排名生成,达到自动和人工评估的双重 - CVPRFishEye8K:鱼眼相机物体检测的基准测试和数据集
本文介绍了一种针对鱼眼摄像头的开放式 FishEye8K 基准数据集,用于道路物体检测任务,该数据集包含五个类别,涵盖了 157K 个边界框。同时,本文还评估了基于弱监督和无监督策略的最新优秀模型,以及在该数据集上的实验结果。
- BiomedGPT:一种统一和综合的生物医学生成式预训练 Transformer,可用于视觉、语言和多模态任务
本文介绍了一种统一且通用的生物医学生成式预训练转换器(BiomedGPT)模型,利用自监督方法在大量和多样化的数据集上进行训练,可接受多模式输入并执行多种下游任务,在 20 个公共数据集上表现优于先前绝大多数最先进模型,涵盖了 15 种独特 - EMNLP句子级递增神经共指消解
本文提出一种句子增量神经代词消解系统,成功地融合了两种最新的技术:非增量模型和内存网络模型,在 OntoNotes 和 CODI-CRAC 2021 中达到了更好的结果。
- ACL跨模态检索和综合的多模式关系抽取
本研究提出了一种多模态关系抽取方法,通过检索对象、句子和整个图像的文本和视觉证据,综合考虑了同一和不同模态之间的信息,从而比现有的方法更准确地识别语义关系并显著提高了效果。
- VanillaKD: 从小规模到大规模重返纯净知识蒸馏的威力
本文发现了先前知识蒸馏方法中存在的小数据陷阱并证明了对于大规模数据集,纯粹的知识蒸馏框架可以用更强的数据增强技术和使用更大的数据集来缩小与其他知识蒸馏方法之间的差距,从而使其在大规模情况下效果惊人。
- REFinD:金融关系抽取数据集
本文提出 REFinD 数据集,该数据集为金融文档中的大规模关系注释数据集,可用于信息检索、语义搜索、问题回答和文本蕴含等任务,同时对各种最先进的深度学习模型进行实证评估并强调数据集带来的挑战。