- ACL跨语言转移的高效语言特定模型精简
提出从大规模多语言 Transformer 中提取压缩的、语言特定的模型的方法,通过二阶段稀疏精调生成双语模型,从而在目标语言性能方面表现出最小的降级而且速度更快。
- mmT5: 模块化多语言预训练解决源语言幻觉
为解决多语言下序列到序列模型生成不准确的问题,提出一种模块化多语言序列到序列模型 mmT5,通过使用语言特定模块来消除语言特定信息和语言无关信息之间的差异,并发展有效的零 - shot 迁移策略,成功提高了语言生成准确性和模型性能。
- 多语种机器翻译中的数据不平衡和表示退化缓解
提出了一个名为 Bi-ACL 的框架,旨在解决多语言神经机器翻译中的数据不平衡和表示退化问题。该框架使用仅目标侧单语数据和双语词典,结合双向自编码器和双向对比学习模块,并使用在线约束波束搜索和课程学习采样策略。实验表明,该方法对长尾语言和高 - ICLRMphayaNER:Tshivenda 命名实体识别
本文介绍了在新闻领域中的第一个 Tshivenda 命名实体识别数据集 MphayaNER,研究了其性能和与其他南部班图语的零样本迁移;实验证明与 chiShona 的数据融合可以显著提高模型性能,同时发布了 MphayaNER 和基线模型 - 分割任何事物
介绍了 Segment Anything (SA) 项目 —— 一项新的任务、模型和图像分割数据集,该模型具有任务迁移和零样本学习的能力,并通过大规模数据集的训练,达到或超过以前完全监督结果的性能,旨在为计算机视觉的基础模型研究提供支持。
- CVPR从自然语言监督中学习开放词汇语义分割模型
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提 - 大规模弱监督进行稳健语音识别
研究了训练简单的语音处理系统预测互联网音频大量转录的能力,在 680,000 小时的多语言和多任务监督的基础上,生成的模型具有很好的泛化能力,并且通常与之前的完全监督结果竞争,但在零次传输设置下不需要进行任何微调,与人类相比,模型的准确性和 - 情感嵌入用于情感、语言和标注格式之间的知识转移
本文研究了如何使用多语言模型和 Demux 来建立一个能够在不同配置之间转换的单一情绪识别模型,其中 Demux 能够预测多种情绪,并在它们的情感嵌入中进行操作,从而允许我们动态地更改模型预测的情绪群集。我们表明,Demux 能够在零样本学 - 使用神经符号生成模型绘制超出分布的图像
本文提出了一种基于神经符号生成模型的笔画绘制方法,可以以无监督的方式学习泛化表征,实现对多种数据和任务的零泛化迁移,进一步探索了概念学习系统的通用性和鲁棒性。
- EMNLPHyper-X: 一个统一的超网络,用于多任务多语种转移
本文提出 Hyper-X 模型,它将多任务和多语言学习相结合,并通过适应性生成适配器模块的权重,通过学习结合任务和语言特定的知识,实现对未出现的语言和任务 - 语言组合的零样本迁移,并在新语言的少样本情况下始终产生强大的结果。
- ACLDeepStruct: 为结构预测预训练语言模型
介绍了一种提高语言模型结构理解能力的方法,它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式,并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。
- ACL多任务学习用于多语言模型零 - shot 性能预测
本研究通过建模探索基于 Transformer 的多语言语言模型在零样本跨语言转移上的性能预测,并将其视为多任务学习问题,从而建立准确的预测模型。我们的方法还同时进行了特征选择,识别出对多个任务的零样本表现具有影响的共同特征。
- IJCAI符号问题上通用强化学习的关系抽象
本文介绍了一种新的强化学习方法,利用关系抽象和深度学习,学习符号状态空间中可推广的 Q 函数,并能在零阶转移下转移到不同的相关问题,实现对大规模问题的有效知识迁移。
- 零样本基于方面的情感分析
本研究提出了一种名为对比后训练的自然语言推理方法,可以在没有人工注释数据的情况下,对新领域中针对方面的情感分析(ABSA)进行零 - shot 转移,并在多个 ABSA 任务中进行了评估。
- ICMLIGLUE:跨模态、跨任务和跨语言的迁移学习基准
本研究介绍了一个跨越 20 种语言的多模式多语言标准化测试集,用于评估多语言多模式的迁移学习效果,结果表明翻译测试优于零射击传递,只有很少的无标签文本数据可用于预训练,而且源语言和目标语言之间的距离对成绩的影响较小。
- 基于描述的任务导向对话建模
本文介绍了一种基于自然语言描述的任务导向对话系统,并提出了一种简单而有效的基于描述的对话状态跟踪模型(D3ST),证明其在多个基准测试中具有更高的性能和数据效率。
- CVPRLiT: 基于锁定图像文本调整的零次迁移
该研究提出了对比度调整(contrastive-tuning)方法,通过对比训练使图像和文本模型对齐,该方法能够在使用预训练的同时仍然发挥其优势,其中最佳表现的是锁定的预先训练的图像模型和解锁的文本模型。LiT 模型具有其零 - shot - 通用手持物体重定向系统
本文提出了一个简单的、无模型的框架,可以学习如何重新定向物体,展示了超过 2000 种几何不同的物体在不同情况下的重新排列能力,并证明了此策略能够在真实世界中可行的证据。
- ACLBERT 多语言模型的时间?分离跨语言传输的关键要素
该论文在多语言语言模型上进行了大规模实证研究,并发现词嵌入的对齐程度与零 - shot 迁移的性能密切相关,因此需要在多语言模型中专门改善词嵌入的对齐程度。
- AAAISGD-X:对基于模式引导的对话系统鲁棒泛化能力的基准测试
通过扩展 Schema-Guided Dialogue 数据集,我们研究了对话系统在语义相似但风格不同的服务 API 语言样本中的鲁棒性,发现两个最优状态跟踪模型在处理此类数据时存在较大瓶颈,同时提出了一种改进 Schema 鲁棒性的简单数