- 使用合成字幕和迁移学习训练的音频字幕的 Whisper 变形器
本技术报告介绍了我们在音频字幕领域的研究,重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程,并呈现了我们实验的结果,包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音 - ACLDarkBERT: 互联网黑暗面的语言模型
本文介绍了一个在暗网数据上预训练的语言模型 DarkBERT,并通过与其他常用模型的比较表明使用特定于暗网的语言模型在各种用例中具有较好的性能,因此这种模型有望成为未来暗网研究的有价值的资源。
- 潜移:通过时间位移进行潜在扩散,实现高效的文本到视频生成
该研究提出了一种基于预训练图像生成模型的高效文本到视频生成方法 --Latent-Shift,该方法利用 U-Net 扩散模型在潜空间中学习视频扩散模型。利用无参数的时间移位模块来进行视频的生成工作。研究表明,Latent-Shift 的效 - 基于无条件扩散模型的实时文本驱动图像操作
该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率,并开发了一种新算法,可以快速学习和应用图像操作,从而提高实现应用的潜力。
- ScandEval: 用于北欧自然语言处理的基准测试
本文介绍了一个名为 ScandEval 的斯堪的纳维亚基准平台,该平台可对四个不同任务的任何预训练模型进行基准测试。我们开发并发布了一个名为 scandeval 的 Python 软件包和命令行界面,可以对上传到 Hugging Face - 通过神经元激活空间的对抗学习,在视觉问答中进行实例级别的特洛伊攻击
针对神经网络在 fine-tuning 时遇到的木马攻击问题,本文提出了在多层预训练模型上实现测试集样本水印攻击的方法,通过对样本之间和样本内部的多样性进行控制,最终得到在少量样本上可以成功攻击 fine-tuning 模型的工作。
- 探索用于小尺寸关键词检测的表示学习
本文探讨了如何利用自监督对比学习和预训练模型来进行低资源关键词检测中的表征学习,通过构建局部 - 全局对比同构网络和利用预训练 Wav2Vec 2.0 模型,该小型模型可以利用未标记的数据进行预训练,实验结果表明在小的标记数据集的情况下,自 - SubTuning: 多任务学习的高效微调
本研究探讨了一种新的用于 fine-tuning 神经网络的方法,称为子集 fine-tuning,即只对部分层进行精细调整并锁定其余权重,该方法可以在不增加计算成本的情况下实现多任务的学习和推理,并在数据稀缺的情况下实现与完全 fine- - 离散无监督单元实现的语音风格转换
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
- EMNLP基于跨模态相似性的课程学习在图像描述中的应用
该研究提出一种基于跨模态相似性的难度度量方法,用于图像字幕生成模型的训练,并在 COCO 和 Flickr30k 数据集上验证了其有效性,证明其在难样本和未见数据上表现出较高的泛化能力。
- AAAI即使没有基础数据也能实现更好的泛化小样本学习
本文介绍和研究了零基础广义少样学习(zero-base GFSL),提出了一种简单而有效的归一化方法,可以有效控制新类的权重分布的均值和方差,实现了对新类和基类的令人满意的性能,并且不使用任何基本样本的零基础 GFSL 方法甚至优于利用基本 - 零样本关系抽取的银标准数据学习
本文通过使用 zero-shot relation extraction 方法获得 silver standard data,提出了使用 clean data detection module 模块从中识别出 clean data,并使用 - BiViT: 二值化视觉转换器的极度压缩
本研究提出了针对视觉 Transformers 的二值化方法,其中包括了对 softmax attention 的优化,采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧,最终实现了在 TinyImag - EMNLP挖掘式零样本学习:基于语言模型的搜索方法
本文提出了一种使用正则表达式从未标记语料库中挖掘标记示例的替代模板提示方法,通过微调预训练模型,相比模板提示方法更加灵活和可解释,在使用相似模板时在多个任务中表现出更好的性能。
- MTet: 英越多领域翻译
MTet 是最大的公开平行语料库,包含 420 万高质量的训练句对和一个多领域测试集,同时发布了首个预训练的 EnViT5 模型,与之前的研究相比,其翻译 BLEU 得分最多提高 2 分,同时比之前的模型小 1.6 倍。
- ACL特殊符号调整的参数高效调整
提出一种名为 PASTA 的方法,只修改 Transformer 模型中每层自我注意模块前的特殊标记表示(例如 BERT 中的 [SEP] 和 [CLS]),可在只训练其总参数的 0.029% 下,实现与全微调相当的性能,不仅提供了一种简单 - ICLRLPT: 长尾蛇形提示调整技术用于图像分类
提出了一种有效的长尾 Prompt 调整方法用于长尾分类。该方法使用两个阶段的培训范例来学习训练可调节的提示符。实验证明,与之前的整个模型微调方法相比,此方法具有可比较的性能,并且更加强大。
- 社会科学的 Transformer 编码器
本文介绍了 Transformer Encoder for Social Science(TESS),这是一种紧凑预训练的深度神经网络,专门设计用于解决社会科学研究中的文本处理任务。经过两个验证测试,我们证明了在训练样本数量有限(<1,00 - 为培养情感 - 情感开放领域聊天机器人而设计的积极情感对话语料库
该研究使用情感数据增强方法,基于明确建模多轮对话中积极转移的情绪数据构建了语料库,并通过微调预训练的对话模型,开发了一种情感 - 情感开放域聊天机器人。该方法被证明在各种情感 - 情感指标上接近于人类表现,并与一些最先进的开放域聊天机器人进 - 二阶段微调:一种学习类别不平衡数据的新策略
本研究提出一种两阶段的微调神经网络的方法。首先,利用平衡权重重新设计模型进行初步的调整,然后再进行标准的微调过程,以解决在长尾分布数据上进行神经网络训练时类别不平衡和类别样本不足的问题。实验结果表明,这种方法在各种合成数据集和现实应用中都具