- 用于预测监测的后缀预测编码器 - 解码器模型
本文提出了一种基于编码器 - 解码器模型和注意力机制的方法,通过解耦前缀的表示学习和预测阶段来预测未来的活动顺序,同时在推理阶段使用启发式搜索算法来改善后缀的活动选择,该方法在 12 个公共事件日志上与 6 种最新提出的方法进行了比较,取得 - EMNLP遮盖正确令牌:一种令人尴尬简单的错误修正方法
本文探讨了正确标记应如何更好地被利用以促进有效训练的文本错误纠正方法,并提出了一种基于随机蒙版的简单而有效的策略来实现这个目标。在汉语数据集的拼写错误纠正和语音识别错误纠正以及英语数据集的语法错误纠正实验中,我们的方法提高了校正精度。
- 基于指针网络编码器 - 解码器架构的事件结构提取
通过提出基于指针网络的编码器 - 解码器模型,构建一种与众不同的元组格式以表示事件记录和相应角色信息,实现事件信息的提取和表示的端到端解决方案,实验表明此方法在 ACE2005 数据集上取得了具有竞争力的效果。
- Point-MA2E: 带遮蔽和仿射变换自编码器用于自监督点云学习
本论文提出了一种基于 Masked 和 Affine 变换的自我监督点云学习模型,通过在输入中添加 Affine 变换和掩模来损坏点云并使用编码器 - 解码器模型重建完整点云,实验证明其在对象分类、小样本学习、鲁棒性测试、部件分割和 3D - EMNLP使用 TabT5 进行表格到文本生成和预训练
TABT5 是编码器 - 解码器模型,可以生成基于表格和文本输入的自然语言文本,结合表格特定的嵌入和预训练,成功地克服了编码器的限制,并在多个领域取得了最新的最佳结果。
- EMNLP面向语音的关系抽取
本文提出了一个新的听取信息提取任务,即语音关系提取,通过文本到语音系统构建训练数据集,并通过众包和本土英语演讲者构建测试数据集,探索语音关系提取的两种方法:通过预训练的 ASR 模块进行基于文本的提取的流水线方法和通过新的提出的编码器解码器 - 多模式摘要的段落级视觉 - 语言语义对齐建模
本文提出了 ViL-Sum 来同时建模段落级别的视觉 - 语言语义对齐和多模式摘要,通过使用联合多模式编码器的两个任务,图像重新排列和图像选择,ViL-Sum 可以捕获模态间的相互作用,在最终摘要中选择与段落相关的摘要图像。实验结果表明,我 - 基于序列跨模态语义图的方面情感分类
本文提出了一种新的框架 SeqCSG,其中包括构建顺序跨模态语义图和编码器 - 解码器模型方法,用于有效利用跨模态语义图进行多模态方面的情感分类,实验结果表明,我们的方法优于现有方法并在两个标准数据集中实现了最先进水平。
- ECCV当计数遇到 HMER: 一种针对手写数学表达式识别的计数感知网络
该论文提出了一种名为计数感知网络(CAN)的非传统网络结构,通过联合优化手写数学表达式识别(HMER)和符号计数两个任务,可以更精确地读取具有复杂结构或生成较长标记序列的数学公式图像。
- 循环文本转换为人脸生成对抗网络:基于 Transformers 的实现
本文提出 Cycle Text2Face 这一新的编码器 - 解码器模型,通过使用句子转换器和 GAN 生成描述文本的图像,并在解码器部分复现脸部文本,从而获得了比以前基于 GAN 的模型更好的结果。在 CelebA 数据集上评估模型,获得 - 端到端汉语语音识别的多级建模单元
本文提出了一种新颖的多级建模单元方法,通过编码器块将音节作为建模单元,解码器块处理字符级建模单元,实现了汉语语音识别。实验表明,该方法在 AISHELL-1 语料库上取得了很好的结果,在 Conformer 和 Transformer 骨干 - 基于后验分布适应的混合 CTC / 注意力系统的端到端上下文 ASR
该研究针对 End-to-end 语音识别模型在识别罕见专有名词上性能较差的问题,提出了一种基于上下文偏置注意力的改进方案。该方案通过在注意力编码器解码器模型中添加上下文偏置注意力模块,使模型有能力识别上下文短语。在 GigaSpeech - 拼音和汉字双重解码对端到端普通话语音识别的有效性研究
该研究提出了一种在单输入双输出(SIDO)多任务框架下,基于拼音和汉字之间一一对应特征的改进双解码器模型,以及一种异步解码模式和双阶段培训策略,该模型在没有语言模型的情况下,在 AISHELL-1 数据集的测试集上相对于强基准模型有大幅度改 - 多模态视频字幕生成的端到端生成预训练
提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT),通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标,以从生图像和录制语音直接生成说明的端到端模型来有效地 - 基于变分堆叠局部注意力网络的多样化视频字幕生成
提出了一种基于 VSLAN 的视频字幕生成模型,该模型在编码器 - 解码器体系结构的基础上利用低秩双线性池化进行自我关注特征交互,并采用多特征流叠加的方式实现多样性编码,并实现了端到端的字幕生成,取得了较好的性能。
- MM利用资源丰富的语言数据集进行资源匮乏语言的端到端场景文本识别
本文介绍了一种用于端到端场景文本识别的训练方法,该方法利用多语言数据集进行编码器的预训练,将编码器上的知识泛化到目标语言;同时,使用目标语言的数据集训练解码器以提高模型在目标语言数据上的表现。实验表明,该方法在小规模数据集上具有较好的识别效 - 微软基于 WMT21 共享任务的多语言机器翻译系统
本文介绍 Microsoft 在 WMT21 大规模多语言机器翻译竞赛中使用的机器翻译系统,该系统使用基于 DeltaLM 的泛用预训练多语言编码器 - 解码器模型进行初始化,应用迭代反向翻译方法和渐进式学习来优化性能,在三个评估轨迹中都获 - IJCAI针对知识库的复杂问答的正式查询构建与查询结构预测
本文提出一种新的正式查询构建方法,它包括两个阶段:第一阶段预测问题的查询结构并利用结构约束候选查询的生成;第二阶段按照以前的方法对候选查询进行排名。实验结果表明,我们的正式查询构建方法在复杂问题上表现优异,同时在简单问题上保持一定的竞争力。
- MM使用循环神经网络实现英文至孟加拉语机器翻译
本文描述了一种利用循环神经网络实现英语到孟加拉语机器翻译的系统架构,采用了基于知识的上下文向量来映射英语和孟加拉语单词,并且通过使用不同的激活函数,分别在编码器层利用线性激活函数,在解码器层采用了 tanh 激活函数。其中,GRU 比 LS - CVPRS3Net:用于深度引导图像重照的单流结构
本研究提出了一种基于深度引导的图像插值模型,使用神经网络的编码器解码器模型及注重照明有关区域的注意力模块和强化模块进行处理,实现了 NTIRE 2021 深度引导下任意图像照明挑战的第三高结构相似度。