神经多序列对齐技术（NeuMATCH）

CVPRFeb, 2018

A Neural Multi-sequence Alignment TeCHnique (NeuMATCH)

Pelin Dogan, Boyang Li, Leonid Sigal, Markus Gross

TL;DR本文提出了一种基于神经网络的、端到端的异构数据（视频到文本）对齐方法，采用长短时记忆（LSTM）模块栈移动数据进行对齐操作，避免了已有方法中的局限性和缺陷，并在半合成和实际数据上取得了领先于现有技术的表现。

Abstract

The alignment of heterogeneous sequential data (video to text) is an important and challenging problem. Standard techniques for this task, including Dynamic Time Warping (DTW) and Conditional Random Fields (CRFs), suffer from inherent drawbacks. Mainly, the Markov assumption implies th

heterogeneous data alignment neural architecture lstm end-to-end training

发现论文，激发创造

回到未来 -- 文本表示的顺序对齐

本研究探讨了语言演化之对于机器学习模型的影响，提出使用序贯对齐学习表示来处理数据漂移的方法，并在多个任务上取得优异的效果。

Sep, 2019

神经半 - Markov CRF 用于单语词对齐

提供了一种新的神经半 - Markov CRF 对齐模型，它通过可变长度跨度统一了单词和短语对齐，通过人工注释创建了一个新的基准，显示出在现实设置下评估单语言对齐模型的性能，并证明了该模型在自动文本简化和句对分类任务中具有良好的普适性和实用性。

Jun, 2021

长时间视频的时间对齐网络

本文提出了一种时间对齐网络，能够对长期视频序列和关联文本句子进行处理，使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频，应用于多个视频理解任务，包括文本 - 视频检索和弱监督视频动作分割等，获得了更好的性能。

Apr, 2022

神经网络序列到序列学习

本文提出了一种基于深度神经网络（DNN）的序列学习方法，使用多层长短时记忆（LSTM）解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果，同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。

Sep, 2014

听、关注和行：将导航指令映射为动作序列的神经网络

提出一种神经序列到序列模型，用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比，该模型不需要专门的语言资源（例如解析器）或任务特定注释（例如种子词典），因此具有通用性，同时在基准单句数据集上取得了迄今为止最佳结果，并为有限培训多句子设定提供竞争结果。

Jun, 2015

Match-SRNN：使用空间 RNN 建模递归匹配结构

本文利用深度学习的方法，提出了一种名为 Match-SRNN 的神经网络结构，用于解决语义匹配问题，该方法将两个文本之间的全局互动生成视为递归过程，并通过构建张量和使用空间递归神经网络来模拟匹配结构，实验结果表明该模型在两个语义匹配任务中表现出色。

Apr, 2016

一个用于文本序列匹配的比较和聚合模型

本研究将词汇级别的比较和聚合作为一个一般的框架，以解决在 NLP 任务中，如机器理解、答案选择和文本蕴含等方面的序列匹配问题，并使用卷积神经网络来执行该框架。研究结果表明，某些基于逐元素操作的简单比较功能可以比标准神经网络和神经张量网络表现更佳。

Nov, 2016

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015

使用更丰富的对齐特征进行简单而有效的文本匹配

本研究提出了一种快速、强劲的神经方法来进行通用文本匹配应用，通过保留原始点对特征、前一对齐特征和上下文特征三个关键特征，并简化其他所有组件，该模型在自然语言推理、释义识别和答案选择等任务上的性能与最先进技术相当，在参数更少的情况下，推理速度至少比类似的模型快 6 倍以上。

Aug, 2019

视频文本对齐的强基准

通过建立一个简单而强大的基于 Transformer 的模型，本研究考虑了视频和文本在时间上的对齐问题，并通过考虑语音识别误差的减少、选择不同的视觉 - 文本骨干和将嘈杂的 ASR 转录转化成描述性步骤等关键因素，实现了在叙述对齐和步骤对应任务上明显超越现有技术的卓越性能。

Dec, 2023