哈利・波特与自然语言动作预测挑战

ACLMay, 2019

哈利・波特与自然语言动作预测挑战

Harry Potter and the Action Prediction Challenge from Natural Language

David Vilares, Carlos Gómez-Rodríguez

TL;DR本文讨论了利用文本描述来预测活动的挑战，以哈利・波特系列小说中的咒语作为抽象活动的关键词，并使用 LSTM 方法来预测下一个咒语。

Abstract

We explore the challenge of action prediction from textual descriptions of scenes, a testbed to approximate whether text inference can be used to predict upcoming actions. As a case of study, we consider the worl

action prediction textual descriptions harry potter spell lstm-based approach

发现论文，激发创造

利用基于 Transformer 的人工智能技术检测奇幻文学中的咒语

我们的研究使用 BERT 来识别哈利波特系列小说中基于上下文的魔法咒语。通过使用不同的数据集和训练方法对 BERT 进行微调，我们展示了魔法咒语的上下文可以被识别出来，而模型中的序列长度对于上下文识别起到了重要作用。我们的模型应用展示了有希望的结果，并值得在后续研究中深入探讨。

Aug, 2023

ClassActionPrediction：美国集体诉讼案件法律判断预测的一项具有挑战性的基准测试

该研究发布了第一个针对美国集体诉讼案件的、基于法律自然语言处理的数据集，利用 Longformer 模型超越人类专家的精度，并明确表明 Longformer 模型比人类专家更好地调整。

Nov, 2022

Speech2Action：跨模态监督下的行为识别

本研究使用 BERT 基于对电影剧本的分析，研究了语音的文字转录以及行动之间的关联，训练了一个 Speech2Action 分类器，并在 188M 个片段的不带标签的电影语音数据上应用了该模型，获得了超过 800K 个视频片段的弱标签，最终通过使用这些标签标记的数据进行训练，在不使用单个手动标记行动示例的情况下，在标准动作识别基准测试上展现出卓越的行动识别表现。

Mar, 2020

促进 LSTMs 早期预测动作

本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 22.0％（JHMDB-21），14.0％（UT-Interaction），和 49.9％（UCF-101）的准确率。

Mar, 2017

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

计划中基于文本的动作模型获取

本论文提出了一种利用自然语言处理和约束满足技术从文本描述中学习行动模型的方法，通过构建一种新型语言模型提取计划轨迹并建立一组约束条件来生成行动模型。实验结果表明这种方法是有效而高效的。

Feb, 2022

使用 Transformers 的自然语言处理在保险精算中的应用：在文本特征中的案例研究

本教程介绍了将文本数据纳入精算分类和回归任务的工作流程，重点介绍了使用基于 transformer 模型的方法。通过对一组包含 400 个单词的汽车事故的描述和一组短期财产保险索赔描述的数据集进行演示，探讨了多语言环境和长输入序列等挑战性问题，同时展示了解释模型输出、评估和改进模型性能的方法，通过在应用领域或特定预测任务上对模型进行微调，提供了实现分类任务处理的实用方法。使用仅经过最少预处理和微调的现成自然语言处理 (NLP) 模型的语言理解技巧所实现的结果，充分展示了迁移学习在实际应用中的威力。

Jun, 2022

通过语言模型预测手掌动作 @ Ego4D 长期行为预测挑战赛 2023

Palm 是一种利用视觉语言和大型语言模型解决长期动作预测任务的解决方案，通过组合图像字幕模型和大型语言模型可以提高常识推理能力，并在 EGO4D LTA 挑战赛中表现出比其他参与者更好的动作预测表现。

Jun, 2023

通过生成和遵循自然语言指令进行分层决策

使用自然语言隐式指令作为复杂动作的表达和组合，而不是直接选择微操作，本文基于 76,000 个自然语言指令和操作的数据集在实时策略游戏环境中训练模型，结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型，并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。

Jun, 2019

将自然语言指令映射到移动 UI 操作序列

本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射，并结合数据标注与合成技术，对其进行了完整的任务评估，并在 PIXELHELP 数据集上达到了 70.59% 的准确率。

May, 2020