本文从认知理论的角度扩展了目标导向脚本生成的任务,并提出了基于子目标的层次化组织方法。研究者们贡献了一个新的数据集,并提出了几种基线方法和评估指标,表明了子目标与层次化脚本生成的有效性。此外,研究者们还设计和评估了发现子目标的模型,并发现此过程比从分段步骤中进行摘要更加困难。
May, 2023
本文介绍了 Tetris 任务,它考虑更现实和更通用的设置,其中输入不仅包括目标,还包括附加的用户上下文,包括偏好和历史。为了解决这个问题,我们提出了一种新的方法,它使用两种技术来改进性能:(1)概念提示,和(2)面向脚本的对比学习,解决了步骤重复和幻觉问题。在我们的基于 WikiHow 的数据集上,我们发现两种方法都改善了性能。该数据集,代码仓库和模型将公开提供,以促进对这个新任务的进一步研究。
Aug, 2022
通过建立 MultiScript 基准测试,我们提出了两种引入任务相关知识的多模态生成框架,这些框架显著提升了脚本生成和后续步骤预测的性能。
Oct, 2023
提出了一种新的多媒体生成式脚本学习任务,通过同时跟踪文本和视觉模态中的历史状态,并以描述性图像呈现,旨在生成可视状态跟踪、对未见任务有归纳性和具有多样性的脚本,通过多媒体选性编码器实现对视觉状态变化的编码,使用检索增强解码器从以前观察到的任务中传递知识,通过优化多样性导向的对比学习目标,呈现每个步骤的不同信息。实验结果表明,该方法显著优于强基线。
本文首次定义了有约束语言规划的任务,并提出了一种过度生成和过滤的方法,以提高大语言模型在此任务中的性能,并使用此方法提取了一个由 55,000 个脚本组成的 CoScript 数据集,并在实验结果中证明了我们的方法显着提高了大型语言模型的有约束语言规划能力,特别是在约束忠实度方面。此外,CoScript 证明对于赋予较小语言模型具有受限语言规划能力是相当有效的。
该论文提出了一种新的具有挑战性的任务,即非顺序图脚本推理,旨在捕捉程序规划中的可选步骤和可互换步骤,通过多模态框架将视频转换成观察到的步骤路径,以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线,人类评估显示超过 WikiHow 线性基线,能够更好地捕捉顺序和非顺序步骤关系。
自然语言处理领域的现代机器学习技术可用于自动生成目标导向对话系统的脚本。本文提出了一个研究自动生成目标导向对话系统脚本的通用框架,并描述了一种用于预处理 JSON 格式对话数据集的方法。比较了基于 BERTopic 和潜在狄利克雷分配的两种提取用户意图的方法,并比较了基于逻辑回归和 BERT transformer 模型的两种分类用户语句的算法实现。与其他方法相比,使用 bert-base-uncased 模型的 BERT transformer 方法在精确度(0.80),F1 分数(0.78)和马修斯相关系数(0.74)等三个指标上表现更好。
Dec, 2023
本文介绍了两种自动化技术,基于深度强化学习和奖励塑造来控制计算机生成的故事的情节,其中一种利用 PPO 对现有的基于变压器的语言模型进行微调,以生成既能连续文本又能寻求目标的故事;而另一种从不断展开的故事中提取出一个知识图谱,由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。
Dec, 2021
本文使用迁移学习方法改善目标导向聊天机器人的高质量训练数据的不足,以提高其成功率,并展示该方法与其他处理方法的综合应用可取得最佳结果。
Feb, 2018
本论文通过使用神经语言模型,演示了一种新的方法来生成高质量的标准脚本,同时定义了两个互补的任务,即边缘预测和脚本生成,这一方法可以克服以前脚本收集困难的问题。
Apr, 2021