基于注意力层次解码器的自动生成图形程序
本研究旨在利用预先训练的卷积神经网络,结合注意力机制和循环神经网络,将图像特征与语言模型相结合,实现图像描述生成。实验结果与现有先进方法相比,具有竞争性的性能。
Mar, 2022
使用深度神经网络和 GRU 注意机制对图像进行描述生成的研究提出了一种深度神经网络框架,通过多个预训练的卷积神经网络作为编码器从图像中提取特征,并使用 GRU 语言模型作为解码器生成描述性句子。通过将 Bahdanau 注意模型与 GRU 解码器集成,我们的方法提高了性能,并在 MSCOCO 和 Flickr30k 数据集上展示出与最先进方法相比具有优势的分数。我们提出的框架可以弥合计算机视觉和自然语言之间的差距,并可以扩展到特定领域。
Oct, 2023
本文对 GUI 与自然语言描述软件之间的联系进行了综合实证研究,收集、分析和开源了一个由人类标注者提供的大规模功能 GUI 描述数据集,并探究了四种神经图像字幕模型的表征潜力,以预测不同粒度的自然语言描述,并通过大规模用户研究定量和定性评估了这些模型,最后提出多模态模型的潜力以增强未来的自动化软件文档技术。
Jan, 2023
本研究使用深度学习方法,基于单个输入图像,在三个不同平台(即 iOS、Android 和基于 web 的技术)中以超过 77% 的精度自动生成代码。
May, 2017
本文提出了基于语法的结构卷积神经网络用于代码生成,该模型可以预测编程语言的语法规则并生成代码,实验结果表明,相较于现有的循环神经网络方法,本文所提出的模型大幅提高了 5 个百分点的性能。
Nov, 2018
本研究探讨了使用 LSTM-RNN 与 Transformer 网络作为解码器对无序图形程序进行识别的有效性,以及使用具有多样性奖励的强化学习方法来增强解码器的感知偏差,并在两个图形程序生成数据集上实现了最先进的结果。
Mar, 2021
本文介绍了使用深度神经网络中的递归神经网络和卷积神经网络等措施来实现注意力机制,以解决多元随机变量富含联合分布的结构化输出问题。通过典型任务如机器翻译、图像字幕生成、视频片段描述和语音识别实验,系统展示了很好的性能。
Jul, 2015
现代的图形用户界面(GUI)展示着不同的文本、图形和交互元素的排列,但 GUI 的表达方式却没有跟上。为了更高效地利用机器学习在 GUI 中的潜力,Graph4GUI 利用图神经网络捕捉了各个元素的属性以及它们之间的语义 - 视觉 - 空间约束关系。通过多项任务的效果验证,学习到的表示尤其在具有挑战性的 GUI 自动补全任务中表现出了其有效性,该任务涉及在部分完成的 GUI 中预测剩余未放置元素的位置。与基准方法相比,新模型的建议显示出更好的对齐和视觉吸引力,并且在主观评分上获得了更高的偏好度。此外,我们还展示了设计师在使用我们的模型作为自动补全插件时所感知到的实际效益和效率优势。
Apr, 2024
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019
本篇论文中,采用了 GRU-based encoder 和 Bahdanau attention mechanism 对英语文本进行了自动摘要,使用 News-summary 数据集进行训练,其输出表现优异,可以用作报纸头条。
Feb, 2023