lstm architecture | BriefGPT

关键词lstm architecture

搜索结果 - 12

通过动力系统洞察实现超参数无关的深度神经网络训练
我们提出了一种专门用于深度神经网络（DNNs）的随机一阶优化方法 ECCO-DNN，该方法将优化变量轨迹建模为动力系统，并开发了一种离散化算法，根据轨迹的形状自适应选择步长。该方法提供了两个关键启示：快速连续时间收敛的动力系统设计和根据数值
PDF8 months ago
可控歌词旋律生成
我们提出了一种可控的歌词到旋律生成网络，能够以用户期望的音乐风格从歌词中生成逼真的旋律，通过验证各项指标，初始控制生成的旋律的研究表明具有更好的生成质量和与用户的互动性。
PDFa year ago
ACL偏见的诞生：一项关于英语语言模型中性别偏见演变的研究
研究发现使用 LSTM 架构训练的语言模型在表示性别时存在动态变化，并且性别信息逐渐局部化。通过监控训练动态，可以检测到女性和男性在输入嵌入中的表示不对称。去除偏见的策略如何应用需要更多深入探讨。
PDF2 years ago
ACLAfriKI: 机器在环中的南非荷兰语诗歌生成
该论文提出了一个名为 AfriKI 的生成语言模型，基于 LSTM 体系结构，训练了当代小说的小语料库，旨在促进人类创造力，在机器辅助下探索 Afrikaans 诗歌生成，为我们所知，这是首次尝试用 Afrikaans 进行创造性文本生成的
PDF3 years ago
解释和解读 LSTMs
本章节探究如何使 Layer-wise Relevance Propagation (LRP) 技术适用于序列数据建模和预测所使用的 LSTM 架构，需要更新传播方案并扩展基础理论框架以提供准确的解释。
PDF5 years ago
ACL自然语言推理的标记级别解释生成
本文提出一种使用简单 LSTM 架构的零样本句子对标记来生成自然语言推理的 token 级解释的方法，并使用 SNLI 数据集进行了实验，与黑盒方法相比，白盒方法的匹配精度较低。
PDF5 years ago
VIENA2：一款驾驶预测数据集
本论文介绍了一个新的数据集 VIENA2，包括五种常见的自动驾驶场景，提供超过 15K 的全高清视频、多种传感器测量结果以及 25 个不同动作类别标注，使用新的多模态 LSTM 结构进行动作预测，并进行了全面的数据统计和技术评估。
PDF6 years ago
ICLR有序神经元：将树结构集成到循环神经网络中
本文提出了一种新的循环神经网络体系结构，称为 ON-LSTM，通过对神经元进行排序来添加合理的生物学归纳偏差，从而增强了语言建模、无监督解析、有针对性的句法评估和逻辑推理等四项任务的性能表现。
PDF6 years ago
基于有向无环图的长短时记忆网络用于语言分词
本文介绍了一种新型神经模型，通过在有向无环图上使用长短时记忆网络来整合单词级别信息，结合预训练的字符或单词嵌入向量，实现了比基准模型更好的中文分词表现。
PDF7 years ago
ICCV促进 LSTMs 早期预测动作
本文提出了一种新的动作预测方法，该方法基于多阶段 LSTM 网络并运用上下文感知和动作感知特征以及引入了一种新的损失函数，可以在视频序列仅有少量片段的情况下实现高准确度的预测，并在多个公开数据集上超过了先前最优的动作预测方法，相对提升了 2
PDF7 years ago
IJCAI连接 LSTM 结构与阅读过程中的神经动态
本文研究了长短时记忆神经网络（LSTM）的认知合理性，并通过将其内部架构与读故事时观察到的脑活动进行对齐来验证其工作机制，实验结果表明 LSTM 人工记忆向量可以精确预测连续性的脑活动，揭示了 LSTM 架构和阅读故事的认知过程之间的相关性
PDF8 years ago
探索用于语音合成的门控循环神经网络
本研究旨在回答两个问题：a）为什么长短期记忆（LSTM）作为一种序列模型在 SPSS 中表现良好；b）哪个元素（例如，输入门，输出门，遗忘门）最重要。通过一系列实验以及视觉分析，我们提出了一种简化的架构，比 LSTM 具有较少的参数，从而
PDF8 years ago