- 产品属性 - 值识别的生成式方法实证比较
商品属性在电子商务平台中起着关键作用,本文将其产品属性和值识别(PAVI)任务作为一项生成任务进行了全面评估,比较了三种不同的基于微调编码器 - 解码器模型的属性 - 值生成策略,实验证明了端到端的生成方法在效率上优于其他策略。
- COLINGWikiSplit++:简易数据精化工具用于拆分与改述
将复杂句子拆分为意思相同的多个简单句子的 Split and Rephrase 任务通过提升可读性和提高自然语言处理中下游任务的性能。本文提出了一种简单而强大的数据精炼方法,通过删除 WikiSplit 中复杂句子不涉及至少一个简单句子的实 - AIpom 参加 SemEval-2024 任务 8:在 M4 中检测 AI 产生的输出
AIpom 是一个系统,用于检测人工编写和机器生成文本之间的边界,并通过使用经过指令调整的解码器模型和仅编码器模型的序列标记器来提出一个两阶段的流水线。AIpom 在排行榜上排名第二,平均绝对误差达到 15.94,混合了人工编写和机器生成文 - 定位论文:高性能计算研究与低延迟学习机制的现状和挑战
近期,语言模型(尤其是大型语言模型)在深度学习领域引发了一场革命。本文提出了将这些模型技术应用于高性能计算任务的观点,并强调了现有思想在此领域中如何改进和适应。
- 最小贝叶斯风险解码生成多样性和高质量文本
生成文本系统中的关键挑战之一是产生不仅正确而且多样化的输出。本文提出了两种多样化的最小贝叶斯风险解码算法(DMBR 和 KMBR),通过在贝叶斯风险解码中引入多样性目标,生成高质量和多样化的句子集合。实验结果表明,所提出的方法在多个文本生成 - 基于缓存推断的流式自动语音识别中的有状态快速 Conformer
我们提出了一种基于 FastConformer 架构的高效准确的流式语音识别模型,在编码器中通过约束前向和后向上下文,并引入了激活缓存机制来实现非自回归编码器在推断过程中的自回归操作。我们的模型消除了许多流式模型中常见的训练与推断准确性差异 - 生成式 Transformer 模型的视觉分析
我们提出了一种新颖的视觉分析框架,用于支持基于 transformer 的生成网络的分析,通过交互式可视化提供直观的模型概览,并通过三个详细案例研究展示了其可行性和实用性。
- EMNLPNASH: 一个简单统一的结构剪枝加速编码 - 解码语言模型框架
通过研究解耦编码器和解码器组件的结构修剪方法在编码器 - 解码器模型上的行为,本研究发现解码器层数是推理速度的主要因素,修剪编码器网络得到低稀疏度可以提高生成质量。基于这些发现,提出了一种简单而有效的框架 NASH,可以缩短编码器和解码器网 - 利用增强的指令对大型语言模型进行精细化信息提取的基准测试
引入了一种为大型语言模型定制的细粒度信息抽取基准数据集,通过评估发现编码器 - 解码器模型在泛化到未见过的信息类型方面表现良好,而 ChatGPT 对于新任务形式具有更大的适应性。结果还表明,性能不仅仅取决于模型规模,还强调了架构、数据多样 - NumHG: 用于数字为中心的标题生成的数据集
通过 NumHG 数据集,本研究针对标题生成任务中的数字生成问题,对头条生成模型进行了详细调查和评估,并发现数字准确性需要改进,从而表明了 NumHG 数据集在数字为重点的标题生成中推动进展和刺激进一步讨论的潜力。
- 大规模无监督音频预训练用于视频到语音合成
该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型,用已经预训练好的解码器初始化视频到语音合成任务的音频解码器,从而改进生成器的质量和重构的语音质量。
- ACLXSemPLR: 跨语义语言分析和意义表示
XSemPLR 是一个统一的基准系统,用于跨越 22 种自然语言和 8 种意义形式的跨语言语义分析研究,使用多种变量和模型进行评估,其中编码器 - 解码器模型(如 mT5)显示出最高性能。
- ACL针对法律和生物医学文本的编码器 - 解码器多标签分类方法探究
本研究比较了四种多标签分类方法,其中两种基于编码器,两种基于编码器 - 解码器。结果表明,在多个数据集上使用编码器 - 解码器方法比仅编码器表现更好,其非自回归编码器 - 解码器方法获得了最优表现。
- 神经关键词生成:分析与评估
本文研究了三种强大的编码 - 解码模型 (T5、 CatSeq-Transformer 和 ExHiRD) 的性能和行为,分析了预测置信度得分、模型校准和密钥短语生成的令牌位置对其的影响,提出了一个新的度量框架 SoftKeyScore。结 - 大规模数据集上的电子竞技数据即时解说生成
本研究提出了一项从结构化数据记录中生成游戏评论的任务,利用一种大规模的电子竞技数据集和多种基线编码器 - 解码器模型以及一种层次模型来生成各个层面的比赛评论,结果表明层次模型优势明显,并且揭示了几个新任务带来的挑战。
- 多车辆路径问题的强化学习
利用深度强化学习的编码器 - 解码器模型,并借助于复杂的张量需求结构,可以解决多车辆多节点的物流配送问题,从而实现对汽车配送业务的优化。
- 编码 - 解码架构用于代码混合搜索查询翻译的研究
本文提出了一种基于转换器的方法,用于对搜索查询进行代码混合翻译,以使用户能够使用这些查询进行搜索,并通过预训练的编码器 - 解码器模型的有效性来证明该方法。此外,为了减少模型的延迟,我们使用了知识蒸馏和权重量化。经过实验评估和 A/B 测试 - 基于神经网络的个人健康数据数值转文本生成研究
本文旨在研究如何利用编码 - 解码模型,从个人健康数据中自动生成高质量的自然语言总结,在帮助用户了解自己的健康状况和行为习惯的基础上,摆脱个人健康数据量大、上下文不连贯等问题,实现个人健康数据自动化总结的初步目标。
- YiTrans IWSLT 2022 离线共享任务端到端语音翻译系统
本文介绍本团队使用 YiTrans 语音翻译系统参加 IWSLT 2022 离线任务,该系统基于大规模预训练编码器 - 解码器模型,并通过多阶段预训练策略、精细调节、数据过滤、数据增强、语音分割和多模型融合等多方面开展改进,结果显示我们的 - LegoNN: 构建模块化编码器 - 解码器模型
描述了 LegoNN 过程,它通过重新使用 decoder 模块来构建 encoder-decoder 结构,从而实现在各种机器翻译和语音识别任务中的重复使用,同时引入了一种模态不可知编码器来提高其可移植性。实验证明 LegoNN 模型的有