- 位到光子:直接渲染的端到端学习可扩展点云压缩
我们提出了一种点云压缩方案,通过生成可直接解码为可渲染的 3D 高斯图像的比特流来解决从有损压缩的点云中解码和渲染高质量图像的问题。该方案显著提高了渲染质量,同时大幅度降低了解码和渲染时间,相比现有的点云压缩方法。此外,该方案生成可扩展的比 - 关于相关数据概念漂移的一点注记
概念漂移对机器学习模型产生不准确的影响,并且在流式数据背景下,多数研究假设连续的数据点之间是独立的。本研究发现时序依赖性对采样过程有很大影响,因此需要对现有定义进行重大修改,特别是平稳性的概念不适用于这种设置,而需要探讨替代方案。通过数值实 - 边思考边说话:文本生成期间的实时流式语音合成
LLM2Speech 架构用于通过 LLM 生成语音,以减少显著的延迟并实现自然对话。
- DiariST: 带有说话者分离的流式语音译文
该论文提出了 DiariST,第一个基于神经传感器的流式语音翻译和说话人分离解决方案,它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量,通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方 - 流式混淆网络语音识别
本文提出了一种新型流式自动语音识别架构,可输出混淆网络并保持有限的延迟,以满足交互式应用的需要,其 1-best 结果与可比较的 RNN-T 系统相当,而更丰富的假设集允许进行第二遍重评分,以在 LibriSpeech 任务上实现 10-2 - 用对比学习增强统一流式和非流式模型
本论文通过对比目标法,缩小流式模式和非流式模式间的固有差距,提高了统一模型的准确性,在 AISHELL-1 基准测试中达到了 CER 值 4.66%(流式模式)和 4.31%(非流式模式),创造了新的最高记录。
- ACL为实时语音搜索构建准确低延迟 ASR
本文致力于开发一种精确的 LSTM,注意力 (Attention),和基于 CTC 的流式自动语音识别模型。这些模型针对印地英语 (Hinglish) 语音搜索应用,并分析了各种用于改进模型准确性的修改方法以及流媒体应用程序中的说话结束检测 - ACL基于混合换能器和注意力编码器 - 解码器模型的语音转文本任务
通过结合 Transducer 和基于 Attention 的编码器 - 解码器 (AED) 框架,我们提出了一种新的 TAED 框架,它既具有非单调序列到序列学习的优势,又保持了 Transducer 的流式属性,通过在同一个语音编码器上 - 自动语音识别的单调分段注意力
提出了一种新颖的分段 - 关注模型用于自动语音识别,使用分段关注避免全局关注的二次运行时间,更好地控制长序列,最终实现流式处理。
- JOIST:一种联合语音和文本流模型用于自动语音识别
我们提出 JOIST 算法,使用音频文本配对输入和仅文本未配对输入训练流式级联编码器端到端模型。与以往的工作不同,我们探索了同时训练两种模态的联合训练方法,而不是预训练和微调。此外,我们使用了一种流式端到端模型,并增加了一个数量级的数据量, - 基于 Transformer 的长篇口述流式标点
本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法,并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题,提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数,适用于机器翻 - 一种语言不可知的多语言流式本地化 ASR 系统
本文提出了一种支持流式多语言的端到端自动语音识别的模型,通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer,以及使用了更高效的 Embedding 解码器,实现了低延迟和高质量的效果,可以在移动 - 面向口语理解和同时语音翻译的分块流式 Transformer
本研究提出基于块状,流式 Transformer 的方法,通过流式处理和块状并行检索,在同时进行自然语言理解和语音翻译等多个语音处理任务中,实现实时处理并取得与离线模型相当甚至更高的性能表现,并通过引入自动语音识别中间层损失约束和跨语言编码 - 非自回归推理的流式对齐调整
提出了一种流式非自回归(non-AR)解码算法,其利用新型变换器解码器架构在每个帧上执行文本和音频的本地自我关注,并在每个层上进行时间对齐的交叉关注,实现了高效率和低延迟,在声音搜索数据集和 Librispeech 上的实验显示,我们的流式 - 流中三角形计数的最优算法
本研究针对图流领域的经典难题,提出了一种新的算法来近似计算无序图中三角形的数量,并且证明了该算法在空间复杂度上是最优的。
- ACL联合语音识别和翻译的流式模型
本文介绍了如何使用端到端模型进行语音翻译,并在流式翻译设置中实现同时生成音频转录和翻译输出,并比较了与标准级联方法的表现,结果表明这种方法与级联模型的表现相似,但参数数量更少。
- 块同步束搜索流式 Transformer 自动语音识别
本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法,并在多项实验中的表现均优于传统的在线方法,特别是在使用知识蒸馏技术时。
- 解决大规模数据模型中的公平 k 中心问题
本文介绍了一项新的流式和分布式算法,用于公平的数据汇总,旨在解决算法公平性方面的研究问题。
- Transformer-Transducer: 自注意力端到端语音识别
本文研究了使用 Transformer 网络来实现端到端语音识别,提出使用 VGGNet 结合因果卷积来降低计算复杂度,同时使用截断的自注意力机制来实现流式处理。在公共数据集 LibriSpeech 上进行实验,该方法相比于基于 LSTM/ - k 均值和 k 中位数聚类的核心集及其应用
该研究的主要内容是利用 coreset 技术提高 k-means 和 k-median 聚类的近似算法,并且可以在流式数据中保持聚类结果。