RadNet:基于交通预测的时空道路图网络事故预测
我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法,使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统,而无需单独训练和存储个别目标系统。实验证明,与等复杂度的单独训练系统相比,一个全能模型中压缩的多个 ASR 系统的字错误率(WER)相当,或更低至 1.01%绝对值(6.98%相对值)。整体系统压缩和训练时间加速了 3.4 倍。在基线 Switchboard-300hr Conformer 和 LibriSpeech-100hr fine-tuned wav2vec2.0 模型上,最大模型大小压缩比分别达到了 12.8 倍和 3.93 倍,没有引起统计上显著的 WER 增加。
Jun, 2024
本研究旨在解决使用神经模型进行少样本学习中,纬度预测的挑战,并提出了一种聚合多个模板的广角软提示方法,通过使用预训练语言模型选择相关度最高的 k 个模板,并使用软提示来指导预训练语言模型,最终将多个模板的结果通过投票机制进行聚合。实验证明,该方法在各项指标上明显优于其他最新方法和公共数据集。
Jun, 2024
我们提出了 GenS,一个端到端的通用神经表面重建模型,可以通过结合有符号距离函数(SDF)和可微体渲染,将多视图图像无需 3D 监督进行表面重建。与现有解决方案相比,我们的表示更强大,能够恢复高频细节并同时保持全局平滑性。同时,我们引入多尺度特征度量一致性,以在更具区分性的多尺度特征空间中施加多视图一致性,从而抵抗光度一致性的失效。我们还设计了一种视角对比损失,通过将密集输入中的几何先验精炼到稀疏输入中,强制模型对少视角覆盖的区域具有鲁棒性。在流行的基准测试上进行的大量实验证明,我们的模型能够很好地推广到新场景,并且胜过现有的最先进方法,即使那些使用地面真实深度监督的方法。
Jun, 2024
提出了一种新的神经模型来解决现有动态主题模型中的重复主题和不相关主题问题,并通过引入新的进化跟踪对比学习方法和不相关词排除方法来提高主题进化的质量和多样性。
May, 2024
我们研究了在资源稀缺环境中的自动插入式脚注,并通过从插入式脚注文本中提取的嵌入式翻译信息来增强硬式注意神经模型。在使用大型语言模型(具体是 BERT 和 T5)对这些翻译进行编码后,我们引入了一个字符级解码器来生成插入式脚注输出。在 SIGMORPHON 2023 关于插入式脚注的共享任务数据集上,通过这些改进,我们的模型在平均改善了 3.97 个百分点的基础上,超过了现有技术水平。在模拟的极度资源稀缺环境中,我们系统在仅使用 100 个句子进行训练时,平均改善了 9.78 个百分点,超过了普通硬式注意基线。这些结果突显了翻译信息在提升系统性能方面的关键作用,尤其是在处理和解释有限数据源时。我们的研究结果为语言的记载和保护提供了有希望的途径,在共享任务数据集上表明了与现有技术水平相比的显著进展。
Mar, 2024
我们提出了 Evolving Graph Fourier Transform(EFT),这是第一个捕捉时变图表现的可逆谱变换方法。我们通过现有的捕捉时变图谱的方法的不足以及计算复杂性来激励我们的工作。我们将问题视为连续时间动态图的 Laplacian 上的优化问题。此外,我们提出了伪谱松弛方法来分解转换过程,使其具有高度的计算效率。EFT 方法能够灵活地捕捉时变图的结构和位置特性,对于处理时变图的下游任务非常有效。因此,我们开发了一个简单的神经模型,并通过 EFT 来捕捉时变图谱。我们在许多大规模和标准的时变图基准上经验性地验证了我们的理论发现,并展示了我们模型达到了最先进的性能。
Feb, 2024
通过使用元学习进行训练的神经网络和大型语言模型,我们展示了 ' 在上下文学习 '(ICL)在涉及类似规则结构的任务中表现出了人类所示的阻塞优势,反之,在缺乏此类结构的任务上,并发的权重学习产生了人类所观察到的交错优势。
Feb, 2024
本文介绍了一种新颖的双语端到端模型,通过共享编码器和预测网络,并通过自注意机制组合语言特定的联合网络,实现了单一神经模型对多种语言的识别和支持语言之间的动态切换,相比传统双语基线模型,该方法在印地语、英语和混合代码测试集上分别降低了 13.3%、8.23% 和 1.3% 的词误差率。
Jan, 2024