词向量空间解释的神经向量概念化
本文介绍了一种用于 transformers 的上下文分解的解释方法,可以捕捉不同输入特征或源内部组件对最终预测或目标内部组件输出的贡献,用于电路发现等任务,并通过实验验证了其在局部解释方面的出色能力。
Jul, 2024
我们引入了一个名为 AMBROSIA 的新基准,旨在帮助发展能够识别和解释含有歧义请求的文本至 SQL 解析器。我们的数据集包含展示三种不同类型(范围、附属、模糊)歧义及其解释和相应 SQL 查询的问题。通过从头开始生成数据库的控制生成方法,即使在提供数据库上下文的情况下,仍能保持歧义。我们在 AMBROSIA 上对各种 LLMs 进行基准测试,发现即使是最先进的模型也难以识别和解释问题中的歧义。
Jun, 2024
通过在模拟的 X 射线光谱数据中使用编码器 - 解码器神经网络 (EDNN),我们研究了这种架构在模拟和解释光谱数据中的应用,以确定光谱的关键结构特征,发现 EDNN 在覆盖目标变量方差方面优于基于仿真器的成分分析 (ECA),但在物理术语的潜变量解释方面存在一些困难,因此,我们开发了一个网络,使用 ECA 的线性投影,并保持了潜变量的矢量扩展的有益特性,同时强调了在将信息压缩后的信息恢复以及为合理解释确定关键结构度量的必要性。
Jun, 2024
本研究综述了 150 + 篇论文,对概念化的定义、执行、应用以及相关的资源方法和下游应用进行了综合分类,特别关注实体和事件层面,在此基础上,我们揭示了该领域的未来发展方向,并希望得到社区更多的关注。
Jun, 2024
我们提出了一种新颖的一次性多个 ASR 系统联合压缩和量化方法,使用一个全能模型。一个单独的压缩周期允许同时构建具有不同编码器深度、宽度和量化精度设置的多个嵌套系统,而无需单独训练和存储个别目标系统。实验证明,与等复杂度的单独训练系统相比,一个全能模型中压缩的多个 ASR 系统的字错误率(WER)相当,或更低至 1.01%绝对值(6.98%相对值)。整体系统压缩和训练时间加速了 3.4 倍。在基线 Switchboard-300hr Conformer 和 LibriSpeech-100hr fine-tuned wav2vec2.0 模型上,最大模型大小压缩比分别达到了 12.8 倍和 3.93 倍,没有引起统计上显著的 WER 增加。
Jun, 2024
借助大型多模态模型(LMMs),本文提出了一种新颖的解释框架,通过字典学习的方法应用于令牌的表示,准确地解释了多模态概念,并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。
Jun, 2024
本研究旨在解决使用神经模型进行少样本学习中,纬度预测的挑战,并提出了一种聚合多个模板的广角软提示方法,通过使用预训练语言模型选择相关度最高的 k 个模板,并使用软提示来指导预训练语言模型,最终将多个模板的结果通过投票机制进行聚合。实验证明,该方法在各项指标上明显优于其他最新方法和公共数据集。
Jun, 2024
数据集精炼是一种克服大数据集困难的策略,通过学习一组保留原始数据集关键信息的紧凑合成数据。研究中探讨了关于精炼数据的行为、代表性和逐点信息内容的三个问题,揭示了精炼数据不能在数据集精炼标准评估环境之外用于训练,但能通过压缩真实模型早期训练动态相关信息来保持高任务性能。解释了精炼数据的框架和揭示了个体精炼数据点包含有意义的语义信息,从而更好地理解了精炼数据的复杂性及其有效利用。
Jun, 2024
我们提出了 GenS,一个端到端的通用神经表面重建模型,可以通过结合有符号距离函数(SDF)和可微体渲染,将多视图图像无需 3D 监督进行表面重建。与现有解决方案相比,我们的表示更强大,能够恢复高频细节并同时保持全局平滑性。同时,我们引入多尺度特征度量一致性,以在更具区分性的多尺度特征空间中施加多视图一致性,从而抵抗光度一致性的失效。我们还设计了一种视角对比损失,通过将密集输入中的几何先验精炼到稀疏输入中,强制模型对少视角覆盖的区域具有鲁棒性。在流行的基准测试上进行的大量实验证明,我们的模型能够很好地推广到新场景,并且胜过现有的最先进方法,即使那些使用地面真实深度监督的方法。
Jun, 2024
计算古文字学是指借助计算方法从石碑铭文中提取文字、音译、解释和归属的过程。传统的古文字学方法耗时且易损伤石碑铭文,在提取文字时。此外,解释和归属是主观的,可能因不同古文字学家而异。然而,使用现代计算方法不仅可以用于提取文字,还能以稳健的方式进行解释和归属。我们调查和记录了在古文字学上协助上述任务的现有计算方法。
Jun, 2024