使用归一化互信息进行无监督的科学文摘分割
我们提出了一种新颖的基于图形的框架,用于摘要会议演讲,完全不需要监督和任何注释。我们的工作结合了多种最近的方法的优点,同时解决了它们的弱点。此外,我们利用最近在 NLP 中应用的字嵌入和图形退化的进展,考虑外部语义知识,并设计了自定义的多样性和信息量度量。在 AMI 和 ICSI 语料库上的实验表明,我们的系统改进了现有技术水平。代码和数据可公开获取,我们的系统可以交互式测试。
May, 2018
本文介绍了深度聚类中相互信息作为无监督训练神经网络的客观标准的最大化并不能得到令人满意的聚类结果,并将核心距离更改为常见的挑战导致的原因。因此,我们通过引入广义相互信息 (GEMINI) 来推广相互信息,它是一组用于无监督神经网络训练的指标。与相互信息不同,一些 GEMINI 在训练时不需要正则化,因为它们在数据空间中具有几何意识的距离或核函数。最后,我们强调 GEMINI 可以自动选择相关的聚类数目,这是在深度判别聚类上很少研究的一个特性,因为聚类数目是先验未知的。
Sep, 2023
本文提出了一种新的无监督神经网络训练度量标准 —— 广义互信息 (GEMINI),相比于互信息,它不需要正则化且可自动选择群聚数目,并且是数据空间的几何感知度量,从而提供更好的聚类效果。
Oct, 2022
本文研究了使用引文图来提高科学论文摘要生成的质量,提出了两种方法:为任务提供简单而低成本的多粒度无监督摘要生成方法 (MUS),以及对大量标记数据具有更准确结果的基于图的监督摘要方法 (GSS),并在公共基准数据集上进行了实验验证以证明方法的有效性。
Dec, 2022
本文提出了一种全新的完全无监督语义分割方法,名为 InMARS,以信息最大化和对抗性正则化分割为基础,并结合对抗性训练策略,通过像人类感知一样先将输入图像分区,然后将其聚类为语义上有意义的类别,其实验结果表明在两个常用的无监督语义分割数据集上,InMARS 方法取得了最先进的性能。
Jul, 2021
本文提出了一种基于自监督学习的无监督语义图像分割的新方法,通过局部和全局高级别图像特征间的互信息最大化计算多个高级别特征,实现对不同语义类别的图像分割和互信息最大化的两阶段学习过程,并在已有数据集和引入的 COCO-Persons 数据集上相对推进了 26%(基于像素准确率评估)。
Oct, 2021
本研究基于最先进的深度学习模型(SSN-4 模型),探讨了不同的模型组件对表现和复杂性之间的平衡,同时调整单词嵌入来提高性能,并提出了一个解决第一个模型中混淆的对的第二个模型。结果表明,SSN-4 模型似乎不适用于 RCT 数据集之外。
Jan, 2022
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示,并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明,我们的方法在自动指标和人工评价方面优于强无监督基线。此外,其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
May, 2020
提出了一种多信息集成网络(MIANet),它有效地利用了一般知识和实例信息进行准确的分段,通过多种信息聚合,MIANet 高效地利用了语义词嵌入和实例信息,最终提高了 PASCAL-5i 和 COCO-20i 数据集的性能并取得了新的最佳效果。
May, 2023
通过切片参数空间,我们针对机器学习算法提出新的信息理论泛化界限,证明切片可以提高泛化,并通过压缩模型的失真来收紧泛化界限,从而实现对神经网络的信息理论泛化界限的计算。
Jun, 2024