使用 VOSviewer 进行文本挖掘和可视化

本文探讨了两种使用颜色来理解文本模型的技术，一种方法是使用文字注释来说明模型对特定文档中特定标记的理解，另一种方法是使用高级的 “像素化文字” 图形来展示整个文集。这些方法一起提供了模型对文本理解的缩小和放大的视角。我们展示了这些相互关联的方法如何帮助诊断分类器在 Twitter 俚语上表现差，并理解历史政治文本上的主题模型。

Jun, 2016

大型语言模型作为文本挖掘的统一方法学

本文提出了一个新的文本挖掘方法：使用非常大的语言模型 (VLLM)，该方法具有文本摘要、信息提取、文本聚类等功能，取代了传统的文本挖掘方法并面临着新的挑战。

Dec, 2022

VizWiz 数据集浏览器：一种可视化机器学习数据集的工具

本研究提出了一种可视化工具，用于穷尽性地搜索和浏览大规模机器学习数据集。该工具搭建在 VizWiz 数据集的基础上，可支持和促进定性和定量研究，并开启多模态信息的可视化和研究新方向。该工具公开在此 URL。

Dec, 2019

一种统一的文献计量网络映射与聚类方法

提出了一种综合映射和聚类的方法，旨在将映射和聚类技术有机地结合起来，从而更好地分析文献计量网络。作者使用 VOS 映射技术和加权参数化的基于模块性的聚类技术来说明该方法，最终针对信息科学领域 1999-2008 年最常被引用的论文进行了综合映射和聚类分析。

Jun, 2010

Summary Explorer: 文本摘要领域的最新技术可视化

介绍了 Summary Explorer 工具，它通过在三个基准数据集上编译 55 种最先进的单文档摘要方法的输出，并在定性评估过程中进行视觉探索以支持文本摘要系统的手动检查。该工具考虑了三个著名的摘要质量标准（覆盖率、真实性和位置偏差），并通过定制的可视化引导评估进行了封装。该工具补充了现有的本地调试摘要模型方法，并对其进行了改进。工具可在 https URL 上获得。

Aug, 2021

基于 Web 的视觉语料库构建技术报告，用于视觉文档理解

该论文介绍了一个名为 Web-based Visual Corpus Builder 的数据集生成引擎，可以从原始 Wikipedia HTML 转储中准确构建大规模的视觉语料库，并验证其生成的数据可以覆盖广泛的上下文和知识，成为构建强大的视觉文档理解（VDU）骨干的有力工具。

Nov, 2022