使用 LLM 的相似数据点识别：一种利用摘要和隐藏状态洞察的带人工干预策略

Apr, 2024

使用 LLM 的相似数据点识别：一种利用摘要和隐藏状态洞察的带人工干预策略

Similar Data Points Identification with LLM: A Human-in-the-loop Strategy Using Summarization and Hidden State Insights

Xianlong Zeng, Fanghao Song, Ang Liu

TL;DR本研究提出了一种简单而有效的方法，利用大语言模型（LLM）在非自由文领域（如表格和图像数据）中识别相似数据点。我们的两步方法涉及数据点摘要和隐藏状态提取。首先，通过使用 LLM 进行摘要，将数据压缩，降低复杂性并突出句子中的关键信息。随后，将摘要句送入另一个 LLM 中提取隐藏状态，作为紧凑、特征丰富的表示形式。此方法利用 LLM 的高级理解和生成能力，提供了一种可扩展且高效的相似性识别策略，适用于各种数据集。我们通过在多个数据集上演示了我们方法在识别相似数据点方面的有效性。此外，我们的方法使非技术领域专家（如欺诈调查员或营销运营人员）能够快速识别适用于特定场景的相似数据点，展示了其在实际应用中的实用性。总体上，我们的结果为在各个领域中利用 LLM 进行数据分析开辟了新的道路。

Abstract

This study introduces a simple yet effective method for identifying similar data points across non-free text domains, such as tabular and image data, using Large Language Models (LLMs). Our two-step approach involves data point summarization and hidden state extraction. Initially, data

large language models (llms)data point summarization hidden state extraction similarity identification practical applications

发现论文，激发创造

比较之前的推理：领域专业文本分析的 LLM 增强语义相似性度量

利用 LLM 增强语义分析以及为文本开发相似度度量标准，解决了传统无监督 NLP 度量标准如 ROUGE 和 BLEU 的局限性。我们开发了一个框架，利用类似 GPT-4 的 LLMs 进行零样本文本识别和标签生成并为放射学报告进行度量，然后将这些标签作为文本相似度的测量标准。通过在 MIMIC 数据上测试提出的框架，我们发现 GPT-4 生成的标签能够显著改善语义相似度评估，其得分与临床实际情况更为一致，而不同于传统的 NLP 度量标准。我们的工作证明了利用 LLMs 对高度专业化领域的文本数据进行半定量推理结果进行语义分析的可能性。虽然该框架是针对放射学报告相似性分析而实现的，但其概念也可扩展到其他专业化领域。

Feb, 2024

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

摘要中事实不一致的识别：向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线 2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024

大型语言模型用于时间序列的研究概述

该综述论文详细探讨了利用大型语言模型进行时间序列分析的各种方法，包括直接提示、时间序列量化、对齐技术、利用视觉作为桥梁机制以及与其他工具的结合，同时提供了现有的多模态时间序列和文本数据集的综合概述，并分析了该新兴领域的挑战和未来机会。

Feb, 2024

临床文本摘要：大型语言模型的应用能超越人类专家

在本研究中，我们采用八个大型语言模型，在六个数据集和四个不同的摘要任务（放射学报告、患者问题、进展记录和医生 - 患者对话）上应用领域适应方法，系统评估了它们的效果，而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外，我们还将传统的自然语言处理指标与医生评分进行了相关性分析，以提高对这些指标与医生喜好的理解。最终，我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家，这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担，使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。

Sep, 2023

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

利用 LLMs 进行表格数据的异常检测

利用大型语言模型（LLMs）来检测表格异常，并展示了预训练的 LLMs 在零样本批量级异常检测方面的效果，同时提出了一种简单但有效的数据生成过程和端到端微调策略来对齐 LLMs 检测真实异常的潜力。

Jun, 2024

总结（几乎）已死

大型语言模型在总结任务中表现出令人满意的性能，超过了参考摘要的基准，人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要，因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。

Sep, 2023

征服旗帜：利用大型语言模型揭示数据洞察

利用大型语言模型自动发现数据中的洞察力并评估其能力的研究。

Dec, 2023