比较之前的推理：领域专业文本分析的 LLM 增强语义相似性度量

Feb, 2024

比较之前的推理：领域专业文本分析的 LLM 增强语义相似性度量

Reasoning before Comparison: LLM-Enhanced Semantic Similarity Metrics for Domain Specialized Text Analysis

Shaochen Xu, Zihao Wu, Huaqin Zhao, Peng Shu, Zhengliang Liu...

TL;DR利用 LLM 增强语义分析以及为文本开发相似度度量标准，解决了传统无监督 NLP 度量标准如 ROUGE 和 BLEU 的局限性。我们开发了一个框架，利用类似 GPT-4 的 LLMs 进行零样本文本识别和标签生成并为放射学报告进行度量，然后将这些标签作为文本相似度的测量标准。通过在 MIMIC 数据上测试提出的框架，我们发现 GPT-4 生成的标签能够显著改善语义相似度评估，其得分与临床实际情况更为一致，而不同于传统的 NLP 度量标准。我们的工作证明了利用 LLMs 对高度专业化领域的文本数据进行半定量推理结果进行语义分析的可能性。虽然该框架是针对放射学报告相似性分析而实现的，但其概念也可扩展到其他专业化领域。

Abstract

In this study, we leverage llm to enhance the semantic analysis and develop similarity metrics for texts, addressing the limitations of tr

llm semantic analysis similarity metrics radiology reports gpt-4

发现论文，激发创造

文本编码器缺乏知识：利用生成型语言模型为特定领域的语义文本相似性提供支持

语义文本相似度问题可以作为生成文本问题来解决，生成型的大型语言模型在特定领域的语义相似度任务中表现优于基于编码器的模型，并且在需要世界知识的 STS 任务上，新收集的数据验证了这个结论。

Sep, 2023

SemScore：基于语义文本相似度的指导调整 LLMs 的自动评估

提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究，利用检索增强生成框架对预训练语言模型进行了比较分析，并在零样本设置下评估了它们的推理和解决问题能力。

Apr, 2024

利用专业放射科医师的专长提升放射学报告的 LLM 评估

利用大型语言模型进行人工智能辅助的放射学报告生成与评估研究，通过结合放射科医生专业知识并采用相关评估指标以提高医学报告质量评估水平。

Jan, 2024

使用 LLM 的相似数据点识别：一种利用摘要和隐藏状态洞察的带人工干预策略

本研究提出了一种简单而有效的方法，利用大语言模型（LLM）在非自由文领域（如表格和图像数据）中识别相似数据点。我们的两步方法涉及数据点摘要和隐藏状态提取。首先，通过使用 LLM 进行摘要，将数据压缩，降低复杂性并突出句子中的关键信息。随后，将摘要句送入另一个 LLM 中提取隐藏状态，作为紧凑、特征丰富的表示形式。此方法利用 LLM 的高级理解和生成能力，提供了一种可扩展且高效的相似性识别策略，适用于各种数据集。我们通过在多个数据集上演示了我们方法在识别相似数据点方面的有效性。此外，我们的方法使非技术领域专家（如欺诈调查员或营销运营人员）能够快速识别适用于特定场景的相似数据点，展示了其在实际应用中的实用性。总体上，我们的结果为在各个领域中利用 LLM 进行数据分析开辟了新的道路。

Apr, 2024

大型语言模型的语义压缩

本研究探讨了大型语言模型在近似压缩和语义压缩方面的应用及其效果评价，并提出了二元评价指标：是否精确重构 (ERE) 和语义重构有效性 (SRE)，结果表明 GPT-4 可能有效地压缩和重构文本，并保留原始文本的语义要素。

Apr, 2023

提升 LLMs 的信任度：比较和解释 LLMs 的算法

评估技术在提高大规模语言模型（LLM）的可信度和理解性方面起到了至关重要的作用，通过算法方法和评估指标来评估 LLM 的性能，发现其弱点，并引导其发展以实现更可信赖的应用。

Jun, 2024

使用特定领域的余弦相似度度量方法对胸部 X 射线报告进行语义文本相似性评估

医疗语言处理和深度学习技术作为改善医疗保健的关键工具，特别是在医学影像和医学文本数据的分析中。本研究介绍了一种新的方法，专门用于评估生成的医学报告与实际情况之间的语义相似度，该方法在领域特定的医学背景下表现出较高的效率。

Feb, 2024

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现 GPT-4 整体表现优于其他 LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证 LLMs 在处理复杂医学数据方面的能力，并为将来在专门领域的 LLM 评估建立基准。

Jan, 2024

归属于谁的 LLM？GPT-3.5、GPT-4 和 Bard 的语言比较与 LLM 归属

通过语言分析，对比了目前三种最流行的大型语言模型（GPT-3.5、GPT-4 和 Bard）生成的文本与不同输入的词汇、词性分布、依存分布和情感，结果显示存在显著的语言变化，通过简单的模型分类可以以 88% 的准确率将文本归属于相应的大型语言模型。讨论了这一有趣发现的理论和实际意义。

Feb, 2024