ANALOGICAL - 大语言模型长文本类比的新基准
利用 LLM 增强语义分析以及为文本开发相似度度量标准,解决了传统无监督 NLP 度量标准如 ROUGE 和 BLEU 的局限性。我们开发了一个框架,利用类似 GPT-4 的 LLMs 进行零样本文本识别和标签生成并为放射学报告进行度量,然后将这些标签作为文本相似度的测量标准。通过在 MIMIC 数据上测试提出的框架,我们发现 GPT-4 生成的标签能够显著改善语义相似度评估,其得分与临床实际情况更为一致,而不同于传统的 NLP 度量标准。我们的工作证明了利用 LLMs 对高度专业化领域的文本数据进行半定量推理结果进行语义分析的可能性。虽然该框架是针对放射学报告相似性分析而实现的,但其概念也可扩展到其他专业化领域。
Feb, 2024
通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义,系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示,大型语言模型往往比经典模型更紧密地聚集语义相关的词,并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外,一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。
Feb, 2024
大型语言模型 (LLMs) 通常被批评缺乏真正的 “理解” 和 “推理” 能力,被视为高级自动填充系统。本研究认为这种观点可能忽视了一个重要的见解,即 LLMs 确实发展出一种类似于 “几何” 的经验性 “理解”,这对自然语言处理、计算机视觉、代码辅助等领域的应用似乎足够了。然而,这种基于不完全和嘈杂数据构建的 “几何” 理解使得 LLMs 不可靠、难以推广,并且缺乏推理能力和解释能力,类似于几十年前启发式专家系统面临的挑战。为了克服这些局限性,本研究建议将 LLMs 与包括专家系统中使用的符号 AI 元素在内的 “代数” 知识表示集成起来。这种集成旨在创建大型知识模型 (LKMs),它们不仅具备以第一原理为基础的 “深度” 知识,而且具备推理和解释的能力,模仿人类专家的能力。为了安全有效地利用生成式 AI 的全部潜力,需要从 LLMs 转向更全面的 LKMs,这是一种新的范式转变。
Jun, 2024
通过对三种不同模型的测试(Bard、ChatGPT-3.5 和 ChatGPT-4)以及与人类结果的比较,研究了模型大小对于语言模型性能的影响,发现模型大小的增加可以提高性能,但语言模型仍不如人类敏感。
Apr, 2024
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
评估技术在提高大规模语言模型(LLM)的可信度和理解性方面起到了至关重要的作用,通过算法方法和评估指标来评估 LLM 的性能,发现其弱点,并引导其发展以实现更可信赖的应用。
Jun, 2024
大型语言模型(LLM)在一般知识上表现出色,但在细致的长尾知识上表现不佳,该研究问传统的知识图谱是否应该被 LLMs 取代,通过构建名为 TaxoGlimpse 的新型基准对 LLMs 在各种领域的不同层级的专业知识和叶级实体的性能进行评估,验证了 LLMs 仍然不能很好地捕捉专业知识和叶级实体的知识。
Jun, 2024
大型语言模型在知识获取和统计推理方面取得了稳定进展,但在常识推理任务中仍存在局限性,纯统计学习难以应对其中的组合爆炸问题,更大并不总是更好,而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。
Apr, 2024
通过对大型语言模型在图形上的应用的详细技术和潜在场景进行系统回顾,我们总结了大型语言模型在纯图、文本丰富图和文本配对图中的优缺点,并讨论了其在真实世界应用中的方法以及开源代码和基准数据集。最后,我们提出了这一快速发展领域的潜在未来研究方向。
Dec, 2023