CheckEmbed：对开放式任务的 LLM 解决方案进行有效验证

Jun, 2024

CheckEmbed：对开放式任务的 LLM 解决方案进行有效验证

CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks

Maciej Besta, Lorenzo Paleari, Ales Kubicek, Piotr Nyczyk, Robert Gerstenberger...

TL;DR提出了一个简单而有力的证实方法，通过比较基于大型语言模型的答案级嵌入来验证模型的答案，以实现诸如汇总、摘要和知识提取等复杂开放式任务的准确性和可扩展性，并展示了在术语提取和文档摘要等实际任务中，与现有方案相比，精度、性价比和运行性能都有显著提高。

Abstract

large language models (LLMs) are revolutionizing various domains, yet verifying their answers remains a significant challenge, especially for intricate open-ended tasks such as consolidation, summarization, and extraction of knowledge. In this work, we propose →

large language models verification checkembed llm answers document summarization

发现论文，激发创造

LLMEmbed: 文本分类中轻量级 LLM 的真实功能的再思考

通过轻量级的大型语言模型，我们提出一种简单而有效的迁移学习策略 LLMEmbed 来改善文本分类的性能，并在公开数据集上的广泛实验验证了其强大的性能，相较于基于更大型的语言模型（如 GPT-3）和复杂的提示策略，我们的方法仅使用 4% 的模型参数、1.8% 的能耗和 1.5% 的运行时间即可达到充分的准确性。

Jun, 2024

通过基于大型语言模型的文本补充和重写增强嵌入性能

利用大型语言模型丰富和重写输入文本，改善嵌入模型的性能，并在特定领域取得显著改进。

Apr, 2024

词嵌入再探讨：LLMs 是否提供新的东西？

通过比较经典词嵌入技术与大型语言模型的词嵌入之间的潜在向量语义，系统地调查了大型语言模型是否在表现上与经典编码模型存在显著差异。结果显示，大型语言模型往往比经典模型更紧密地聚集语义相关的词，并在 Bigger Analogy Test Set (BATS) 上取得更高的平均准确率。此外，一些大型语言模型的词嵌入与相对较轻的句子级 BERT (SBERT) 模型相似。

Feb, 2024

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023

用户 - LLM: 基于用户嵌入的高效 LLM 语境化

利用用户嵌入来上下文化大型语言模型，实现显著性能提升。

Feb, 2024

通过询问 LLMs 提出易于解释的嵌入

通过利用大型语言模型（LLMs）生成的问答嵌入向量（QA-Emb）可以灵活生成可解释的用于预测 fMRI 核心响应的模型，从而深入评估我们对语义性大脑表示的理解。

May, 2024

嵌入式科学领域聊天机器人

本文研究了如何将已有方法与软件工具组合使用以制作出针对某一特定领域的聊天机器人，采用文本嵌入查找来为大型语言模型提供该领域的上下文信息，同样证实了现有的图像嵌入方法可以用于跨出版物进行搜索和检索。

Jun, 2023

使用孪生神经网络分析嵌入层和相似度得分

我们的研究比较了不同的领先嵌入算法及其碳足迹的准确性，从而为每个嵌入算法提供了一个全面的审视。

Dec, 2023

使用混合马尔可夫逻辑验证嵌入

我们提出了一种基于概率一阶语言的框架，即混合马尔可夫逻辑网络（HMLNs），用于验证学习得到的表示，并通过编码为混合整数线性规划的方式来进行嵌入的验证。我们使用现有的先进求解器测试了该方法，在图神经网络、深度知识追踪和智能辅导系统中展示了其广泛适用性。

Dec, 2023

ClusterLLM：将大语言模型用作文本聚类的指南

介绍了 ClusterLLM，一种新颖的文本聚类框架，它利用指导调整的大型语言模型（例如 ChatGPT）的反馈。通过与传统的无监督方法相比较，ClusterLLM 具有两个有趣的优势：（1）即使其嵌入不可访问，它也具有 LLM 的紧急能力；（2）通过文本指令和 / 或少量注释数据，他可以理解用户在聚类方面的偏好。

May, 2023