LLM 鉴别器:交互式视觉鉴别器用于 LLM 生成
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并提出了建立带归属特性的 LLMs 的可能方向。
Dec, 2022
基于大语言模型的隐藏状态,我们提出了一种新的环境下问答的归因方法,绕过重复训练模型和检索模型开销,提供精细的归因并保持结果质量,在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能,且适用于各种 LLM 架构。
May, 2024
通过实证分析大型语言模型(LLMs)的写作特征、对比专有和开源模型的异同、并探索通过语言的词汇、句法和结构方面的风格特征整合实现对 AI 生成文本的追溯,为神经网络作者归属提供经验性洞见,为应对 AI 生成的错误信息的威胁铺平道路。
Aug, 2023
本文探讨了大型语言模型在自动评估引用时的两种方法:引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果,旨在为这一重要问题的未来研究打下基础。
May, 2023
通过采用轻量级范式 ENG 以 Large Language Models 为基础,增强文本属性的图数据,包括通过节点生成使用 LLMs 提取语义信息和生成样本,以及通过边缘预测器将新生成的样本与原始图结合,从而在少样本情况下促进节点分类任务。
Oct, 2023
本文介绍了 MatPlotAgent,一种高效的模型无关的大型语言模型(LLM)代理框架,用于自动化科学数据可视化任务,并提出了一个使用 GPT-4V 进行自动评估的评分方法,实验结果表明 MatPlotAgent 可以提高各种 LLM 的性能。
Feb, 2024
通过对小说中引语归属进行评估,我们发现大型语言模型(LLMs)的性能与小说记忆程度呈正相关,但是即使对未见过的书籍,Llama3 仍表现出色。
Jun, 2024
通过我们提出的评估方法和平台 EvaLLM,我们解决并评估了大型语言模型生成可视化的问题,并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
Feb, 2024
LLM4Vis 是一个基于 ChatGPT 的提示方法,可执行可视化推荐,并使用极少数量的演示示例返回类人的解释,通过考虑先前生成的解释和基于模板的提示进行迭代性微调生成的解释。在 VizML 数据集上的评估表明,LLM4Vis 在少量示例和零示例设置中优于或类似于 Random Forest、Decision Tree 和 MLP 等监督学习模型,并通过定性评估显示 LLM4Vis 生成的解释的有效性。
Oct, 2023