大型语言模型的有约束文本生成的综合评估
通过将文本生成问题形式化为未来约束生成问题,以最小化不良行为并确保指令的忠实执行,本文介绍了利用 LLM 的未来约束满足估计来指导文本生成过程的方法,并通过对关键词受限生成、有害性降低和问答中的事实正确性等三个不同的文本生成任务进行了广泛的实验,证明了该方法的有效性。
Dec, 2023
该研究论文系统梳理了存在于神经语言生成技术中的问题,并分别从文本生成任务、方法和评估度量指标三个方面,详细阐述了约束条件和条件约束这两种情况,并总结了当前约束神经语言生成技术的研究进展和面临的主要挑战,以期提高该领域的技术水平。
Jun, 2022
研究论文从自然语言生成任务的角度全面评估了 ChatGPT、ChatGLM、基于 T5 的模型、基于 LLaMA 的模型和基于 Pythia 的模型等众所周知且表现良好的大型语言模型的性能,并提出了一种常见的评估设置,其中包括输入模板和后处理策略,通过与详细分析相结合的自动结果来报告研究结果。
May, 2024
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法,探讨了它们的优势和劣势,讨论了人机合作的 NLG 评估,并提出了该领域的几个开放问题和未来的研究方向。
Feb, 2024
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
本文研究了大规模语言模型(LLM)获取高质量训练数据所面临的多方面挑战,包括数据稀缺、偏差以及低质量内容,并通过使用 GPT-4 和 GPT-4o 进行一系列评估,证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高数据质量和模型稳健性的缓解策略,包括高级数据过滤技术和伦理数据收集实践。我们的发现强调了开发 LLM 时需要积极考虑数据限制的有效性和伦理影响,以促进创建更可靠和普遍适用的人工智能系统。
Jun, 2024
本文介绍了一种控制生成文本的框架 InstructCTG,通过自然语言描述和约束条件的演示,将各种内在约束条件融入预训练语言模型中,以达到对生成文本的控制和优化。
Apr, 2023
本文介绍一种简单又通用的方法,通过为语言模型的词汇表组合应用筛选函数来修改文本生成单元前的语言模型的输出,以实现对语言模型输出的调整。研究者正式开发了一个名为 CTGS 的 AI 创作助手,让用户可以根据需要使用多种限制条件生成文本,还介绍了一个新颖的 Prose 数据集模型,以及一个名为 Gadsby 的网络应用实现该技术。研究表明,这种方法相比单纯的微调,对拥有文字 e 的 Prose 数据集表现更优异。
Jun, 2023
本文分析了当前基础 LLM (ChatGPT) 与专门的预训练模型 (REBEL) 的联合实体和关系提取应用,以可持续发展文本为案例进行了多个实验,结果表明,使用先进的 LLM 模型可以提高从非结构化文本创建知识图谱的过程的准确性,并探索了使用基础 LLM 模型自动创建本体论的潜力,取得更相关和准确的知识图谱。
May, 2023