- CLST: 将生成式语言模型对齐作为学生知识追踪器来缓解知识追踪中的冷启动问题
知识追踪通过将学生的问题解决历史用于估计其当前的知识水平,已引起研究人员的广泛关注。然而,大多数现有的知识追踪模型都是基于 ID 的范式开发的,这在冷启动性能方面存在局限性。本研究通过将生成式大型语言模型作为学生的知识追踪器(CLST)来缓 - 语言模型对齐的渐近性
在这篇论文中,我们提出了对最优 KL 约束 RL 解的闭式描述。我们证明了任何在 KL 散度和奖励之间实现可比的权衡的对齐方法必须在相对熵方面近似于最优 KL 约束 RL 解。我们还展示了最佳 N 项对齐与 KL 约束 RL 解在期望奖励上 - 视觉去幻化指令生成
该文介绍了一种名为 CAP2QA 的生成视觉识别指导的方法,能够显著减少视觉错觉,同时改善视觉识别能力和表达能力。
- DTrOCR:解码器专用的 Transformer 用于光学字符识别
通过使用 Decoder-only Transformer 作为生成式语言模型,本研究提出了一种相对简单而有效的文本识别方法 DTrOCR,实验结果表明 DTrOCR 在识别印刷、手写和场景文本方面比当前的最先进方法表现出更好的性能。
- 利用高阶批判方法分离人工智能生成的文字中的人为因素:一种信息论方法
我们提出了一种方法,可以确定给定文章是完全由生成式语言模型编写还是在不同作者(可能是人类)的情况下经过了一些重大编辑。我们的方法涉及多个感到困惑的测试来判断单个句子或其他文本单元的来源,并使用 Higher Criticism 方法结合这些 - RecycleGPT:一种带可循环模块的自回归语言模型
利用预先生成的模型状态进行回收,RecycleGPT 是一种生成式语言模型,具有快速解码速度,通过理论评估和实际测试,在保持高性能的同时实现了 1.4 倍加速,降低了推理延迟。
- 利用生成模型进行语义轨迹分析的时空叙事
该研究考虑使用生成语言模型分析语义轨迹痕迹并生成合成语义轨迹数据,从而实现在人类、动物、物品等运动轨迹方面进行未来走向预测,增强机器对行动的理解,从而进一步提高人机交互能力,并增强城市规划、个性化推荐引擎和商业战略等领域的应用。
- ACL2023 BEA 共享任务:在教育对话中生成 AI 教师回答
本文选举为教育对话中教师回应产生共性任务的首个任务,以基于生成语言模型的人工智能教师为校准目标;在八个参赛者中,NAISTeacher 系统以 GPT-3.5 生成器为基础靠类似于提示流的集合和对话环境上的排名生成,达到自动和人工评估的双重 - IJCAI一种可扩展和自适应的系统,用于推断公司的行业领域:生成语言模型的 Prompt + 模型调整
本文提出了一个基于生成式语言模型的细分领域推断系统,在私募股权机构的行业投资中取得了优良的表现。
- 利用大型语言模型生成私有合成文本
本文研究了使用敏感数据集生成新的差分隐私数据集作为替代方法,通过使用预先训练好的生成式语言模型并在敏感数据上进行私有调优,然后利用该模型可以产生差分隐私合成数据集,同时展示了训练目标及少调参数可提高合成数据的质量并与直接使用差分隐私训练下游 - GPT-SW3:针对北欧语言的自回归语言模型
本篇论文介绍了第一个本地大型生成语言模型 GPT-SW3 的开发过程,包括数据收集和处理、训练配置和指令微调、评估以及发布策略的考虑,并希望该论文能为其他研究者在小语种的大型生成模型的开发提供指南和参考。
- LM-Switch: 词向量空间轻量级语言模型调节
本文介绍了一种理论上自洽、轻量、简单的 LM-Switch 语言模型调节方法,其通过在线性变换词嵌入空间来实现语言模型的高效适应,该方法只需要与基线相比不到 1% 的参数,且与基准 LM 相比,只需要很少的额外时间开销即可学习语言模型。
- 使用生成式语言模型进行大规模文本分析:以 AI 专利中公共价值表达为例的案例研究
使用生成式语言模型 (GPT-4) 新方法进行大规模文本分析。将这一方法应用于发现美国人工智能专利中的公共价值表达。使用我们设计的 GPT-4 提示和调查数据库中的所有专利文件,以确定和标记 AI 专利句中的公共价值表述。使用由 GPT-4 - 使用 ChatGPT 生成和增强训练数据的 ZeroShotDataAug
利用生成式语言模型 ChatGPT 生成合成训练数据,以增强低资源场景下的数据,我们使用特定任务的 ChatGPT 提示,表现优于现有方法,并研究了评估合成数据相似性的方法,以验证和评估所生成数据的质量。
- LasUIE:使用潜在的自适应结构感知生成语言模型统一信息抽取
本研究旨在通过利用句法结构信息,提出一种新颖的结构感知生成式语言模型,对各种信息提取任务进行统一的建模与预测,并且通过引入异构结构感知器和任务导向的结构微调机制来实现更好的指导解码,从而显著提高了 12 项信息提取任务的性能。
- SpikeGPT:使用脉冲神经网络的预训练生成语言模型
本文提出了基于 SNN 的生成语言模型 SpikeGPT,利用二进制、SNN 的事件驱动稀疏激活单元,将传统的注意力机制修改为逐步输入机制,并在多个数据集上验证了其性能与能耗,结果表明 SpikeGPT 在处理自然语言生成任务时表现出色并且 - 推理电路:基于结构化理由的少样本多跳问题生成
提出一种新框架,将基于链式思考的结构化理性生成应用于低监督下的多跳问题生成中,其通过对少量例子进行注释并将每个推理步骤视为单独的任务来执行,显示了对生成问题难度的改进和比没有理性的基线模型更好的性能,而且模型规模较小。
- 差分隐私的合成文本生成:一个简单实用的方法
本文讨论隐私问题在数据驱动产品和服务中引起的关注,提出了一种利用差分隐私的生成式语言模型的简单、实用和有效方法,以生成有用的合成文本同时缓解隐私问题。经过广泛的实证分析,我们证明了我们的方法产生的合成数据在实用性上与其非私有对应物相当竞争, - EMNLP安全数据共享的差分隐私语言模型
使用全局差分隐私的方法,通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私,并通过新的匹配损失设计自然语言提示,得出高质量的文本数据集,这些数据集不仅不会泄露原始数据的信息,而且还适合训练用于分析真实世界数据的模型,同样证明基于私有 - ACL一种少样本情感分析的生成语言模型
本篇论文研究了使用预训练语言模型在情感分析任务,尤其是针对少量数据的方面 - 基础情感分析,提出了一种生成式语言模型来处理抽取方面、抽取类别、预测极性等任务,并证明了这种方法在多任务、少样本学习上比以前的方法有更好的表现。