WebGLM:面向高效网络增强人类偏好的问答系统
AutoWebGLM 是一个建立在 ChatGLM3-6B 基础上的自动化网页导航智能体,它通过采用 HTML 简化算法来表示网页并利用混合人工智能方法构建网页浏览数据,再结合强化学习和拒绝抽样来提高网页理解、浏览器操作和任务分解的效率,在真实环境中提出了改进的同时也面临挑战。
Apr, 2024
通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型,利用金融数据集和检索增强生成技术 (RAG),证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。
Jan, 2024
尽管大型语言模型在知识密集型任务上表现出竞争力,但它们仍存在于记忆所有世界知识,尤其是长尾知识方面的局限性。本文研究了用于解决知识图谱问答任务的知识图增强语言模型方法。基于回答敏感的 KG-to-Text 方法,我们提出了一种将 KG 知识转化为对 KGQA 最有信息量的文本化陈述的方法,并基于此方法提出了一种 KG-to-Text 增强的 LLMs 框架来解决 KGQA 任务。在几个 KGQA 基准测试上的实验证明了所提出的 KG-to-Text 增强 LLMs 方法在回答准确性和知识陈述的有用性方面优于先前的 KG 增强 LLMs 方法。
Sep, 2023
在文本浏览环境中使用 GPT-3 进行长篇问题回答的模型训练,通过模仿学习和人类反馈优化答案质量,并使用 ELI5 数据集对模型进行评估和训练,最佳模型通过行为克隆和逆向采样获得,最终得到的答案比 Reddit 上评分最高答案及人类演示者的答案更受人类用户喜欢。
Dec, 2021
使用大型语言模型,该研究论文介绍了一种学术知识图谱问答(KGQA)系统,通过少量示例解决书目自然语言问题。模型使用基于 BERT 的句子编码器来识别与给定测试问题相关的前 n 个相似训练问题,并检索它们对应的 SPARQL 查询。利用前 n 个相似问题 - SPARQL 对作为示例以及测试问题创建提示,并将其传递给大型语言模型以生成 SPARQL 查询。最后,在底层知识图谱(Open Research KG)端点上运行 SPARQL 查询并返回答案。该系统在 Scholarly-QALD-23 挑战基准中的 SciQA 数据集上获得了 99.0% 的 F1 分数。
Nov, 2023
利用大型语言模型构建生成 - 检索知识库问答 (ChatKBQA) 框架,在知识检索和语义解析两个研究组件方面面临三个核心挑战,即低效的知识检索、检索错误对语义解析的不利影响以及以往 KBQA 方法的复杂性。该框架通过首先使用已经微调的大型语言模型生成逻辑形式,然后通过无监督的检索方法检索并替换实体和关系,从而更直接地改善了生成和检索。实验结果表明,ChatKBQA 在标准 KBQA 数据集 WebQSP 和 ComplexWebQuestions (CWQ) 上取得了最新的最佳性能。这项工作还为将大型语言模型与知识图谱 (KG) 相结合提供了新的范例,以实现可解释性和知识需求的问答。
Oct, 2023
通过与用户与搜索引擎的交互历史相关的上下文,我们提出了一种新颖且通用的方法,用于个性化输出,这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法,生成了在上下文中更相关、个性化和有用的查询建议。
Nov, 2023
采用潜在变量和 KaRR 指标引导的统计知识评估框架对 14 种生成语言模型 (GLMs) 进行全面比较;该研究表明,具有相同骨干结构的 GLMs 的知识符合缩放定律,并且在指令遵循数据上的调整可能会危及模型始终生成正确的文本的能力。
May, 2023
该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法,以处理复杂的语境和多模态数据,并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG,我们的架构在非图表多项选择题中相较于基线模型,在验证集上精度提升了 4.12%,在测试集上提升了 9.84%。
Feb, 2024
GLM-Dialog 是一个拥有 10B 参数的大规模语言模型,使用搜索引擎来访问网络知识进行基于知识的中文对话,在评估方面提出了一种新的评估方法,同时发布了模型检查点和源代码,并通过微信应用程序与用户进行交互,以促进开源模型和可靠对话评估系统的发展。
Feb, 2023