rollama: 使用 Ollama 访问生成性大型语言模型的 R 包
通过使用 16,000 个泰米尔语令牌增强开源的 LLaMA 模型,本篇论文旨在解决现有切尖模型中泰米尔语等语种的代表性不足所导致的在多样的语言环境下性能不佳的问题。我们采用了 LoRA 方法来在包括广泛的泰米尔语语料库在内的训练数据上进行高效的模型训练,以保证计算可行性和模型的稳健性。此外,我们引入了泰米尔语翻译版本的 Alpaca 数据集以及用于指令微调的 OpenOrca 数据集的子集。实验结果显示在泰米尔语文本生成方面有显著的性能改进,对于印度语言切尖模型的广泛应用具有重要意义。我们通过公开我们的模型、数据集和代码,进一步强调我们对开放研究的承诺,促进语言建模领域的进一步创新。
Nov, 2023
R-LLMs improve factual question-answering by combining pre-trained large language models with retrieval systems; RaLLe is an open-source framework that facilitates the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks, enhancing performance and accuracy.
Aug, 2023
近年来,大型语言模型(LLMs)在各种任务上已经实现了几乎人类水平的表现。尽管一些 LLMs 在多语言数据上进行了训练,但大多数训练数据仍是英文,所以它们在英文上的表现远远超过其他语言。本文介绍了我们对第一个专门用于罗马尼亚语的基础和聊天型 LLMs 进行训练和评估的方法。
May, 2024
RoleLLM 是一种框架,用于在大规模语言模型中评估和增强角色扮演能力。通过 Context-Instruct 和 RoleGPT,我们创建了 RoleBench,这是角色扮演的第一个系统性和细致的基于角色的基准数据集,该数据集包含 168,093 个样本。此外,通过 RoleBench 上的 RoCIT,我们获得了 RoleLLaMA(英文)和 RoleGLM(中文),显著增强了角色扮演的能力,甚至与使用 GPT-4 的 RoleGPT 的结果相当。
Oct, 2023
本文介绍了 Gorilla 模型,该模型通过使用基于 LLaMA 的 finetuned 技术,在写 API 调用方面超越了最先进的 GPT-4 模型。结合文档检索器,Gorilla 展示了对测试时间文档更改的强大适应能力,减少了 LMM 直接提示时出现的幻觉问题,证明了 LLM 使用工具的潜力。
May, 2023
Radiology-Llama2 是一个基于 Llama2 体系结构的大型语言模型,通过指令调整的过程在放射学领域达到了最先进的性能,它可以根据放射学检查结果生成连贯且临床有用的印象。
Aug, 2023
LLAMA 是一种模块化和可扩展的工具包,用于探索各种不同的算法组合方法,以解决问题域中的任何问题。该工具包实现了文献中最常用的算法选择方法,并利用 R 语言中的大量机器学习算法和技术。
Jun, 2013
TinyLlama 是一个小型预训练语言模型,通过利用开源社区的先进技术(如 FlashAttention)提高计算效率,在一系列下游任务中表现出色,超过了同规模的现有开源语言模型。
Jan, 2024
RoleCraft-GLM 是一个创新框架,旨在通过大型语言模型(LLM)提供个性化角色扮演体验。它解决了对话人工智能中缺乏个性化互动的关键问题,并通过详细和情感细腻的角色描绘提供了解决方案。通过从传统的名人角色转变为多样化的非名人角色的对话数据集,我们提供了独特的对话数据集,从而增强了语言建模交互的真实性和复杂性。此外,我们的方法包括细致的角色塑造,确保对话既真实又情感共鸣。通过多个案例研究验证了 RoleCraft-GLM 的有效性,突显了它在不同场景中的多功能和技巧。我们的框架在生成准确反映角色个性特征和情绪的对话方面表现出色,从而提高用户参与度。总之,RoleCraft-GLM 在个性化人工智能互动方面取得了重要进展,并通过实现更复杂和情感丰富的对话为更真实和沉浸式的人工智能辅助角色扮演体验铺平了道路。
Dec, 2023