通过在 LLaMa2 的词汇表中添加 10,000 个波斯语标记并在包含近 20 亿波斯语标记的数据集上进行训练,我们展示了我们的方法既保留了模型的英语知识,又利用了迁移学习在不同语言之间传递任务知识的优势。
Jan, 2024
LexMatcher 方法使用双语词典生成数据集,利用 LLaMA2 作为基础模型并展示出在 WMT2022 测试集上优于已有基线模型的表现,以及在词义消歧和专业术语翻译等任务中显著的性能提升,突出了 LexMatcher 在增强基于 LLM 的机器翻译中的有效性。
Jun, 2024
MindLLM 是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。
Oct, 2023
本文介绍了一个名为 ChatLaw 的开源法律大语言模型,它通过特定的数据集、关键词检索和自注意力机制来优化模型在法律领域的表现,解决了参考数据筛选过程中的模型幻觉问题,提升了其解决问题的能力。
Jun, 2023
开源聊天型大型语言模型评估了它们对西班牙语单词的知识,结果发现它们对大部分单词的意思产生错误的理解,并且无法正确运用这些单词构建有上下文的句子,揭示了西班牙语在开源大型语言模型竞赛中的滞后性,并强调了在聊天型大型语言模型中推动语言公平性的需求。
Mar, 2024
本研究提出了一款交互式可视化工具 LinguisticLens,通过对大语言模型生成的数据集的句法多样性进行聚类,用户可以快速检查数据集的总体情况并检查单个示例。
May, 2023
本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题,并提出了四条可行的建议。
Feb, 2023
该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型,探讨各种训练数据因素,如数量、质量和语言分布,如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能,目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解,我们的模型、数据和代码可供其他人使用和构建。
通过在中国法律领域构建超过 100 万个查询的数据集,并实现数据筛选和处理流程以确保其多样性和质量,我们介绍了 InternLM-Law,这是一个专门为回答与中国法律相关的各种法律问题而量身定制的大型语言模型。我们的训练方法涉及一种新颖的两阶段过程:首先在法律特定和通用内容上对 LLM 进行微调,以使模型具备广泛知识,然后在高质量的法律数据上进行独家微调以增强结构化输出生成能力。InternLM-Law 在 LawBench 上的平均表现最高,在 20 个子任务中有 13 个超过了包括 GPT-4 在内的最先进模型。我们公开提供 InternLM-Law 和我们的数据集,以促进将 LLM 应用于法律领域的未来研究。
该研究针对传统汉语在现有基准测试中的低覆盖率,提出了适用于评估大型语言模型的 TMLU 综合评估工具,通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释,基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差,而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距,研究发现存在提升潜力,强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本以促进未来研究。