日语预训练模型发布
本文研究了预训练语言模型在领域任务泛化能力方面的能力,发现预训练模型在计算机视觉、蛋白质折叠预测等任务中表现出色,优于从头开始训练模型,并指出预训练嵌入在输入层非常重要。
Jun, 2023
使用本地生成预训练转换器(GPT)模型进行零 - shot 黑盒多自然语言翻译成英文文本,评估并比较不同开源 GPT 模型在语言翻译准确性上的表现。
Apr, 2024
本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法,使用单个 GPU,一天内可以获得一种新的外语 BERT 基础模型,并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。
Feb, 2020
GPT (Generative Pre-trained Transformer) 是一种人工智能和自然语言处理技术,能够自动生成文本。本文主要研究了将 GPT 语言模型应用于大学教学的各个方面,包括学生和教师活动的创新、内容理解与生成、问题解决、个性化和试卷批改等。同时,作者还在软件工程等领域进行了详细实验,评估了 ChatGPT 作为助理工具在理论活动、习题和实验实践中的潜在应用价值。
Mar, 2024
本研究介绍了我们努力使 ChatGPT 在语言上更加民主化的努力。我们发布了一个大型语言模型 “Phoenix”,其性能在开源英语和中文模型中表现出竞争力,在具有有限资源的语言方面表现出色(涵盖拉丁语和非拉丁语言)。我们相信这项工作将有助于使 ChatGPT 更加可访问,特别是对于那些由于 OpenAI 或当地政府的限制而无法使用 ChatGPT 的国家。我们的数据,代码和模型可在此 https URL 获取。
Apr, 2023
该论文探讨了将大型语言模型(如生成式预训练变换器 GPT)整合到人机合作环境中,通过口头人机交流手段促进可变自主性的快速发展的数字景观中,介绍了一种基于 Unity 虚拟现实(VR)环境的 GPT 驱动多机器人测试平台的创新框架。用户研究表明,用户对于与机器人对话的预设期望较高,却很少尝试探索机器人合作伙伴的实际语言和认知能力,但那些进行探索的用户能从更自然的沟通和人类式的双向交流中受益。我们提供了一组对未来研究和类似系统的技术实施的经验教训。
Dec, 2023
我们提出了基于 GPT-4 的高效自指导方法,通过翻译少量英语指令并进行修订,为日语构建高质量的指令数据和评估基准,并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。
Mar, 2024