拯救英雄伊巴什的遗产：评估四个语言模型对氨基酸的作用

Feb, 2024

拯救英雄伊巴什的遗产：评估四个语言模型对氨基酸的作用

Saving the legacy of Hero Ibash: Evaluating Four Language Models for Aminoacian

Yunze Xiao, Yiyang Pan

TL;DR本研究在未开发充分的氨基酸语言中评估了四个前沿的语言模型，通过评估研究它们在文本生成、语义连贯性和情境理解中的适应性、有效性和局限性。通过揭示这些模型在低资源语言中的性能，这项研究开创了弥合语言差距的途径，通过提供基准并了解挑战，为自然语言处理的未来发展奠定了基础，旨在提高语言模型在类似语言环境中的适用性，是向包容性和语言技术进步迈出的重要一步。

Abstract

This study assesses four cutting-edge language models in the underexplored aminoacian language. Through evaluation, it scrutinizes their adaptability, effectiveness, and limitations in →

language models aminoacian language text generation semantic coherence contextual understanding

发现论文，激发创造

朝着更具包容性的人工智能：针对萨米语的大型语言模型训练的进展与展望

该研究致力于解决 S'ami 语言面临的数字边缘化问题，通过采用最新的自然语言处理技术，训练基于超低资源语言的语言模型，并通过多语言训练实验，发现在顺序多语言训练情景下，解码器模型的表现优于联合多语言训练，且高语义重叠的多语言训练比从头训练要更好。

May, 2024

南非语言低资源语言建模

本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。

Apr, 2021

加强对原住民语言的翻译：多语模型实验

本文介绍了 CIC NLP 为 AmericasNLP 2023 的美洲土著语言机器翻译系统共享任务提交的三种方法，其中使用了 M2M-100、mBART50 和 Helsinki NLP Spanish-English 翻译模型，总体而言，mBART 设置能够在 11 种语言中的三种语言中改善基线。

May, 2023

探索大型语言模型在古典学中的应用

本文提出了四种古希腊语言模型，包括单语和多语版本，使用 RoBERTa 和 T5 作为模型类型，基于模型对形态和句法任务进行评估，探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能，并为未来的研究提供了有用的信息。

May, 2023

填补古代阿卡德语文本中的空白：一种掩码语言建模方法

通过掩码语言建模任务，结合阿卡德语等，我们的研究在古代美索不达米亚文献的文字补充方面达到了最新水平，并在人类背景下进行了实验，证明了在辅助专家转录已灭绝语言的文本方面的适用性。

Sep, 2021

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

MEGA：多语言生成 AI 的评估

本研究对生成式大型语言模型 (LLMs) 进行了全面的评测，并通过对比同类非自回归模型，探讨了这些模型在多语种 NLP 任务中的性能表现和限制，旨在为未来改进 LLMs 提供方向。

Mar, 2023

AC-EVAL：在大型语言模型中评估古汉语理解能力

为了满足大型语言模型（LLMs）对古代语境的理解的评估需求，本研究设计了 AC-EVAL 基准测试，用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务，AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势，促进它们在古代汉语语言教育和学术研究领域的发展和应用。

Mar, 2024

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

大型语言模型能否理解古代汉语？对 ACLUE 进行初步测试

ACLUE 是一个评估基准，通过评估八个现代语言模型在理解古代汉语方面的能力，观察到它们在现代汉语和古代汉语之间的性能存在显著差异，其中 ChatGLM2 表现最出色，获得了平均 37.4% 的得分。

Oct, 2023