- HW-GPT-Bench:面向语言模型的硬件感知架构基准测试
通过 HW-GPT-Bench 提供的硬件感知语言模型代理基准测试,我们展示了不同多目标 NAS 算法的可用性,并评估了结果 Pareto 前沿的质量,以推动和加快在大型语言模型中的多目标 NAS 和结构修剪方法的研究进展。
- DocuMint: 使用小型语言模型为 Python 生成文档字符串
通过数学公式和人工评估使用 Likert 量表对性能进行定量评估和质量评估,研究了小型语言模型在生成高质量文档字符串方面的有效性,并引入了包含 10 万个样本的大规模监督微调数据集(DocuMint)。
- 模拟政策影响:发展一种生成场景编写方法以评估监管的感知效果
AI 技术、政策、语言模型、负面影响和透明度立法是本文的关键词,本文利用大型语言模型评估政策的有效性以减轻负面影响,并通过案例研究证明了方法的有效性。
- 全球知识要素(EWOK):一种受认知启发的框架,用于评估语言模型中的基本世界知识
使用 Elements of World Knowledge (EWOK) 框架和 EWOK-CORE-1.0 数据集,对 20 个开源的大型语言模型进行评估,发现这些模型在世界建模能力上比人类表现差异较大,从而提供了研究大型语言模型的世界 - 塞尔维亚语言建模的新文本语料库
该文章介绍了用于大型语言模型训练的塞尔维亚语(和塞尔维亚 - 克罗地亚语)的文本语料库,并公开存储在多个知名在线资源库之一。对每个语料库使用多种方法进行分类,并详细说明其特点。此外,文章还介绍了三个新的语料库:一个新的塞尔维亚 - 克罗地亚 - HumanRankEval: 作为对话助手的语言模型的自动评估
为了加快语言模型作为对话助手的发展,我们提出了一种新的自动评估任务:HumanRankEval(HRE)。它由一个大规模、多样化和高质量的问题集组成,每个问题都有几个由人类撰写和评分的答案。通过对 HRE 排列这些答案并计算它们与相应人类排 - ACL语言模型是否捕捉隐含的话语意义?对韩语形态学的穷尽义务暗示进行的调查
韩语中的不同对象标记具有语义特征和与语义特征正交的话语特征,我们评估大规模语言模型是否能够将话语意义与韩语中的不同对象标记相关联,结果表明语法标记的话语意义比话语标记更具挑战性。
- COLING基于提示的少样本问答合成数据生成
使用大型语言模型在少样本学习 Set 中提高问题回答的性能。
- 语言建模的思维标记
当语言模型遇到复杂的计算问题时,由于其不能执行复杂的推理,它们通常会出现错误。为了增强语言模型的泛化能力,并与人类行为相对应,我们提出使用特殊的 “思考标记”,使模型在遇到复杂问题时能够执行更多计算。
- 从人类指令生成行为树的意图理解与最优行为规划的整合
本研究提出了一个两阶段框架来生成行为树(BT),首先使用大型语言模型(LLMs)从高层指示中解释目标,然后通过最优行为树扩展算法(OBTEA)构建高效的目标特定行为树,在服务机器人中的实验证实了 LLMs 在产生语法正确和准确解释目标方面的 - 用于科学论文自动摘要的俄语多模态数据集
该论文讨论了创建一个俄语科学论文的多模态数据集,并测试了现有的语言模型在自动文本摘要任务上的表现。该数据集的特点是其多模态数据,包括文本、表格和图形。论文介绍了使用 SBER 的 Gigachat 和 Yandex 的 YandexGPT - 零样本分词器迁移
语言模型与分词器(tokenizer)的绑定限制了其灵活性,本文提出了零 - shot 分词器迁移问题,并通过训练超网络解决了初始化嵌入向量的挑战,进一步缩短了分词序列,从而实现了对语言模型与其分词器的分离。
- DEPTH:分层预训练的议程教育
深度是一个编码器 - 解码器模型,通过在预训练过程中引入面向语篇的目标来提高语言模型在语篇层面上的理解能力。通过结合层次化的句子表示和两个目标:句子重排和跨度破坏,深度能够更快地学习语义和语篇级别的表示,从而拓展了 T5 在语篇能力方面的表 - TANQ: 一个开放领域的表格问答数据集
TANQ 是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集,我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测,最好的基准模型 GPT4 的综合 F1 得分为 29.1,相较于人类表现差了 19.7 个百分点,我 - 预训练上下文语言模型对希伯来同形字分析的区分能力
研究表明,最新的希伯来语情境嵌入模型在消除希伯来语同形异义词和分析词素、句法特征方面效果显著,尤其在限制分词数、2 种和 3 种歧义的情况下,对于平衡和不平衡分布的同形异义词同样有效,无论是有监督训练还是几次训练。
- 通过强化学习对语言模型进行微调以提升精确目标分子生成
本研究采用创新的全新药物设计策略,利用语言模型的能力为特定蛋白质设计有针对性的药物。我们采用强化学习框架和近端策略优化对模型进行优化,获得生成适用于蛋白质靶点的药物的策略。通过融合药物 - 靶点相互作用和分子有效性的综合奖励函数,我们的方法 - 通过大型语言模型重定义结构化数据库的信息检索
本文介绍了一种名为 ChatLR 的新型检索增强框架,主要利用大型语言模型(LLMs)的强大语义理解能力作为检索器,以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统,实验证明 ChatLR 在解决 - G-SAP:基于图的异构知识的常识推理结构感知提示学习
我们提出了一种用于常识推理的新型基于图结构的提示学习模型,名为 G-SAP,旨在在 LM+GNNs 模型中保持异构知识的平衡并增强跨模态的交互。通过将多个知识源整合到证据图中,采用结构感知的冻结 PLM 来完全融合来自证据图的结构化和文本信 - ACLMIDGARD: 使用最小描述长度进行结构化常识推理的自一致性
使用大型语言模型生成推理图的结构化推理任务中,我们提出了一种基于自洽性和最小描述长度 (MDL) 的方法 (MIDGARD),它通过对不同图样本进行一致属性的鉴别,从而在保持精确度的同时拒绝错误属性并包含遗漏元素,表现出超越其他结构化推理任 - 走向上下文教学:根据学生的误解调整示例
自适应教学中,计算模型和语言模型在学生不同类型上的表现和有效性进行研究,引入 AdapT 模型和评估方法,并提出了基于概率的自适应教学模型 AToM,通过评估结果展示了学习领域中 AToM 和 LLMs 的性能优势。