- IJCAIBADGE:LLM 模型下的羽毛球报告生成与评估
我们引入一个名为 BADGE 的新框架,利用大型语言模型自动生成和评估羽毛球比赛报告,并测试了不同输入数据类型和学习方法。比较评估结果表明 GPT-4 生成的报告更受青睐,为羽毛球报道中应用语言模型提供了基础,并可扩展至其他体育项目,促进体 - 基于学习单调对齐来提高 LLM 语音合成的鲁棒性
基于大型语言模型(LLM)的文本到语音(TTS)系统在处理大规模语音数据集和为新说话者生成自然语音方面表现出了显著的能力,但是基于 LLM 的 TTS 模型并不稳健,因为生成的输出可能包含重复的词、缺失的词和错位的语音(即幻觉或注意力错误) - FineWeb 数据集:对网络进行精细分离以获取大规模最佳文本数据
FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力,我们公开释 - EMNLP变量逐层量化:一种简单而有效的低比特量化迁移学习方法
我们提出了一种简单的变量量化方法,该方法将大型语言模型的不同层在不同的比特级别上进行量化,通过将最重要的层量化为更高比特精度并将不太重要的层量化为较低比特以实现浮点量化级别。
- Grass: 结构稀疏梯度的计算高效低内存 LLM 训练
本研究通过利用稀疏投影将梯度转化为结构稀疏更新,以显著降低优化器状态的内存使用,减少梯度内存占用、计算和通信成本,并实现了与全秩训练和现有投影优化方法相媲美的性能。
- 超越人口统计学:利用人类信念网络对饰演角色的基于 LLM 的代理进行对齐
通过整合从实证人类信念网络中提取的信息,本研究评估了如何改进基于人类行为的大型语言模型(LLM)与人类行为的一致性,结果表明在模拟和理解社会信念分布模式的工作中,将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。
- 一种基于 LLM 的评估自动对抗叙事生成方法的排序方法
使用大型语言模型作为评估者,提出了一种对生成的反话进行评估的新方法,通过在锦标赛格式中对生成的反话进行成对比较,建立了一个模型排名流程,并与人类偏好达到了 0.88 的相关性。此外,通过细致的评估和性能分析,发现以聊天为导向的零 - sho - GenoTEX: 基于 LLM 的基因表达数据探索与生物信息学家对齐的评估基准
通过引入 GenoTEX 作为一个基准数据集,我们展示了 LLM(大型语言模型)方法在基因组数据分析中的潜力,并提出了 GenoAgents 团队作为解决基因数据集任务的基线算法,同时也指出了改进的挑战和方向。
- 基于大型语言模型的事实对话摘要
通过使用符号知识蒸馏方法改善小型预训练模型的事实一致性,我们在对话摘要中取得了更好的事实一致性,同时保持了连贯性、流畅性和相关性。
- 一种大型语言模型优于其他计算方法对医生笔记的高通量表型
本研究比较了高通量表型化的三种计算方法:基于生成式人工智能的大型语言模型(LLM),利用深度学习进行跨度分类的自然语言处理(NLP)方法,以及将词向量与机器学习相结合的混合方法。采用 GPT-4(一种大型语言模型)的方法表现出卓越性能,表明 - AspirinSum: 一个基于方面的实用性保留去识别摘要框架
提出了一个名为 AspirinSum 的基于方面的保用效率的文本去识别框架,通过学习来自现有评论数据的专家方面,能够通过提取与个人敏感方面相关的子句并用类似的方面子句替代来高效地总结个人敏感文件,并最终将去识别的文本用于数据发布,以便进行下 - SynDARin: 用于低资源语言的自动推理数据集合成
提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题 - 回答对,并经过自动翻译和质量验证。人类评估显示,生成的英 - 通过模型特征评估对话游戏自对话性能所需参数数量
大型语言模型的好坏取决于其在相关基准测试上的表现,其性能由模型特征(如参数数量、训练方法等)以及训练参数(如微调数据质量等)决定。此外,性能在一定大小范围内表现出广泛变化,受采样参数和推理过程中适度的权重量化影响不确定性较大。
- 利用大型语言模型增强旅行选择建模:一种提示学习方法
通过引入一种基于 Prompt Learning 的大型语言模型 (LLM) 框架,本文改进了个体选择预测的准确性,并提供了明确的解释。在旅行选择分析领域,LLM 显著优于深度学习方法和离散选择模型,同时提供了个体层面的可理解和明确的解释。
- 基于 LLMs 的块级文本检测
通过利用大型语言模型的强大语义知识,提出了一种新颖方法 BTS-LLM(基于 LLM 的区块级文本识别),以在图像中识别区块级别的文本,从而增强后续应用中的上下文信息和文本纠错功能。
- VELO: 基于向量数据库的云边协同 LLM QoS 优化框架
本研究提出了一种名为 VELO 框架的向量数据库辅助云边协作的大型语言模型(LLM)的 QoS 优化方法,通过利用向量数据库缓存来降低相似请求的响应时间和成本,并通过多智能体强化学习算法解决 QoS 优化问题。实验结果表明,VELO 框架显 - 关于人工智能启发的用户界面设计
通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI):第一种方法是设计师可以使用大型语言模型 (LLM),如 GPT,直接生成和调整一个或多个 UI;第二种方法是使用视觉 - 通过聚合提示识别错误(DEEP):一种用于检测事实错误的端到端 LLM 框架
用于检测大语言模型生成的文本摘要中的事实错误的一种框架,该框架通过使用多样的语言模型提示来识别事实不一致,并将其输出作为二进制特征进入集成模型,从而产生经验性准确的概率来判断文本是否在事实上一致或不含幻想。
- ACL人机对话:通过可感知的声音接收和反应展现同理心
提出了 PerceptiveAgent,一种具有共情能力的多模式对话系统,通过集成语音模态感知来识别言辞背后更深层次或更微妙的意义,实验结果表明,PerceptiveAgent 在情境理解方面表现出色,能够准确辨别发言者的真实意图,即使语言 - LLM4MSR: 多场景推荐的增强 LLM 模型
提出了一种有效高效可解释的 LLM4MSR 模型,通过利用大型语言模型和层次元网络结构来提升多场景推荐的效果和可解释性。在多个数据集上验证了 LLM4MSR 的有效性、兼容性以及在工业推荐系统中的高效性并实现了更好的可解释性。