- 全球敏感性分析方法评述及基于数字分类的比较案例研究
综合评估全局敏感性分析方法,并提出一种评估方法,通过在 MNIST 数字数据集上进行案例研究,突出了这些方法的效果。
- 应用交互的小型语言模型:案例研究
我们研究了小型语言模型在通过自然语言交互促进应用程序使用方面的有效性。我们的重点是微软内部用于云供应链履行的特定应用程序。我们的实验表明,即使在小型数据集上进行微调,小模型在准确性和运行时间方面也能胜过大型模型。除了这些结果,我们还强调基于 - 大型语言模型的编程技能评估
通过比较 OpenAI 的 ChatGPT 和 Google 的 Gemini AI 在其免费版本中生成的编程代码的质量,以一个真实世界的例子和系统的数据集为支撑,本研究批判性地检验了这两种领先的大型语言模型的输出质量。鉴于它们在生成代码方 - WaterPool:在隐形、效能和稳健性之间进行减少水印的权衡
利用关键模块和标记模块的分解,本文介绍了 WaterPool,一个简单但有效的关键模块,提高了水印技术的性能,达到接近最佳的不可察觉性,并显著提高了功效和鲁棒性。
- 通过软提示压缩使 LLMs 适应高效上下文处理
该研究提出了一种名为 SoftPromptComp 的创新框架,它通过集成自然语言摘要、软提示压缩和增强型效用保留机制来为大语言模型提供流畅的上下文处理。研究结果表明,该框架显著降低了计算负担,并提高了大语言模型在各项基准测试中的效力,同时 - 关于 LoRA 的注释
LoRA 是一种高效适应大型语言模型 (LLM) 的首选方法,具有显著的简洁性和有效性,本文提供了对原始 LoRA 论文的补充视角,并为大规模部署 LoRA 提供了一系列的见解,以改善对 LoRA 的理解和应用。
- COLING波斯语大型语言模型基准测试:关注 ChatGPT 的初步研究
本文探讨了大型语言模型(LLMs)在波斯语中的有效性。研究发现,虽然 ChatGPT 和其他 LLMs 在英语中表现出色,但它们在资源稀缺的语言上的效率仍然是一个悬而未决的问题。研究通过对各种波斯语任务进行全面的基准测试研究,重点评估了 G - 近期大型视觉 - 语言模型的有效性评估
大视觉语言模型在专业任务和通用任务中的效能进行综合评估,发现它们在专业任务和通用任务中均表现有限,可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。
- 利用脑电图预测疲劳算法综述
应用机器学习算法检测生理疲劳的全面研究,旨在评估不同算法在基于脑电图数据预测个体疲劳水平方面的有效性。
- MasonTigers@LT-EDI-2024:社交媒体评论中检测恐同和恐跨性别的集成方法
本文描述了我们在 LT-EDI 2024 Workshop 的 Task 2 中针对十种语言中的同性恋恐惧症和 / 或跨性别恐惧症的检测的方法和结果。我们的方法包括单语种变换器和集成方法,利用各种方法的优势来提高模型的性能。集成模型效果良好 - RAISE -- 放射学人工智能安全,端到端的生命周期方法
通过认真评估和验证以确保 AI 模型达到最高的安全、有效性和功效标准,上线前以及生产使用中实施输入和输出保护措施、持续监测并追踪人群水平性能、公正性和结果传递、定期审查上线后的模型性能、教育放射科医生关于新的算法驱动发现对于 AI 在临床实 - 大型语言模型在语言学习中的口语智能
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存 - 深度神经网络对未知对抗攻击的健壮性评估
通过分析正常和对抗攻击样本的深度神经网络表示之间的差异,研究了对抗攻击的鲁棒性和现有防御机制的普适性,并揭示了 L2 和 Linfinity 范数之间的显著差异。
- 扩展 ChatGPT 的前沿:代码生成和调试
本研究探讨了 ChatGPT 在解决编程问题方面的有效性,考察了其解决问题的正确性和时间、内存复杂度等效率,研究结果表明 ChatGPT 在结构化问题方面表现出较好的成功率,但其调试任务表现不佳,为 ChatGPT 的能力和改进提供了精辟的 - 探索网络伤害缓解的逆行言论
用计算机科学的方法对社会科学领域中的对抗性言论研究进行系统性回顾,比较方法和结果,以填补目前在对抗性言论效用方面缺乏系统性理解的空白,从而识别出两个领域的有前途的未来方向。
- 方差 - 协方差正则化提高表示学习
本文介绍了一种名为 VCR 的正则化技术,旨在提高传输学习效果,该技术以促进具有高方差和最小协方差的学习表示为目标,从而防止网络仅关注减少损失函数的特征。作者通过各种实验验证了该方法的可行性,并开发了实现策略,表明 VCR 是一种强大且高效 - 克服在线学习排名中的先验错误规定
在线学习排序的领域,Bayesian ranking bandit algorithms 已被证明可以使用先前的知识来提高效能。本文提出并分析了自适应的算法,解决了现有工作需要匹配真实先验的主要局限性,并将这些结果扩展到线性和广义线性模型。 - HELP ME THINK: 用简单提示策略帮助非专家利用模型创建定制化内容
本文提出了一种简单的提示策略 HELP ME THINK,鼓励 GPT3 通过提问来帮助非专家用户执行任务,并将用户的答案用于执行任务。在多项难以完成的任务中,我们展示了 HELP ME THINK 策略的有效性,并希望我们的工作能够鼓励开 - ACL药物组合 N 元关系抽取数据集
为了帮助医生识别有效的药物联合治疗方案,我们构建了一个专家注释的数据集,用于从科学文献中提取药物联合治疗方案的疗效信息。除了实际应用之外,该数据集还提出了一个独特的 NLP 挑战,作为第一个由可变长度关系组成的关系提取数据集,这种数据集中的 - 公平算法设计:公平高效的机器调度
本论文探讨了自动决策算法引起的偏见问题,提出了一种通过合理使用个人数据来平衡公平和有效性之间矛盾的 Pareto 调度机制,以及带来的社会福利和个人利益之间的差异。