- 仅仅因为我们扎营,并不意味着我们应该这样做:模拟酷儿声音的伦理学
语音克隆模型能否准确捕捉到 “同性恋语音” 并引发辩论,因合成音频距离实际同性恋说话人的语音风格越来越远,导致辨别度下降,而对于控制组则有相反的影响。然而,改进这类模型的能力涉及很多风险,并引发对建模酷儿语音伦理道德性的讨论。采集 “干净” - ACCSAMS:自動將考試文件轉換為盲人和視覺障礙者可接觸的學習資料
提出了一个名为 ACCSAMS 的半自动系统,用于提高考试文档的可访问性。该系统通过创建可访问的布局、去除不必要的空白、添加导航结构以及补充以前缺失的视觉元素的替代文本,解决了盲人和视障学生面临的学术障碍。此外,还提供了一个包括 1,293 - ChartFormer: 将图表图像转换为触觉可访问的 SVG 的大型视觉语言模型
通过图表分析,将光栅图像转换为触觉可访问的 SVG,以提高可视图表的可访问性。
- Hacc-Man:破解 LLMs 的街机游戏
这篇论文介绍了一款名为 Hacc-Man 的游戏,通过挑战玩家 “越狱” 一个大型语言模型(LLMs),以此来提高人们对在日常系统中部署易损 LLMs 的风险的认识,增强人们与 LLMs 互动的自我效能感,并探索人们在这个新环境中采用的创造 - ACL自动字幕中消除对剧本依赖性的 SBAAM 方法
直接生成的自动字幕模型填补了依赖于中间文件的不足,通过消除对中间转录的依赖,实现了对多语种、多样化环境下的自动字幕新的最佳性能。
- 美国出现的新兴人工智能分歧
数字鸿沟描述了社会和经济群体在数字工具的访问和使用上的差异。新兴的生成性人工智能工具可能会放大这些差距的影响。然而,这些工具的可负担性、多模态性和多语种能力也可能使它们比先前的数字工具更容易被多样化的用户所接触。在本研究中,我们通过分析美国 - 利用机器学习和计算机视觉提高低视力和盲人的可访问性
利用机器学习和计算机视觉技术改善视障人士的使用便利性的移动应用程序的研究。
- LLaVA-Docent: 使用多模式大型语言模型进行指导调整,以支持艺术欣赏教育
该研究探讨了多模态大语言模型(MLLMs)在艺术欣赏教育中的应用,重点是开发了 LLaVA-Docent 模型,它利用了最新的技术进展。通过综合文献回顾和专家咨询,该研究开发了一个强大的数据框架,并利用该框架生成了一个虚拟对话数据集,该数据 - 基于需求定制的 LMLs 服务
通过引入层级分布式的大型语言模型(LLM)架构,提高 LLM 在异构计算平台上的可访问性和可部署性,实现按需访问和定制化服务,并在用户与应用需求之间取得最佳权衡,推动人工智能技术的进步。
- AccessLens:自动检测日常物品的不可访问性
通过使用低成本的 3D 打印增强技术,我们引入了 AccessLens 系统,旨在识别日常物品中无法访问的接口,并推荐 3D 打印增强措施以提高可访问性。我们训练了一个检测器,使用 AccessDB 数据集来自动识别 6 种常见物品类别中的 - 基于自然语言处理的面向视觉障碍学生的计算机化考试指南的开发
本文介绍了一种面向视觉障碍学生的自然语言处理 (Computer-Based Test) 指导系统,它利用语音技术对文字问题和选项进行实时转换,以便视觉障碍学生能够理解和分析内容。通过使用样本音频数据集标签与预测出的系统语音记录进行比较,验 - ChatGPT,让我们聊手语:实验、架构要素、挑战和研究方向
通过回顾性分析 ChatGPT 的架构改进,本文探讨了 ChatGPT 在手语翻译方面的潜力,进一步发现 ChatGPT 可以准确地翻译英语到美式手语(ASL),澳大利亚手语(AUSLAN)和英国手语(BSL),以及阿拉伯手语(ArSL)到 - 视障人士触觉签名系统概念
以触觉签名系统为例,本研究致力于为视障人士创造一个无障碍且有效的手写签名系统,从而提升其独立性和全面参与各个领域的能力。
- 可下载基础模型微调不断增加的风险
能够下载的预训练模型权重的公开发布,使得细调模型可以避免昂贵的预训练费用。本研究认为,可下载模型的越来越易于细调可能会增加风险,主要体现在降低细调的计算成本、扩大参与共享成本的参与者范围、容易被用于恶意目的、难以监管具有潜在危险能力的模型等 - EMNLPGPT4All:一个开源压缩语言模型生态系统
本研究论文通过介绍 GPT4All 技术细节和该项目的发展历程,旨在提供大规模语言模型的开放源代码和技术报告,以便实现 LLMs 的普及化和开放化。
- 语言模型即服务模式下的 ARRT:新范式综述及挑战
现有的一些强大的语言模型通常是专有的系统,只能通过(通常是有限制的)网络或软件编程接口来使用。本文旨在界定这些挑战对 LMaaS 的可访问性、可复制性、可靠性和可信度(ARRT)造成的影响,并对当前解决方案进行系统性考察并提出建议,同时提供 - 大规模自动有声书制作
开发了一个系统,利用神经文本转语音技术从在线电子书中自动生成高质量的有声读物,并允许用户自定义朗读速度、风格、情感语调,并使用少量样本音频匹配所需的声音。
- 闲聊还是深层讨论:为过程挖掘设计提示工程
该研究主要探讨了大型语言模型在过程挖掘中的应用,以增强对话代理的能力,并改进了现有解决方案的许多问题,提高了可访问性和代理性能。通过实验验证了该框架在公共问题和数据集上的效果,为进一步探索大型语言模型在过程挖掘中的作用奠定了基础,并提出了改 - 美国数字健康领域的药物流产:系统的范围回顾
通过电子健康和远程医疗,堕胎服务的可及性和可接受性得到提高。遥控医疗方式的堕胎服务在美国增加了可及性,特别对偏远地区和担心面对面就诊带来的社会压力的人群来说,是一种可取的选择。
- CVPR非层次化变压器用于行人分割
我们提出了一种解决自主系统中实例分割挑战的方法,特别针对可访问性和包容性。我们的方法利用非层次化的 Vision Transformer 变种 EVA-02,结合级联 Mask R-CNN 掩码头部。通过在 AVA 实例分割挑战数据集上进行