通过研究人们在视觉设计中看和点击的位置,自动化模型预测数据可视化和图形设计中不同元素的相对重要性,并应用于自动设计重新定位和缩略图生成,并提供交互式设计工具,以提供设计过程中的即时反馈。
Aug, 2017
本文介绍了一种用于解决SemEval-2020任务10中提出的问题的系统:如何强调视觉媒体中的书面文本。我们提出了一种端到端模型,它以文本为输入,并对每个单词给出该单词被强调的概率。我们的结果表明,基于Transformer的模型在这个任务中特别有效。我们取得了0.810的最佳Matchm得分,并在排行榜上排名第三。
Jul, 2020
本文总结了SemEval-2020任务10的主要结果,该任务旨在设计自动化方法选择文本内容中的强调元素,并发现BERT是参与者常用的预训练模型之一。
Aug, 2020
ERNIE团队在SemEval-2020的任务10中取得第一名,提出了一种利用无监督预训练模型并在任务中进行微调的方法来寻找给定句子中最重要的单词,并证明这种方法可以通过额外的特征工程和数据增强来提高表现。最终他们的模型取得了0.823的最高分,在所有指标上位居第一。
Sep, 2020
本文提出了两种方法(BiLSTM-ELMo和基于RoBERTa和XLNet的transformers)来预测幻灯片中每个单词的强调程度,并在评估排行榜上获得了0.518分,位列第3名,在后评估排行榜上获得了0.543分,位列第1名。
Jan, 2021
文档导出幻灯片是一项困难的多模态推理任务,我们提出了一种新颖的基于层次序列-序列算法的方法,在文档摘要、图像和文本检索、幻灯片结构和布局预测等方面具有较高的性能。
该研究旨在开发一种控制机制,使用户可以选择上下文的一部分作为“亮点”,以便生成相关的输出。研究使用可训练的“焦点向量”来指示上下文的重要性,测试其在对话响应生成和提取式摘要生成任务中的有效性。
Mar, 2022
介绍了一个为了测试机器学习模型在多模态教育内容理解方面表现的新的数据集——Multimodal Lecture Presentations数据集,并且提出了两个任务——解释和说明教育内容,其中前者实现语音识别,后者实现视觉内容合成。介绍了一个名为PolyViLT的多模态变形器,该模型采用多个实例学习方法比现有方法更有效,同时指出了在多模态教育表现方面的挑战和机遇。
Aug, 2022
提出了一种多阶段的端到端模型,结合了LLM和VLM,用于从文档中生成演示幻灯片,相比于现有的方法具有更好的自动指标和人类评估。
Jun, 2024
大型语言模型在社会科学文本标注任务中应用广泛,其性能超过人类工作者且成本更低。然而,我们以往对选择提示对标注准确性的影响尚未进行过研究。在本研究中,我们展示了性能在不同提示之间存在巨大差异,并运用自动提示优化的方法系统地设计出高质量提示。同时,我们还提供了一个简单的基于浏览器实现的方法链接给社区。
Jul, 2024