谷歌的AI工具可让用户使用自然语言指令触发移动应用操作

2021-11-19 21:27 来源:

打印 放大 缩小

谷歌正在研究如何使用AI将自然语言说明植根于智能手机应用程序操作。在2020年计算语言学协会(ACL)会议接受的一项研究中,该公司的研究人员提出了语料库来训练模型,以减轻需要通过应用进行操纵的需求,这可能对视力障碍者有用。

当协调工作并完成涉及一系列动作的任务时(例如,按照制作生日蛋糕的食谱),人们会相互提供指示。考虑到这一点,研究人员着手为可以帮助进行类似交互的AI代理建立基准。给定一组指令,这些代理将理想地预测一系列应用程序动作以及在应用程序从一个屏幕过渡到另一个屏幕时生成的屏幕和交互元素。

研究人员在论文中描述了一个两步解决方案,包括一个动作短语提取步骤和一个接地步骤。动作短语提取使用Transformer模型从多步骤指令中识别操作,对象和参数描述。(模型中的“区域关注”模块允许它整体上处理指令中的一组相邻单词,以对描述进行解码。)接地将提取的操作和对象描述与屏幕上的UI对象进行匹配,再次使用一种Transformer模型,但可以在上下文中表示UI对象并为其基础对象描述。

合著者创建了三个新的数据集来训练和评估他们的动作短语提取和基础模型:

第一个包含187条多步骤英文说明,用于操作Pixel手机及其相应的操作屏幕序列。

第二个包含来自网络的英文“操作方法”说明以及描述每个动作的带注释短语。

第三个包含295,000个单步命令,这些命令用于UI动作,这些动作来自公共Android UI语料库的25,000个移动UI屏幕上的178,000个UI对象。

他们报告说,关注区域的变压器在预测与地面真实情况完全匹配的跨度序列时可达到85.56%的准确度。同时,在将语言指令端到端映射到更具挑战性的任务时,短语提取器和基础模型一起获得89.21%的局部准确度和70.59%的完全准确度,以匹配地面真实动作序列。

研究人员断言,数据集,模型和结果(所有这些数据集,模型和结果都可以从GitHub上的开放源代码获得)为解决将自然语言指令扎根于移动UI动作这一具有挑战性的问题迈出了重要的第一步。

“这项研究以及总体上的语言基础,是将多阶段指令转换为图形用户界面上的动作的重要一步。成功地将任务自动化应用于UI域有潜力显着提高可访问性,其中语言界面可以帮助视力障碍的人使用看得到的界面执行任务。”“当人们在手头的任务所困扰的情况下无法轻松访问设备时,这对于情况损害也很重要。”

责任编辑:互联网