这个项目名为“i-Sim2Real”,乒乓球机器人在模拟环境中不断学习,并将学习成果运用于现实世界,最终可以在一个与人类的乒乓球接发回合中,接球超过三百次。谷歌之所以选择乒乓球运动,是因为机器人可以与快节奏以及相对不可预测的人类行为进行交互,同时乒乓球的规则相对于篮球、板球等运动也较为简单直接,在复杂性和简单性之间取得了平衡。
在这个过程中,机器学习模型被教会在虚拟环境或模拟中做什么,然后再应用这些知识,目标是尽可能长时间地与人类进行接球回合而不失误。机器人完成乒乓球动作时,既要求速度又要求精度,这对学习算法提出了很高的要求。同时,这类运动具有固定的、可预测的环境,使其成为研究人机交互和强化学习问题的理想测试平台。
“i-Sim2Real”项目不仅仅是关于乒乓球机器人,而是一种人工智能创造过程的方式。在现实世界中直接与人类玩家进行训练既繁琐又耗时,当需要数年的试验和错误才能建立一个工作模型时,使用i-Sim2Real这种方式显得十分有效,它在模拟环境下可以让数年的实时训练在几分钟或几小时内完成。
除了 i-Sim2Real 这种模拟与现实交替进行的方法,谷歌研究人员也在探索只使用现实的数据学习的方法,即 GoalsEye 项目,前者可以在模拟与现实中交替学习策略,而后者从现实世界的非结构化数据中学习,结合自我训练,对于在精确且动态的要求中学习目标条件策略是有效的。