想象一下有一只橘猫,然后再想象一下这只猫是煤灰色的,现在,再想象一下,这只猫正在长城上昂首阔步。做出上述想象时,人们大脑中的一系列神经元会快速激活,并根据之前对世界的认知,想出各种各样的图片。换句话说,人类很容易想象一个具有不同属性的物体。但是,尽管深度神经网络上在执行某些任务是能够取得与人类一样或超越人类的表现,但是,计算机在“想象”技能方面仍在与人类处于较量中。
据外媒报道,美国南加州大学的一支研究团队研发了一种人工智能(AI)技术,能够利用与人类类似的能力想象拥有不同属性、之前从未见过的物体。该支团队由Laurent Itti教授、博士生Yunhao Ge、Sami Abu-El-Haija和Gan Xin组成。研究人员表示:“我们受人类视觉泛化能力的启发,尝试在机器中模拟人类的想象力。人类能够根据形状、姿势、位置、颜色等属性将所学的知识分开,然后再把此类知识结合起来想象一个新的物体。
新AI系统灵感(图片来源:南加州大学)
AI的泛化问题
例如,假设你想创建一个能够生成车辆图片的AI系统。在理想情况下,你能够为该算法提供一些车辆的图片,然后其能够生成各种颜色、不同角度的各种汽车,如保时捷、庞蒂亚克、皮卡等。
这也是AI长期追求的目标之一,即创建能够外推的模型,这也意味着,只要给出一些例子,该模型能够提取出基本的规则,并将此类规则应用到各种新颖、之前从未见过的例子中。但是,机器通常只训练像素等样本特征,而不会考虑到物体的属性。
想象力的科学
在此次新研究中,研究人员利用一种称为分离(Disentanglement)的概念试图克服此种限制。例如,分离能够用于生成深度伪装(deepfakes),将人类的面部运动和身份分离,然后合成新的图片和视频,用另一个人替代原来的人,但是还是原来的面部运动,类似于换脸技术。
新方法训练图像以及被组合的图像(图片来源:南加州大学)
类似上述方法,不像传统的算法一样只采用一个样本,新方法采用了一堆样本照片并挖掘两者之间的相似性,以实现“可控分离表征学习”(controllable disentangled representation learning)。
然后,该方法会重新组合知识,以实现“可控新图像合成”,或者人们所说的想象。例如,以变形金刚为例,它能够采用威震天汽车的外形,但是采用黄色大黄蜂的颜色和姿势以及纽约时代广场的背景。最后是一辆黄色大黄蜂颜色的威震天汽车在时代广场行驶,即使在训练过程中并没有人看到此种样本。
然后,该方法会重新组合知识,以实现“可控新图像合成”,或者人们所说的想象。例如,以变形金刚为例,它能够采用威震天汽车的外形,但是采用黄色大黄蜂的颜色和姿势以及纽约时代广场的背景。最后是一辆黄色大黄蜂颜色的威震天汽车在时代广场行驶,即使在训练过程中并没有人看到此种样本。
理解这个世界
虽然分离不是一个新概念,研究人员表示,该框架能够与几乎任何类型的数据或知识兼容,扩大其应用范围。例如,通过将敏感属性从等式中移动,分离种族和性别相关知识,以实现更公平的AI。
在医学领域,该技术能够通过将药物的功能从其他属性中分离,然后在重新组合以合成新的医药,从而帮助医生和生物学家发现更有用的药物。赋予机器想象力还能够帮助创造更安全的AI,例如,让自动驾驶汽车在训练中想象并避开之前未看到的危险场景。