看了200万个视频 AI学会了预测未来

您当前的位置：首页 > 关注 > 正文

看了200万个视频 AI学会了预测未来

来源：互联网时间：2023-05-31 22:04:51

人工智能系统可以预测场景将如何展开，并想象会发生什么。

(资料图片仅供参考)

给定静态图像，这种深度学习算法可以生成一个迷你视频来显示接下来会发生什么。比如你给它一张火车站的图片，它可能会联想到火车离开站台的图片。或者，海滩的图像可以激发它产生一幅汹涌波涛的画面。

教会AI对未来的预测可以帮助它更好地理解现在。例如，当我们看到人们准备饭菜时，我们可能会想象他们接下来会吃什么，这对于人工智能系统来说是非常难以理解的。这样的系统还可以让AI助手识别一些危险情况，比如无人驾驶汽车预见即将到来的事故。

麻省理工学院的卡尔冯德里克领导的团队建立了这个系统。他说：“在我们这个世界上运行的所有机器人都需要具备一些预测未来的基本能力。例如，如果你想坐下，你不想让机器人拉开你下面的椅子。”

为了开发他们的人工智能系统，研究团队使用了图像共享网站Flickr上的200万个视频来训练该系统。有些场景包括海滩、高尔夫球场、火车站、医院里的婴儿等等。所有这些视频都没有标记，这意味着它们不包含可以帮助AI理解视频内容的信息。之后，研究人员将特定的静止图像输入到系统中，然后人工智能系统自动生成下一步可能发生的事情的微电影。

为了教会AI制作更完美的视频，团队使用了一种叫做对抗网的方法。一个网络生成视频，另一个网络判断这个视频看起来是否真实。两个网络在竞争中相互制约：视频制作方试图制作出能欺骗其他网络的最佳视频，而另一个网络有能力分辨视频的真伪。

目前生成的视频为32帧低分辨率视频，时长略长于1秒。但总的来说，这些视频画面比较清晰，能够显示场景中的正确动作：比如火车在直线轨道上行驶，或者宝宝在揉脸。在其他预测视频场景的尝试中，例如由纽约大学和脸书的研究人员开发的系统，需要多个输入图像，一些图像通常非常模糊。

不过从人的角度来看，视频看起来还是有点诡异，AI还需要学习更多。比如，它没有意识到离开车站的火车最终应该离开画面。这主要是因为它没有关于世界规则的先验知识，即缺乏我们所说的常识。这200万个视频，总时长约两年，都是这个人工系统可以用来了解世界如何运转的数据。冯迪瑞克说，“与一个10岁的孩子或者人类进化的程度相比，这其实并没有那么多。”

剑桥计算机实验室大学的约翰多格曼说，即使如此，这项工作仍然显示了当计算机视觉与机器学习相结合时可以取得的成就。

他说，一个关键的方面是能够识别随着时间发生的事情的因果关系。“物理定律和事物的本质意味着不是所有的事情都会发生，”他说。"作者已经表明，人工智能系统可以学习这些限制."

冯德里克现在正在扩展该系统，以制作更大更长的视频。他说，虽然它可能永远无法准确预测会发生什么，但它可以向我们展示另一个未来。“我认为我们可以开发一个系统，可以想象出合理可信的未来图像和视频。”

标签：