深度学习解析:具体是什么,而不是什么
深度学习有望重塑包括视觉效果在内的每一个行业。但对于深度学习究竟意味着什么,人们却仍然存在着巨大的困惑。为此,从头来好好的梳理一下术语“人工智能”和“机器学习”就显得非常重要了。
人工智能(AI:Artificial Intelligence)经常被当作非常广泛的总称而误用,并用以指代我们所认为的“智能”功能:即实现人类认知功能的自动化。这就是为什么AI的第一个应用程序是赢得国际象棋和Jeopardy游戏这一类程序。
机器学习(ML:Machine Learning)则并不是那么“像智能的人类”,而更像是“训练有素的宠物”。在机器学习中,计算机被馈送入大量的数据,以做出相对明智的决定。一个很好的例子,便是通过成千上万的狗的图片,来训练计算机,让其自主识别狗的样子。让它学习到狗往往有毛皮、尾巴和四条腿。
计算机将会根据给定的数据,来定义适用于未来输入的“规则”。之后被展示一张从未见过的狗的照片后,应该就能够基于之前曾看到的成千上万张图像,而自动识别出来。
但此技术高度依赖于人类的输入。如果您输入的“狗”的数据一直都是黑色拉布拉多的图片,那它也就不会认为狮子狗也是狗了。毕竟机器学习是由数据驱动,而不是由算法驱动的。
神经网络
这也正是深度学习的用武之地。因为此技术也遵循相同的数据驱动概念,并且同样需要人工馈入的信息来学习和创建规则。这些数据最终会被输入到一个依照人类大脑构建的松散系统——即称为神经网络的“盒子”之中。
神经网络由许多节点组成,节点之间相互连接。理论认为,我们人类正是通过改变节点之间的权重,从而学会根据输入或刺激,来选择行动或不动。
下面继续以动物为例,来解释我们人类如何处理新信息。我们可能只需要看过一只鸽子,就能够识别大多数的其它鸽子。即使它们有笨拙的喙或不同颜色的羽毛,这是因为在我们生活中所经历过的事情里,已经有了很多可供学习的参考点了。
神经网络当然也能进行相同的连接,只是它们确实需要比机器学习多数千倍的数据。
深度学习和视觉特效
深度学习已经走进了从近人类图像分类到改进自动驾驶的各个方面。 2016年,谷歌的DeepMind计划阿尔法狗(AlphaGo),也通过击败世界围棋冠军而获得了与IBM国际象棋一样的成功。 谷歌声称,阿尔法狗已经在40天内学会了人类数千年的研究原则。
深度学习当然也将会对视觉效果行业的未来产生深远的影响。想象一下,您可以让机器通过最近上千部票房冠军中所学到的规则,来提前地渲染场景,或者根据此前的学习成果,来确定符合真实环境的适当照明。
一旦这些成为现实,那么拥有神经网络训练数据的人和企业将变得极具影响力。而如果没有这样的数据,神经网络将无法学到必须的知识,因此,如何实现访问无疑也将是未来几年一个有争议的问题。