编译:麦姆斯咨询
计算机视觉将再次重塑?
Prophesee联合创始人、匹兹堡大学眼科教授、卡耐基梅隆大学机器人研究所兼职教授Ryad Bensoman认为,事实确实如此。作为基于事件的视觉技术的开创人之一,Bensoman预计神经形态视觉(基于事件相机的计算机视觉),将成为计算机视觉的下一个发展方向。
“计算机视觉已经经历了多次重要革新。”他说,“我至少见证了两次相当于从头开始的重塑。”
Bensoman认为首先是20世纪90年代的一次转变,即从涉及一些摄影测量的图像处理转向基于几何学的视觉方案,然后是如今向机器学习的快速转变。尽管经历了这些革新,但现代计算机视觉技术仍然主要基于图像传感器,即生成近似人眼所见图像的可见光成像传感器。
Bensoman认为,在这种图像传感模式打破之前,它实际阻碍了替代技术的创新。GPU等高性能处理器的开发,推迟了寻找替代解决方案的需要,从而延长了这种影响。
“为什么我们要用图像进行计算机视觉?这是一个非常值得深究的问题。”他说,“我们使用图像,完全是历史原因。”
成像相机
自公元前五世纪针孔成像技术诞生以来,成像相机就一直伴随着我们。到了16世纪,艺术家们建造了房间大小的装置,用于将设备外的人或风景记录到画布上。经过多年的发展,这些画布逐渐被胶片所取代,以记录图像。随后,数码摄影等技术创新,最终使相机成为现代计算机视觉技术的基础。
然而,Bensoman认为,基于成像相机的计算机视觉技术效率极低。他将之类比中世纪城堡的防御系统:利用城墙周围的守卫监视四面八方接近的敌人。鼓手敲击稳定的节拍,每个守卫会在每个鼓点上,大声喊出他们所看到的情况。在众多守卫的呼喊声中,明辨其中一位发现遥远森林中的敌人并非易事。
来到21世纪,鼓声硬件相当于电子时钟信号,而守卫好比每个像素——它们产生了大量数据,并且必须在每个时钟周期捕捉信号,这意味着大量冗余的信息和大量不必要的计算。
Bensoman说道:“守卫的监视和汇报相当于城堡的算力。他们需要一直监视没有事情发生的情况,并汇报,相当于一直在搜集大量无用的信息,造成很大的带宽。如果这座城堡还非常庞大且复杂,要捕捉到有用的信息是何其费事且困难。”
来到神经形态视觉,其基本思想受生物系统工作方式的启发,即检测动态场景中的变化,而不是连续分析整个场景。对于刚才的城堡类比,这意味着守卫在没有情况发生时,可以保持静默无需持续汇报,直到他们发现敌人,然后大声喊出他们的位置以发出警报。对于传感器来说,这意味着可以让单个像素决定它们是否看到相关的东西。
“像素可以自己决定应该发送什么信息,它们可以选择捕捉有意义的‘特征’信息,而不是捕捉所有信息,这就是区别所在。”他说。
与固定频率的系统采集相比,这种基于事件的方法可以节省大量能耗,并减少延迟。
他说:“我们需要更具适应性的东西,而这正是基于事件的视觉技术可以提供的,一种自适应的采集频率。当考量振幅变化时,如果某个物体移动得很快,我们就会得到很多样本。如果某个物体没有变化,那么样本量几乎为零。因此,这能够根据场景的动态,调整采集频率。”
Bensoman于2000年进入神经形态视觉领域,他坚持认为过去基于图像的先进计算机视觉不是最好的方案。他说:“最大的转变是,我们可以在没有灰度和图像的情况下进行视觉处理,这个概念的提出在2000年前后可以说是‘无稽之谈’。”
Benosman提出的技术成为当今事件传感的基础,它是如此具有开创性,以至于当时提交给最重要的IEEE计算机视觉期刊的论文未经审查就被拒绝了。事实上,直到2008年开发出动态视觉传感器(DVS),这种方案才开始获得广泛关注。
Prophesee的部分客户应用展示了常规相机和DVS传感器输出的差异(来源:Prophesee)
神经科学的启示
神经形态技术源自生物系统的启发,包括终极计算机,大脑及其计算元素,神经元。问题是我们还没有完全理解神经元是如何工作的。虽然我们知道神经元是对被称为尖峰的电信号起作用,但直到最近,研究人员对神经元的表征还相当草率,认为只有尖峰的数量才重要。
这一假设持续了几十年。最近的研究已经证明,这些尖峰的时间信息绝对关键,而大脑结构在这些尖峰中产生延迟来编码信息。
如今的尖峰神经网络模拟了大脑中的尖峰信号,是尖峰信号的一种二进制(‘0’或‘1’)表达。“收到一个‘1’信号,唤醒,计算,然后休眠。”Bensoman解释道。但实际要复杂得多。当尖峰信号出现时,神经元开始对尖峰值进行积分;神经元也会有遗漏,这意味着结果是动态的。还有大约50种不同类型的神经元,具有50种不同的整合模式。当前的电子化版本缺少集成的动态路径、神经元之间的连接以及不同的权重和延迟。
Bensoman说:“问题在于要制造一款高效的产品,由于我们还不不够理解它,不能模仿所有的复杂性。如果我们掌握了完善的大脑理论,就可以解决它,但问题是我们理解得不够。”
现在,Bensoman运营着一个独特的实验室,致力于理解大脑皮层计算背后的数学问题,旨在创建新的数学模型,并将其复制到硅基器件。这包括直接监测来自真实视网膜的尖峰信号。
但是,Bensoman反对完全复制生物神经元,他认为这种方法不可取。他表示:“在硅芯片上复制神经元的想法,源自人们在晶体管中看到了类似真实神经元的机制。不过,我们无法制造并利用脑细胞,但我们有硅芯片。我们需要根据硅芯片的特性来因地制宜。如果我们知道在计算什么,利用硅芯片,我们就可以优化这个方程式,并以最低的成本、最低的功耗、最低的延迟运行。”
数据处理能力
认识到没有必要精确复制神经元,再加上DVS传感器的开发,驱动了现在神经形态视觉系统的发展。尽管现在已经有产品上市,但要实现完全类人的视觉传感器商业化,还有一段路要走。
最初的DVS传感器像素“较大”,因为光电二极管周围的组件本身大大降低了填充因子。虽然对这类相机开发的投入加速了这项技术的发展,但Bensoman明确表示,目前的事件相机仍然只是对2000年最初研究的改进。
索尼、三星和豪威最先进的DVS传感器具有更微小的像素,采用3D堆叠等先进技术,降低了噪音。Bensoman考虑的是,目前使用的传感器类型能否成功扩大生产规模。
他说:“问题是,一旦增加像素的数量,就会得到更大量的数据。现在,由于处理速度仍然非常快,可能仍然可以实时处理它,但太多的像素会带来太多的相对变化。现在,再这样下去可能会进入死胡同,因为人们知道它的潜力,但现在还没有合适的处理器来支持它的运行。”
通用神经形态处理器落后于对应的DVS传感器。一些业内最大的厂商(IBM Truenorth、Intel Loihi)仍在努力开发中。Bensoman说,合适的处理器加上正确的传感器,将成为无与伦比的组合。
Bensoman表示:“今天的DVS传感器速度极快,带宽超低,动态范围大,所以可以支持室内和室外的广泛应用。这是确定的未来,市场起飞是可以预见的。”他还补充道:“谁能推出优异的处理器并提供完整的堆栈,就能赢得未来的竞争,因为这必将无可匹敌!”