因为相信，所以看见——人类视觉系

人类视觉系统

灵长目视觉系统 Figure from Ref[6]

在人类的大脑中，约55%的新皮层（Neocortex）与处理视觉（Vision）信息相关[5]，主要的视觉系统由眼球、视神经、视交叉、外侧膝状体核（Lateral Geniculate Nucleus，LGN）和视觉皮层（Visual Cortex）组成。当然视觉信号的处理并非止步于此，而是通过腹侧通路（Ventral Pathway）和背侧通路（Dorsal Pathway）与大脑的其他部位发生交互[6]。本文将通过孔径问题（Aperture Problem）和边缘所有权（Border Ownership）两个方向的研究，介绍视觉皮层处理信号的机理。后续文章再更多探讨注意力（Attention）、扫视（Saccadic Eye Movement）和预测编码（Predictive Coding）等问题。

Figure from Wikipedia

负责感光的视觉细胞并非均匀的分布在眼球的视网膜（Retina）上，其中位于黄斑（Macula）中心的中央凹（Fovea）集中了大量的视锥细胞。中央凹的直径约1.5mm，覆盖了5°的感受野（Receptive Field）。感受野是神经元能够感受信号的范围，中央凹内部光感受器最集中的区域只有1°的感受野。正因为如此，人类视野中只有中心的图像具有较高的分辨率。为了获得全景的图像，眼球必须不停的转动。在扫视（Saccade）的模式下，眼球转动的间隔只有120~130ms，这恰恰是视觉系统生成图像的时间（~100ms）。人们在主观上觉得整个视野是清晰的，这是大脑对于扫视图像的高度加工[7]。

仅仅通过扫视这一看似简单的现象，我们就足以发现人类视觉系统和人造成像系统的许多不同。首先，人类视觉的全景图像是通过扫视的不同清晰度图像拼接而成；人造成像系统多是感光芯片一次性曝光得到清晰度均匀的图片。其次，不同神经通路传递信号有明显的时效性，同一皮层内的传播速度约为3.5m/s，跨皮层的传播速度约为0.3m/s，差了一个数量级。多皮层前馈和反馈处理视觉信号有无法跨越的物理极限[8]。在设计人类视觉相关的产品时，100ms这一形成稳定图像感知的最小时间间隔也是需要考虑的重要因素。人工神经网络对于信号处理先后顺序可以人为改变，处理时间也相对可控。最后，人类视觉经常会出现“错误”，很多情况下是大脑对于视觉的预期（Visual Expectation）改变了我们看似客观的视觉。与其说“眼见为实”，不如说是看到大脑所想。人类的视觉系统除了跟人工神经网络一样的前馈（Feedforward）网络，甚至有更多的从大脑其他高级皮层出发到初级视觉皮层的反馈（Feedback）网络，这些反馈信号调节、修正和改变我们观察的世界。

孔径问题

孔径问题（Aperture Problem）是经典的视觉问题，通过有限视野的孔径观察移动的平行条带，仅能观察到与条带垂直方向上的运动。如果想了解真实的运动方向，观察者必须从更大的视野范围获得全局信息。人类大脑的视觉皮层主要分为V1~4，中颞叶（Middle Temporal lobe， MT，或V5）五层。初级视觉皮层V1神经元细胞的感受野非常小，仅对光亮条在垂直方向上的运动产生信号，好比从孔径里观察物体的局部，是不可能明确全局运动方向的。随着信号在前馈网络传播，高级视觉皮层具有更大的感受野。但是高级视觉皮层是如何整合初级视觉皮层的信息而获得全局的运动方向呢？

Figure from Ref[9]

哈佛医学院（Harvard Medical School）的Christopher Pack和Richard Born两位教授长期研究灵长目动物视觉对物体运动的识别[9]。他们给猕猴展示移动的光亮条(上图d)，运动方向有八种选择，光亮条和运动方向有45°、90°和135°三种夹角选择，共24种组合。研究者在实验中同时记录60个MT神经元的电信号，上图a、b展示其中一个MT神经元的结果。在光亮条开始运动后的70ms内（上图a），这个特定的MT神经元对于向左，左下和向下运动都有强信号。但是光亮条持续运动70ms以上时，该MT神经元对于全局运动方向上的响应收敛到仅对左下方运动产生强信号，而且在45°、90°和135°夹角三种情况下统计上没有明显偏好。也就是说，MT神经元在70ms以后逐渐识别出光亮条的运动方向，该方向与光亮条的夹角无关，尤其是在持续刺激150ms以后（上图c），MT神经元对于物体运动方向的估计误差在±10°以内。

研究证明MT神经元可以快速整合初级视觉皮层的信号，先粗略的识别物体运动的方向，然后随着相同信号刺激的延长，MT神经元对于方向的判断变得更加准确。该研究不排除其他视觉通路对MT的反馈，MT神经元除了识别物体2D运动，解决孔径问题，同时也识别运动速度[10]和速度梯度[6]。

边缘所有权

Rubin’s Vase 1915

如果你注视着这幅经典的Rubin’s Vase图案，你会发现可以看到一个白色的花瓶，或者两个黑色头像。但是如果你专注的观察，你只能看到其中一种图案，而不能同时看到两种。这类现象被称为边缘所有权（Border Ownership）问题，或者图案背景（Figure-ground）问题。两种结果取决于视觉系统将黑白的边缘归属于花瓶还是头像，归属于花瓶的时候，黑色就成为背景，反之白色就是背景。

V2皮层B-cell电信号 Figure from Ref[11]

2000年，约翰霍普金斯大学（Johns Hopkins University）的Rüdiger von der Heydt实验室发现V2皮层中的B-cell对于边缘的归属存在偏好[12]。上图a中记录的V2层一个神经元的放电活跃程度，尽管在椭圆虚线标亮的区域内同样是左侧亮右侧暗，这个特定的神经元对亮方形的右侧边缘刺激更加活跃。上图b中记录了V2层另一个神经元，对暗方形的右侧边缘更加活跃。

B-cell的意义不光在于区分物体和背景，还为高级视觉皮层的G-cell（Grouping）提供聚类的信息。下图b中被遮挡的“B”字母由于遮挡物边缘的信息，比下图a中相同排列的情况下更容易识别。

边缘信息辅助聚类 Figure from Ref[13]

V2层B-cell对于边缘的归属很容易被周边图案所影响[14]，同时还会受到大脑前额叶的注意力（Attention）干预[15]。Rubin’s Vase就是最好的例证，由于主观意识把注意力放在其中一种解读上，视觉系统看到的是大脑主观想看到的图案。实际上，在V2层以上的视觉通路中，反馈信号甚至超过前馈信号。这样看来，人类视觉系统感知的世界又有多少是客观的呢？

总结

与当今的人工深度神经网络(Deep Neural Network, DNN)相比，人类的视觉系统具有以下几个特点[6]：

高度的等级性：这种等级性不光体现在神经元细胞层级的数量上，还体现在不同层级神经元结构和功能的巨大差异上；DNN不同层次的模型还不够丰富。
多通道信号多任务性：人类的视觉系统同时处理颜色、形状、运动、主观意愿等信息，也可以同时完成物体识别（Object Recognition）、运动识别（Motion Detection）、物体追踪（Object Tracking）等功能，在部分信息缺失的时候也可以完成任务；DNN多数只是对单一功能建模的网络。
整合空间和时间上的信号：由于神经元电信号的传播速度受限于轴突和神经元周围环境，视觉信号到达有先后，生物视觉系统通过进化对空间和时间上整合信号都进行了优化；DNN同样完成空间上的信号整合，但是还缺失对信号在时间上的优化。
反馈通路：人们对于视觉系统中的反馈机理还知之甚少，如果把视觉皮层比喻成摄像头，把大脑其他部分比喻成主机，很可能从“主机”输出到“摄像头”的数据会超过“摄像头”的上传数据；当前的DNN主要还是前馈网络，加入反馈通路将有助于DNN实现更复杂的功能。

参考文献：

[1] 阅读原文：Frank. “强人工智能，善恶一念间”. 06-12-2019.

[2] Marvin Minsky. “The Emotion Machine: Commonsense Thinking, Artificial Intelligence, and the Future of the Human Mind”, Simon & Schuster, Inc. 2006.; Nick Bostrom. “Superintelligence: Paths, Dangers, Strategies”, Oxford University Press, 2014.

很多科学家和思想家都有过关于AI价值观的论述，这些观点更多是预言和信仰，尚未被证明，而且具有类人价值观的AGI也并非未来唯一的路径。笔者也是基于生物学、认知科学和计算机科学的知识，独立形成类似的观点和信仰，认为具有类人价值观的AGI与人类和平共生，这将是人类未来最乐观的结局。

[3] Demis Hassabis, Dharshan Kumaran,Christopher Summerfield and Matthew Botvinick, “Neuroscience-InspiredArtificial Intelligence”, Neuron. 2017 Jul 19;95(2):245-258. doi:10.1016/j.neuron.2017.06.011.

[4] Daniel L K Yamins, James J DiCarlo. “Using Goal-driven Deep LearningModels to Understand Sensory Cortex”, Nature Neuroscience Vol.19, 356-365, 2016. doi:10.1038/nn.4244

[5] Daniel J. Felleman and David C. Van Essen. “Distributed Hierarchical Processing in the Primate Cerebral Cortex”, Cereb Cortex. 1991 Jan-Feb;1(1):1-47.

[6] Norbert Kruger, Peter Janssen, Sinan Kalkan, Markus Lappe, Ales Leonardis, Justus Piater, Antonio J. Rodríguez-Sánchez and Laurenz Wiskott. “Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision?”, IEEE Trans Pattern Anal Mach Intell. 2013 Aug;35(8):1847-71. doi: 10.1109/TPAMI.2012.272.

[7] Christof Koch. “The Quest for Consciousness: A Neurobiological Approach”, Roberts & Company Publishers, 2004.

[8] Oliver W. Layton, Ennio Mingolla and Arash Yazdanbakhsh. “Dynamic Coding of Border-ownership in Visual Cortex”, J Vis. 2012 Jan 1;12(13):8. doi: 10.1167/12.13.8.

[9] Christopher C. Pack and Richard T. Born. “Temporal dynamics of a neural solution to the aperture problem in visual area MT of macaque brain”, Nature. 2001 Feb 22;409(6823):1040-2.

[10] John A. Perrone and Alexander Thiele. “Speed Skills: measuring the visual speed analyzing properties of primate MT neurons”, Nat Neurosci. 2001 May;4(5):526-32.

[11] Rüdiger von der Heydt. “Figure–ground organization and the review emergence of proto-objects in the visual cortex”, Front Psychol. 2015 Nov 3;6:1695. doi: 10.3389/fpsyg.2015.01695.

[12] Hong Zhou, Howard S. Friedman and Rüdiger von der Heydt. “Coding of Border Ownership in Monkey Visual Cortex”, J Neurosci. 2000 Sep 1;20(17):6594-611.

[13] Jonathan R. Williford and Rüdiger von der Heydt. “Border-ownership Coding”, Scholarpedia J. 2013;8(10):30040.

[14] Fangtu T Qiu and Rüdiger von der Heydt. “Neural representation of transparent overlay”, Nat Neurosci. 2007 Mar;10(3):283-4. Epub 2007 Feb 18.

[15] Fangtu T Qiu, Tadashi Sugihara and Rüdiger von der Heydt. “Figure-ground mechanisms provide structure for selective attention”, Nat Neurosci. 2007 Nov;10(11):1492-9. Epub 2007 Oct 7.

原文：https://kuaibao.qq.com/s/20190710AZN6VF00?refer=spider

- Posted in: AI

- Tags: 深度学习

0 条评论，3,482 次阅读

发表评论取消回复

既然来了，说些什么？