从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）

刻骨不铭心 2023-03-30 17:13:02

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(1)

原创：许铁来源：混沌巡洋舰

本文是对okeefe 1978(栅格细胞发现者， 2014诺贝尔奖得主)的论文 cognitive map 的总结和延申。

一空间的先验与后验之争

对于我们在其中生存和繁衍的空间，是如何在我们的心理世界表达的，这是一个争论了几百年，也依然没有完全清楚的问题。如果你不去仔细思考，你可能觉得这是一个很简单的问题。而一旦较真，你就会发现几乎所有的哲学家，物理学家，心理学家所纠结过的那些问题。

首先，什么是空间？最早探讨它的是物理学，从亚里士多德到牛顿。牛顿的物理学在绝对空间基础上存在，所谓绝对空间，可以简化为一个欧式直角坐标系，世间的所有有行实体都可以在这个坐标系里寻找到一个坐标。有了空间和时间，我们就可以相当准确的描述和预测发生在时空里的运动，并且进行大距离的迁徙（比如大航海）。想象一下没有地图和坐标，哥伦布即使偶然到达美洲也不可能回去了。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(2)

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(3)

在古代，星空是人类航海重要的坐标，我们通过判断星辰间的指向，知道茫茫大海自己的去向， “陪你一起看看星星” 绝非为了浪漫，而是关乎生存。

虽然物理学家从不怀疑真实空间的存在，然而有一个问题确没法解决。我们的感知是含糊的，柔软的，既缺乏像尺规一样的绝对空间度量，也没有绝对的方向度量。我们对距离的描述经常是或近或远这样的模糊语言，也不擅长想象一个超大空间的地图（受到训练之前）。那么，那个物理学家关心的刚性的欧式度量的空间是从哪里来的呢？我们为什么能够产生这样的概念？是什么使我们能够产生这样的概念？

换句话说，空间如果存在，它到底在哪里？它是怎么在我们脑海里形成的？它是通过某种先天的“结构” 得来，还是通过感知基础，在后天的学习和思考基础上形成的?

应该说对这些问题的回答绝非容易，我们一开始解决这些问题的方法是哲学，而后面才从生物学的认知基础上讨论。

最早对这个问题进行阐述的人包括贝克莱和康德，它们分别代表了两种截然不同的观点。贝克莱和我们熟悉的休谟和洛克一样是英国经验主义哲学的代表人物，强调一切认知的基础，无非是大量经验的总结，它否定物理上的绝对空间，认为这是人的认知造成的一种幻觉。首先在空间认知的事情上，他认为存在等同于被感知，而所谓的空间，无非是我们被感知到的大量的触觉，视觉，和肌肉运动之间的某种关联。因而绝对空间这个东西，根本就是子虚乌有。大家想下大卫休谟的那句话：只要闭上眼睛就没有悬崖，就会理解他的观点的深刻含义。感知所构成的大量经验集合是第一性的，绝对的物理空间是第二性的，是一种方便性的考量。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(4)

具有经验主义传统的英国，出产了贝克莱和休谟这样的哲学家。

这样的对空间的认知，与牛顿的物理学存在本质的冲突，而另一个派别，是结合了理性主义和经验主义的康德提出的理论，他认为绝对空间存在，而它依赖的恰不是外部的物理世界，而是人类先天的认知基础，一种与这种绝对空间相对应的脑组织，它是我们认知外部世界的基石。

康德的时空观是起纯粹理性批判的基础。康德的观点既不同于贝克莱也不同于牛顿。首先他认同绝对欧式空间的存在，其次他认为这个空间不存在于物理世界恰恰在我们的心理，第三这个先验的结构是我们其它感知的基础。 我们的对物体的感知，都要放到这个空间结构里得到认识。 应该说这里的第一性和第二性的顺序与经验主义恰好相反。康德的理念里，没有了时空这样的先验，经验毫无意义（联想以下当下数据-经验驱动的AI所遇到的缺乏逻辑推理能力的瓶颈，我们无疑在某种程度回归康德的问题）。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(5)

康德认为经验的认知需要在先验存在的时间和空间之上，这也是康德思想体系的基础之一。

在康德之后，这两个派别分别发展出Empiricist（经验主义）, 和Natist （先天认知）两个基础流派，经验主义者强调所有有关绝对空间的认知都是后天学习得到的大量感知之间的联系。而先天主义者则认为需要有一个先验而非习得的空间结构，这个结构是后来学习的基础。

在后面的整个世纪里，两边各站着一批各自的哲学家，分别寻找证据阐述各自的理由。一个比较标示性的任务是20世纪初的庞家莱。这个时期的物理学发生了天翻地覆的变换。爱因斯坦的相对时空开始取代牛顿的绝对时空。而黎曼几何的出现代表我们之前深信不疑的欧式空间无非是受到了我们经验的局限。黎曼几何成为广义相对论的基础。

而从电动力学和量子力学衍生的场论更是刷新了人们的三观。庞家莱在这个基础回到了贝克莱的经验主义，就没有特别奇怪。庞家莱首先认为空间无非是无数经验的集合，这些经验主要是由人在移动时候视觉的变换构成的。我们对不同物体的距离的感知，也无非是让一个虚拟的自己经历一个从A物体到B物体的过程而认识到的。大量经验上学到的位移与视野变换的对应关系可以用平移算子和群表示。

而这样的群最大的特质是存在一个逆运算可以让当下的状态和先前的状态完全一致（联想一下时间就没有这样的对称性，不存在一个时间平移逆运算让你回到时间的原点）。位置的概念隐含在这种平移算子的对称性里。庞家莱的理论不难找到同时代的相对论和场论的影子，而他的思想标志了经验主义的新高度。 我们在不停的变化的经验积累中得到了变化中的不变性（数学规则），而这些数学规则就是空间的本质。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(6)

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(7)

黎曼几何，打破了欧式直角坐标系，同样的也是对于日常经验的一个突破。因为我们常见直线，不说明它是真实的。事实上爱因斯坦的广义相对论指出光线被引力弯曲沿曲线传播。黎曼几何成为广义相对论的数学基础。

注：爱因斯坦的狭义相对论的建立过程体现了对牛顿绝对时空的突破。事实上正是爱因斯坦看到了牛顿的绝对时空是受到了我们经验的局限才能够打破它。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(8)

狭义相对论认为，我们的绝对时间的观点，正是受制于我们自身的经验，因为我们从来不以接近光速运行。而得到真实的物理规律，事实上需要突破这种经验。狭义相对论以光速（电磁学规律）为绝对不变，而放弃时间的绝对流逝，当物体的运动速度变换，其时钟也相对静止坐标系进行调整。

而继续把场论的思维进行深化的，是Kohler等人提出的Gestalt（格式塔）理论。 Gestalt理论比庞家莱进一步的指向了空间感知的神经基础，他把大量神经元的同时放电看做是一种场的形成，不同的神经元组（网络）代表不同的场，两种最基本的和空间导航有关的场一种叫做地理场（geography field），一种叫做行为场（behavior field）。

地理场主要用来表征外部的物理世界-空间关系，而行为场用于赋予各种外部刺激（感知）以意义，估值，和反射行为（这就是强化学习理论的预演，行为场可以看做强化学习的值函数），这两个场互相配合产生空间有关的概念和行为。从外部的刺激通过神经组织合成出各种合适的“场”来表征外部特征的思想已经像极了今天的深度学习，不难看出我们今天的科技和前人的思想的联系。

在此基础上， 1936年Lewin提出了空间拓扑结构和所谓行为场的关系，使得Gestalt的理论变得更为坚实，之前的行为场的一个问题是不知道它如何组织和形成，而Lewin则提出了它的基础是各种各样的和行为有关的空间拓扑结构，比如边界，连接，等等。也就是说你先建立一个空间的拓扑场，后面可以就容易建立一个行为场。

二来自动物行为的证据

好了，再fancy的问题，最终还要回到空间认知的本质是个生物问题，它需要特定的生物载体。那么研究动物对空间的认知就是一个几乎不可避开的问题。动物是不会说话的，本质上了解动物的空间认知必须要从行为入手，与空间有关的行为就是导航。像鸟类，小鼠，蝙蝠都具有极为发达的空间导航能力（甚至比人还厉害），那么它们是怎么在复杂的空间里穿行，或者经过几千公里回到自己的家的呢？从观察这些行为入手，我们也可以得到空间认知的本质。我们说，如果一个概念对行为和动物的生存并无意义，那也就是失去了任何行为的基础。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(9)

经典的小鼠走迷宫任务。

关于小鼠的导航问题的实验的问题，我们看到小鼠很容易在非常复杂的迷宫里找到食物，关于这个现象基本的假设解释，一种是小鼠没有空间的概念，但是它可以记住一系列的动作。这就好比一个很长的条件反射，比如左左右右左左右。这就好比在现实生活中，当你完成一个动作系列到达了星巴克，你再执行另一个动作序列到达肯德基。

而另一个假设是小鼠有关于空间的概念，根据在大脑里生成的地图来决定每个时候的走向找到目标。所谓地图，是指你和周围的物体（地标）以及周围的物体（地标）之间相对位置的几何。在一个地图上，所有的地标都获得了一个绝对的坐标，即使你没有去过那个地方，这个坐标依然告诉你它在什么位置。

为了研究相应的问题，我们可以把真实的空间去掉，让小鼠在一个“时间迷宫”里（这个任务里缺乏固定的空间结构），单纯记住“左左右右左左右” 这样的动作序列来解决这个问题。事实上小鼠这个时候已经很难完成这个任务。这一系列的实验结果支持地图学说，导致Tolman在1948年提出了Cognitive map的概念。那就是空间或者地图的概念在小鼠的大脑里是存在的，成为其导航学习的基础。

对于同样的实验现象， Hull为代表的人提出了一套截然不同的解释，可以看作刚刚说的动作序列的高级版本，解决刚刚的矛盾。那就是看似复杂的空间导航，无非是一个多级的，组合式的条件反射。这就和我们日常大多数习惯的获得没有区别。只是，在空间导航的学习里，你学到的不是一个从起点到终点的方法，而是一个系列的能够从起点到终点的动作系列（对应同一效果的不同的轨迹），这样也就不会受困于某个特定的行为序列。这个理论与庞家莱的群论的含义是一致的。也就是我们学到的不是一个轨迹，而是一个行为的集合，具有同样的最终效果（一个群），这其实说的就是当今机器学习的泛化能力。

多级条件反射和认知地图均能够解释现象，但是背后的眼里却非常不同，这也成为后面一系列的工作的起点。多级条件反射，与心理学的一个重要的流派-行为主义流派不谋而合。它的主要代表人斯金纳用非常复杂的条件反射来解释语言和思考在内的所有认知现象（把语言符号也看作一种刺激），因此在那个年代也很占优势。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(10)

斯金纳箱，操作性条件反射的实验装置。小鼠做出正确的动作后可以得到食物。操作性条件反射在斯金纳的时代被认为是智能的基础。也是强化学习理论的基础。通过多级条件反射，小鼠不仅可以把当下的刺激和奖励联系起来，还可以把之前的行为和刺激和当下的刺激联系起来

注：稍微用心的研究者不难发现组合条件反射与深度强化学习的关系，我们一次又一次回归前人思想的轨迹。

而认知地图的支持者后来者居上，一个重要的根据在动物导航行为的研究。研究者发现在诸如鸟类这样的动物里，当你把鸟从一个地方移动到它所从未见过的地方，它依然有能力找到到回家的路。按照多级条件反射的说法，鸟需要根据自己熟悉的地标，记住一系列动作，或者一个方向，然后才能达到目的地。而如果一个地方是完全陌生的，那么鸟根本不可能能够根据习得的一套方案回巢（事实上这个逻辑并不严密）。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(11)

鸟类天然擅长长途迁徙

另一个重要的支持在于寻找捷径，比如你回家的路上发现平时需要绕过的公园多了一条小路你可能没有走过，但是你依然可能会直接穿越回去到家。寻找捷径的能力类似于强化学习里的有模型学习，你需要建立一个最小的世界模型，才能知道当下某个从没有见过的地标和你熟悉的地标（家）之间的联系。认知地图的支持者认为这个模型正是由认知地图提供的。

这些都成为认知地图作为一个先验结构早已存在于脑海中的实验支持，不仅如此，这个地图需要的样子是一个绝对的欧几里得坐标系，而不是你根据自己的位置为中心，设立的一张相对你而言周围物体分布的地图。正是因为有这样一个绝对的欧式坐标系，你才知道周围物体相对周围物体，门子相对窗子，马路相对公园的位置，你才能根据你的空间想象做出决策，不是走A路而是走B路，即使你从来没有见过A路，或者到了一个完全陌生的城市。

如何构建这样一个地图？你的大脑里的某个部位需要能够精确的进行路径积分，并把每个看到的地标放置到这个精确积分的大脑平面图里。如果整个周围环境是固定的，一旦出现一个新的物体，你就很快可以想象出它和之前所有出现过的物体的相对位置，在这个世界里，每个物体的表示都是一个位置向量。如果你想做一个能够行走的机器人，不难想象也会构建一个类似的概念。这样的观点构成认知地图的基础，我们通过大脑里的一个先验的绝对空间的概念载体，而使得复杂的空间计划和导航学习成为可能。

三 Place Cell 和 Grid Cell的发现

这样的想法非常合理，唯一的问题是我们的大脑里真有这样的结构吗？这个观点在一组大名鼎鼎的细胞， grid cell和place cell之后可谓是登峰造极，成为了科学的主流。而它的发现者O'Keefe 和 Moser也获得了2014年的诺贝尔奖。

这组细胞，仿佛就是cognitive map的生物载体。所谓place cell的含义非常简单，就是当你不停的经过某个同样的地点，同一个细胞会放电。而所谓Grid cell，其特征是其感受野对空间进行周期性的放电，它可以把一个二维平面表现成一个密集堆积的六边形结构，不同的grid-cell具有不同的空间周期。认知地图的支持者认为，这个Grid cell正是那个先验的大脑里的欧式坐标系的载体。如果你对空间里的一个狄拉克函数（一个空间质点的表示）做傅里叶变换你会得到一系列不同周期频率的波函数，反过来，这群函数或许可以作为一组表达不同物体位置的基函数。而Grid cell如果是对应了这群函数，那么它将可以非常灵活的表达生物体在一个绝对坐标系里的位置，即使生物体运动到了一个完全陌生的环境。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(12)

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(13)

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(14)

不仅在小鼠，蝙蝠的大脑里也存在Grid Cell，与三维空间相对应, 参见 Grid cells without theta oscillations in the entorhinal cortex of bats Nature

在Grid cell和Place cell发现之后，认知地图的理论奠定了统治地位，空间学习需要一个先验的神经空间坐标系成为了共识。

四人工智能时代的续篇

在人工智能时代，我们越来越发现这些早期认知科学争论过的核心主题，事实上对发展从狭义到通用的人工智能都非常重要。你要先理解智能，才能做出人工智能，否则做出的东西只有“人工”没有“智能” 。

在DeepMind去年发表的一篇和空间导航有关的论文里，它们也确实把这种和空间有关的结构- Grid Cell 引入到了它们的网络架构里，而非常有趣的是，如同当年的认知科学家所阐述的，这个空间坐标结构的引入，使得导航出现了类似于直接利用捷径这样的行为。

而与空间结构的先验学派不同的是，DeepMind的这个Grid Cell 结构，事实上是从利用监督学习进行引导的。 DeepMind 让人工“小鼠” 在方格空间里乱跑并预测其位置，在这个过程里，如果适当的引入dropout这样的条件，它们表明就可以出现类似于Grid的细胞结构。而这个结构正是刚刚说的寻找捷径行为的基础。论证的方法也和生物实验相同，就是去掉这些细胞观测，寻找捷径的行为消失了。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(15)

Vector-based navigation using grid-like representations in artificial agents Nature

这篇文章在专业圈子引起了很多批判，很多学者不认可这样形成的Grid Cell就是生物学的Grid Cell。另外一种可能是Grid Cell只是许多对空间探索有利的结构的一种，而这种结构恰恰是无论是自然训练还是人工训练都非常容易找到的一种，可能对应某个自然界的最小作用原理（事实上六边形是周期性的布满一个二维空间的最经济方法）。因此DeepMind的这个作品也就没有那么神奇了。

在思考这个问题的时候，我个人依然觉得到庞加莱等人的经验主义思想具有极高的借鉴价值。虽然用认知地图方便好用，但是它是否是最基本的东西？我们大脑里的那个空间概念最根本的东西究竟是什么？或许背后更本质的东西依然是几条抽象的数学规则，而我们大脑的神奇在于利用这个规则得到地图这类方便的概念。Deepmind按照人们已经预期设定的理论找到了同样的结果，虽然促进了AI的进步，但是对于我们理解这个问题却是有限的。

五关于空间任务之外的启示

不管认知地图是否最终成立，生物学的研究，还是人工智能的研究，都在指向的一个共同点，就是我们学习需要预先存在的特定“结构”，而不是简单的多级条件反射可以得到，虽然在深度强化学习时代，多级条件反射给我们展示的可能性比我们想的多很多。而AI的研究在告诉我们，这样的先验结构，是可以通过大量的预训练得到的。

如何预训练，怎么设计预训练流程，可能是未来的一个极为重要的方向。Karl Friston所说的预测误差最小，最新的大量关于好奇心的研究，甚至最近的语言模型Bert，可能都在提示我们怎样设计这样的流程。同时，这样的研究或许也在启发我们如何更好的设计婴儿的早期教育，使得后期的学习效果更好。

对于空间的思考本身，对于非空间的很多任务也极有启发。比如我们常说的语言。我们知道，语言代表了我们使用和控制符号的能力，而“符号” 和空间“位置”的关系是什么？是否存在一种隐喻，正是由于我们发展出了对抽象的“空间” 和 “位置”的认知能力，才引领我们走向了更广义的形成和使用“符号”的能力？在一个抽象的“符号” 地图里，运动不再是欧式空间里从一点到另一点的轨迹，而可能是一种逻辑思维的流动？这些都将是未来人工智能极为需要回答的问题。

从一维度空间到十维度空间（空间简史-人类认识空间的旅程与其对强化学习的启示）(16)