数学的学习哲学
你认为数学哲学很无趣,但它实际上是最有趣的事物。我们应该将学习作为数学的基础。不是写证明 - 而是学习证明,因为数学构建的本质不是逻辑构建(那只是其表面的语言形式),而是学习构建。脑科学的核心问题在于将大脑视为单一主体,而没有理解大脑中存在竞争 - 思想之间、模块之间(例如关于注意力和决策)、不同记忆之间、神经元之间,以及这个句子的不同延续之间的竞争(这种竞争类似于经济或政治竞争,它构建了学习系统,如民主制度、资本主义或中国的精英制度,这也是它们成功的根源)。同样,数学的核心问题在于它没有在其中概念化其多重主体,即学习数学的数学家们,而且完全没有概念化数学底层的学习(就像过去没有概念化数学底层的逻辑一样,然后弗雷格将逻辑变成了数学的基础,同样在逻辑之下 - 驱动它的,并将在未来成为数学基础的 - 是数学学习)。不仅如此 - 学习应该成为定义数学基本概念的工具,这些概念是一切的基础:极限、群、拓扑、空间、证明、集合、素数、概率、函数、连续性等。因此,我们需要对数学进行学习性重构、公理化和重新诠释(就像量子理论可能有学习性诠释一样,这是它众多诠释中的一种)。数学的组合和构建特性 - 特别是代数 - 源于学习性,应该建立在学习性之上。假设你已经学会了如何将a、b作为黑盒来使用。这意味着什么,你有这个函数?知道一个证明意味着什么?你如何利用这些来达到c?会到达一个阶段,你不能再简单地说我有一个函数,但与布劳尔的直觉主义或形式主义的公理化-计算构建不同,你需要提供的构建是学习性的:你是如何学会这个函数的。即使这个函数已经存在于你的大脑中(比如说在你的神经系统中),作为一个黑盒,知道它并不意味着使用它,也就是说,知道不是能够给出它对输入的答案的能力,而是知道的含义是能够通过它学习,即从这个(你不理解的)黑盒构建适当的学习延续。就像知道一个证明不是能够引用它并从假设到结论(证毕),而是能够从中构建更多的证明,也就是说,能够继续通过它学习。理解一个证明不是你在其中理解的东西(例如在其序列内部),而是理解如何从中构建更多的证明(不仅仅是在现有系统中"使用"它,像维特根斯坦那样,而是从中构建系统的延续并发展系统,就像诗人使用语言,而不是说话者,也就是说,就像程序员使用计算机,而不是"用户")。在这里我们注意到神经网络和遗传算法之间的相似性。在神经元中,构建主要是数字的连接和组合(即线性组合 - 最简单的组合 - 函数,上面只需要最少的必要非线性),而在进化中,构建是部分的连接和组合(实际上,这是两个句子 - 两个基因组的语言组合,使得一些词来自第一个,一些来自第二个。最终在收敛后 - 句子非常相似,它们之间有轻微的变化,使得句子仍然有意义。"园丁在园中种谷物"与"园丁在花园里种小麦"交配。但在本质上,遗传算法中的构建简单地是通过交换来连接。它们的孩子是"园丁在花园里种谷物")。因此,除了这两种组合和构建机制之间的具体差异,即连接,一个是量化的大小连接,另一个是文本-语言连接之外,神经元学习和进化之间存在深层相似性:世代就是层。基本学习组件在每个阶段都非常多,并且深度(即非常多层)地堆叠在一起,以创造学习。进化本质上就是深度学习,我们不能否认这种自然的相似性。也就是说,我们看到在自然界中,构建对学习来说是基本的 - 即使在学习世界中可能存在不同的构建技术(加法、乘法、字符串连接、调用其他代码段作为函数等) - 在逻辑和数学构建中也是如此。因为在逻辑中也有多层构建,这些构建是由组合创造的(在构建中有两个维度,因为它将两个或更多先前的东西组合在一起 - 水平维度 - 创造出新的东西 - 垂直维度。也就是说,构建既来自向下的多样性,也来自你身边选择的多样性,就像墙上的砖块)。如果我们回到用学习重新定义数学的项目,我们会看到这个计划(数学基础的学习计划,类似于朗兰兹计划)不仅适用于本质上具有构建性的代数,也适用于分析。确实,在代数中构建是基本的,正因为如此,其中的基本构建问题将从学习的角度受益。例如,什么是素数?它们是数字的两种构建方法的碰撞:一种是通过加法 - 另一种是通过乘法。这是谜题的来源(黎曼作为比喻),其解决方案将通过新的概念化来实现:学习构建它们。学习素数 - 这是通向黎曼猜想的皇家大道。同样,我们可以学习构建群。或学习集合(或图、或游戏、或矩阵)。而在分析中,极限意味着什么?通过测量接近 - 意味着知道。拓扑学是极限的推广。极限是学习机制,当它成功时,当可以学习时(也就是说,当接近时它教会你接近什么),它就是连续的。当无法学习时 - 那么它就不是连续的。这个学习机制本身来自连续性的拓扑。也就是说,在拓扑学中,学习是更抽象的推广,而不是极限定义的基础,而是极限是它的一个特例。当我们看着学习机制本身(连续的)并从中开始定义 - 这就是拓扑学(作为使用过滤器或开/闭集合或其他当代建议的替代)。在分析中,我们可以用方法的概念来定义导数,或者将方法作为导数概念的推广。这是学习的学习。
计算机科学的学习哲学
同样,在计算机科学中也可以进行类似的过程,在学习基础上建立该领域(从而最终认真地建立计算机科学哲学这个领域)。计算到底是什么:函数是如何得到这个的?(你不能再简单定义而必须是构造性的 - 可计算的)。那么,学习是什么:计算是如何得到这个的?(你需要解释你是如何构建算法的,也就是说,你是如何学会它的,就像之前你需要解释你是如何构建函数的一样。这是构造性的构造性)。那么,如果回到函数,需要的是:学习计算函数。证明毕竟是构建。而学习是如何构建的。构建构建本身。从这里,下一个代数步骤将是学习中的加法和乘法,它们将是加法和乘法的推广,因此通过学习我们可以定义算法的加法和乘法。这样它们将成为乘法(在多项式情况下的循环调用)和加法(一个算法接一个算法执行)的推广,在学习构建中。递归将是幂的推广。而条件是一种加法。在图灵的计算世界中,无穷和渐近是分析,而操作是代数。现在我们面临着想要组合无穷的问题,也就是说,朝着极限学习的系统,这在历史上非常类似于无穷小微积分根源中存在的组合无穷问题。学习组件总是趋向于最优,这是连续的部分,优化的部分。另一方面,它们像代数一样相互组合/叠加,这是离散的部分,搜索和突变的部分,也就是计算昂贵的部分。如果没有一般方法来做这个 - 就有组合。也就是说,这是暴力搜索。因此我们必须明白,在本质上,指数性实际上是暴力搜索的表达,是无法理解和解决问题的能力,只能表述它。意思是:不知道如何解决。也就是说:在我们在数学中熟悉的所有基本代数运算之下,如加法、乘法和幂,有更深层的东西,是计算性的,甚至是(下面的)学习性的。它现在只是作为运行时间函数在外部窥视和表现。幂实际上是搜索整个可能性空间。这是语言而不是学习。语言是所有可能的组合,而学习是可能性的收敛,因此允许特定解决方案。特定句子。世界上没有任何句子曾经由语言写成 - 它们都是由学习写成的。
算法的哲学
你学会了函数还是算法?注意这类似于分析中的极限 - 那里存在函数(它是极限)。而不是epsilon和delta,这里我们有老师和学生之间的互动。学生趋向于极限(这是他的地平线),而教师站在极限的度量位置,例如问你在某个特定点有多接近函数结果。也就是说,教师方面,衡量成功的一方,判断你的收敛的一方,就像NP中的标准。NP的问题是什么?这正好与分析中的连续极限相反,因为在这样的问题中,成功的部分测量完全不能帮助达到目标,不能帮助学习,也就是说你作为学生不能成功。没有路径指导,使得能够达到目标。学习是从已知如何做的事情构建未知如何做的事情的过程。这一切都面对着评估标准。如果评估是内部标准,而不是外部的,那么这就是方法 - 这就是方法论。但如果根本没有任何内部标准而只有外部标准呢?那么你就在NP中。当你学习算法时,将其定义为从例子学习还是从演示学习,也就是说,作为什么的学习还是如何的学习,是否正确?你是只接收你在特定情况下学习的函数的输入和输出值,还是你接收特定输入-输出情况下函数的构造性构建?答案应该是两者都有,因为学习正是函数作为由先前函数构建的分解,这就是演示本身,但在每个阶段,选择它们的哪种组合取决于例子(证明是例子还是演示?)。因此,NP是那些容易检查但难以学习的问题(也就是说,在它们的情况下无法教授 - 成为教师)。这正好也是素数问题中的情况,问题在于你有多少不能学习它们,它们有多不可预测(概率,这也可以通过学习重新定义)。这就是黎曼猜想的本质(因此预计它与素数因式分解作为单向函数的问题有深层联系)。素数中的学习是什么?在自然数序列上你达到的每个素数,你已经知道的是用所有在它之前的素数通过乘法构建数字。也就是说,它(下一个素数)是你还没有学会需要学习的东西,深层问题是你的学习能力本质上有多受限,如果学习构建是通过先前数字的乘法构建数字。也就是说:在数学中最重要的两个猜想中存在触及其本质的学习表述 - 这本应该是走向解决它们的道路,如果我们没有遇到语言思维,也就是说,一种非常原始和组合性的构建类型(无论是自然数还是算法的)。在这两种情况下,都需要证明某个现象难以学习 - 也就是说,找出什么是不可学习的。在数学史上,我们解决了我们完全不知道如何接近的基本猜想(无理数的存在、圆的平方、五次方程、哥德尔定理等),总是通过这样的新构建,它成功捕捉到现象 - 然后证明什么不能通过它构建。让我们注意到NP问题实际上是多么学习问题(它被错误地通过语言概念化,因此变成了一个没有语言能够适应它,甚至不能开始抓住其解决方案的问题),然后我们就不会理解为什么我们没有理解通过学习概念化是其自然解决方向。因为通过学习视角,我们甚至看到NP与进化的相似性,在进化中学习是机制(交配和突变)与生存和适应度测试的斗争,其中很难构建生物并在其中创新,但很容易检查它是否存活。生物学总是处于困难学习的位置,面对残酷的自然,它很容易判断生物学的努力。在这里,在通向学习的路上,我们看到美在指导中发挥作用,使生物学能够通过捷径猜测谁更适应谁更不适应。在数学中也是如此。严格的证明标准与柔和的美的标准并行,使数学家能够做数学并在数学学习中前进,尽管这在原则上是一个困难的问题。我们的思维也依赖于优美的步骤。这也是我们判断哲学的方式。
复杂性理论的哲学
评估如何进行:作为学习定义的一部分,是有许多评估层还是只有最后一个,就像在NP中,那里不能分解为评估层?好吧,两个自然学习的例子帮助理解什么是学习 - 大脑和进化 - 在它们中有无数评估层,实际上在每一层(或代)都有对前一层/代的评估(因此女性是进化中网络的隐藏层,也就是说,她们是使每一代成为深度网络的东西,作为输入和输出之间的内部评估层,即孩子)。同样,极限和自然数帮助我们理解数学中概括的学习概念是什么,在连续和离散领域(大脑学习是连续的,而进化学习是离散的)。但超越这种抽象本身,它反映了数学所有部分的共同深层内容(学习作为数学的内容),我们也可以寻找学习作为数学的形式。什么在数学本身之下:如何学习数学。例如:定义数学家。目前,普遍认为学习算法应该是多项式的。但对学习算法的多项式限制在一般情况下(数学家)是不正确的。因此我们作为人类,作为大脑,做很多我们有有效算法的事情,但我们没有有效的一般学习,也不可能有。一般来说,学习只有在通过使用我们之前学到的东西而受到很大限制时才有效。因此我们有学习是有效过程的错觉,因为我们大部分学习都是这样的,但是什么特征化这种特殊学习是它是知识的学习。因此我们世界上大部分学习是知识的学习,因为新行动和算法的学习总是无效的。那么,什么是知识?当有有效的学习算法时。这是它的定义。让我们注意到我们学习的几乎所有东西都是其他人知道如何做的东西,也就是说我们使用现成的函数,并从它们构建,我们的学习可以分解为现成的函数。因此,在将学习分解为创造它的层时,需要思考所有可能的问题分解为子问题的分解空间的结构本身。但是,任何从教师学习的定义都需要克服"系统内"问题,也就是说帮助不应该是从外部编程学生和他们之间的欺骗和串通,但如果分解是最大分解,也就是说分成太小的片段,那么这就真的像编程一样。是否可能表征理想的分解,作为在等同于编程的完全分解为碎片(最大分解)和NP问题(最小分解,那里只有最后的测试而没有中间评估)之间的中间?如果没有教师,就有发展 - 就像进化建立在先前算法上,就像数学建立在先前证明上,然后问题分解为子问题是自然的,因为没有人分解它。最大分解是算法,作为写下的代码,最小的是问题本身,评估者 - 而学习在中间是什么连接它们。也就是说,这个从问题到算法的过渡本身就是学习过程。也就是说:添加越来越多的分割(当它是自上而下时,从教师的角度)或越来越多的构建组合(当它是自下而上时,从学生的角度),而当只有学生没有教师时这就是发展,它是自然的。多项式解意味着可以将其分解为更简单的子问题,也就是说学习。因此什么可以学习表征了多项式的,因此学习是适合理解多项式限制的构建(也就是说什么将它与NP分开)。因为学习是从线性构建多项式,也就是说从最小值,它只是允许读取所有输入,因此多项式是一个自然的集合。因此我们应该寻找可学习的最小分解,例如分解为线性子问题的最小分解,因为最大分解不感兴趣,因为它与写代码相同(线性当然只是最基本学习构建块的一个例子,在算法领域。例如,在数论分支中,它可以是因式分解为乘积。或任何其他受限函数,它定义了数学中的其他问题)。因此,在我们的学习定义中,我们可以假设理想的例子选择(用于学习,由教师),就像我们假设最小分解一样。学习者 - 和教师 - 不必在计算上受限,而是在构建上受限。我们也要注意到这整个通过先前函数构建的结构更像人类思维(例如从逻辑和语言和计算和感知)。我们不知道我们如何做我们知道如何做的事情,但知道用它们做事情。通过它们学习。但我们不知道我们如何学习,这是一个黑盒。我们在学习中组合的所有函数对我们来说都可以是黑盒。也就是说:这里有学习的两个部分。一部分定义和表征要学习的结构 - 或想要对问题进行的分解 - 这是对函数的限制:什么是基本函数,什么是它们允许的组合。这里有另一部分,问什么信息从所有可能性中构建这个特定构造 - 这就是例子。为了防止教师和学生之间的串通,是否需要构建在特定学习算法中进行,而不是在学习者的任何可能算法中(以防止在例子中编码解决方案)?可以选择这样的通用(非有效)算法,通过奥卡姆剃刀,作为适合例子的最小长度组合,或者也许是一些其他朴素搜索算法。然后你得到一个问题分解树(被学习的函数)到子问题(它们是子函数),带有需要的例子数量以在每个分支分裂处创建正确的组合(正确的构建)从子函数(分支数量等于构建它们上面的分支的子函数数量)。然后也许分解维度(如详细的子问题分解)和例子数量之间有权衡。然后树可能在NP问题中增长到无穷,或当构建块只是近似解决方案(如在素数中,它们只是近似大素数,因为它们不足以展开所有自然数,因为有无穷多素数,然后可以评估近似相对于素数数量有多完整和好 - 这就是黎曼问题)。然后通过这个可以表达构建的不可能性问题。如果你要求教师的最小努力,和最小例子,那么如果你已经有了学到的东西,你要求最好的最小例子来学习下一个东西。这本身就减少了学习过程中下一个东西的复杂性,因为例如最好先教规则,然后在额外学习中教例外。因此如果我们有完美的学生和完美的教师,我们问完美的学习看起来如何。例如,教师如何指出这是一个例外的例子?(为了有规则,而不仅仅是规则的一个例子和一个相反的例子 - 如果它们同时给出,也就是说没有序列分解 - 这可能完全打破规则,因为你怎么知道哪个例子是规则哪个是例外)?好吧,他不会。他只是先教规则。然后之后,在下一个构建层,在规则被学习之后,他教例外。然后学习者能做的最短的事情,假设他已经有了作为规则的函数,他已经学会了,就是简单地在某些情况下添加一个例外。这样分解可以节省例子数量。分解中的信息可以在某些情况下允许用比教授的内容甚至更少的信息学习(因为分解本身中的信息,教师通过学习材料的顺序给出,不被计算)。这是学习结构主义。
计算学习的哲学
因此,你有一个函数/算法/预言机列表,你有一个是它们的受限组合的函数,你从被选为最好的例子中学习它们,当你没有计算限制时。教师也没有。问题是什么是最小例子数量,可能通过将问题分解为子函数/算法,当你根据奥卡姆剃刀学习时(例如根据算法复杂性,它的长度,或其他简单性标准)。如果分解是免费的那么我们看总例子数量,然后分解是最大的,也就是说学习是可能的最渐进的。或者,我们可以看例子和分解之间的关系(在给定的分解中所需的例子数量与子问题数量之间的关系),这当然是反比关系。或者检查同一问题的不同分解树的不同拓扑(有多少本质上不同的方式可以分解同一个问题?)。我们的目标是以非平凡方式将问题分解为问题来构建学习树。因为如果我们看最小分解,当分解是昂贵的而例子是免费的,我们得到平凡分解,也就是说没有分解,我们回到原始问题,只有测试和例子,类似于NP。因此,我们也可以看所有这些可能的分解,也许某些函数中有无穷多个这样的分解,看它们自己如何相互衍生,这样的树林有什么特性。然后找到分解的规范形式,也许是在分解数量和例子数量之间的某种关系。最终不是例子或它们的数量是有趣的,而是树结构 - 什么是算法到子算法的分解。或问题到子问题。或定理到所有可能证明的分解(我们也可以把整个数学本身想象为证明图,可以作为图研究,也许找到这个图的结构和数学结构之间的联系)。如果教师给出的分解足够详细地分解为小子问题,那么也许有一个有效的学习算法(也就是说找到根据例子的构建组合),也许甚至简单的朴素搜索是有效的,因为真正难找的是分解。但如果分解来自最小例子数量(也就是说最小例子数量不一定需要最大分解)那么这给它力量(双重含义)。从这里我们可以开始思考各种不同的子函数组合函数,它们创造不同的构建问题,当限制构建中允许的内容时。例如:只有函数的线性组合来给出教师给出的例子,或证明系统来证明像证明例子一样,或学习群,这也是一个简单函数(加法),可以通过将它分解为子问题用比所有元素组合更少的例子学习它,也许甚至例子中的信息会比它包含的少(因为如前所述其余信息隐藏在分解中)。然后我们可以问群中有多少例子信息,或任何其他数学结构中,这可以是学习信息的定义(与语言相对)。因为从例子概括是不合理的,除非基于你已经有的东西(你已经学到的函数,也就是说教师在将问题分解为子问题时首先展示给你的,它们是更简单的函数,你从中学习更复杂的东西,就像婴儿学习或进化发展一样 - 这是学习的基本特性)。也就是说有一种暗示使用你已经学到的东西。你已经知道的是你的先验。在连续函数中这是极端的(因为你不能不必要地使它复杂,否则你永远不会学习甚至简单函数,你首先要承诺简单性,因为奥卡姆剃刀)。因此你需要从你知道的最小组合 - 产生教师给出的新例子。如果你承诺简单性这是免疫欺骗的。因为如果有串通(例如如果教师在例子中编码学生需要的权重),那么它不满足奥卡姆剃刀条件。算法被拒绝因为它不给出最简单的。学生不能选择任意组合而是最简单和最小的。有一个内部简单性标准,填补评估的女性一面(评估的中间层),也有一个组合函数(在每种类型的数学结构的学习中不同。例如:图的学习,群的学习,连续函数的学习 - 可以通过多项式近似或傅里叶变换等构建,算法的学习,证明的学习,游戏的学习,拓扑的学习,语言的学习,等等)。似乎节省的信息 - 因为它不被计数 - 是结构性的。也就是说:这样的信息来自结构分割(分解),因此如果学习的东西根本没有结构而只有噪音那么学习将需要传输所有信息。也就是说这不是学习而是语言信息传输。
机器学习的哲学
这里的基本问题,在整个数学史上一再重复,是:函数是如何产生的?也许它在自然界中物理产生(本体论),也许它几何产生(视觉),也许它被感知(理性),也许它被定义(逻辑),也许它被计算,也许它被学习。也就是说:从子函数构建。从这里,从函数定义的部分,产生了当今机器学习中所有主要的学习研究领域。当学习中没有函数的来源(在数学术语中是它的定义域)这是强化学习(然后简单性寻找能产生最简单函数的最简单来源),当没有函数的范围这是无监督学习(然后简单性寻找能产生最简单函数的最简单范围)。当函数的简单性不仅从子函数的构建(它有多复杂)考虑,而且也从例子本身的构建考虑,这就是统计学习(与它们的距离大小是简单性计算的一部分)。学习的定义目的是分析被学习的数学对象 - 并找到它的内部结构。其目的是构建它 - 通过层次(分解为子问题)和通过例子。也就是说:通过两种类型的结构信息,允许两种结构的组合:自上而下(垂直),和从侧面(水平)- 不同的例子是在每个层次从下面的层次并行构建的不同可能性。因此数学中的一切都在结构缺失和结构过剩之间移动。太多自由度和太少自由度。因此其边界是一方面的随机性和极端复杂性以至于无法说出任何有意义的东西,另一方面是过于简单和平凡的结构缺乏信息和丰富性。因此总是需要在其中找到分形边界 - 那里是美。那里也是数学兴趣所在,因为那里有最多的学习信息,与随机和不可解的信息(在无法解码的意义上)相反,或平凡和不可解的信息(在没有什么可解码的意义上,因为它是密封的)相反。为什么这些是数学的基本特征?因为一切都是学习的,学习性是结构性的根源,也是结构复杂性的根源,因为这永远不是一维结构,而是二维的(这使它成为构建),就像我们在数字中有的那样(加法和乘法)。让我们注意,上面定义的学习中的简单性是在线的,而不是像简单奥卡姆剃刀那样面对整体(MDL,所罗门诺夫,或柯尔莫戈洛夫复杂性)。也就是说:我们在第一个例子之后寻找最简单的假设,然后说我们取它(这个假设)作为下面的另一个现成函数,并添加下一个例子,然后寻找考虑到前一个假设作为简单的最好和最简单的假设。也就是说:在第一阶段学到的函数在复杂性和简单性计算中不再计数。也许甚至可能有一个普遍和简单的简单性函数定义 - 只是作为组合数量。也就是说简单性仅仅是组合思想的产物,而不是独立的度量和评估。
数学哲学:总结
通过所有这些,我们可以用学习重新表征有限和无限之间的差异,作为已学习和未学习之间的差异,这在这两个类别之间创造了更精确的切割。代数结构,有限的,最终总是被学习。而无限结构的类别,连续的,只能在极限中被完全学习,也就是说它不是有限可学习的。无限性可以是横向的(在每个阶段的例子集合中),或垂直向上(在组合中)或向下(在开始时的基本函数集合中)。在这种观点中,连续性和简单性是相关的。一切都是有限的但可以近似。也就是说:极限不能被计算,而是被学习,缩小距离。如果我们在简单性测量函数中添加近似(相对于离散性要求的精确性,当必须重现例子时 - 这实际上是离散性的定义),那么导数思想是函数的线性近似(也就是说如果只允许线性构建),依此类推(在更高阶导数中,它们是学习中的更高层,直到级数)。而连续性是零阶导数 - 常数。也就是说,在无穷小计算中什么是简单性?对例子而不是组合的简单性(或两者都有,如在线性回归中)。而积分是反问题,教师的问题:如何找到一个函数使学生的评估 - 他的近似 - 看起来像某个特定函数。而在离散世界中,被例子精确控制,我们在无法完全学习的东西中发现无限问题,如素数(当构建中允许的组合是乘法)。然后我们可以问例如自然数的组合树有多复杂,平均而言(也就是说它们分解为素数,用最少的例子学习)。理解如何构建自然数集,当组合是乘法,意味着知道教师需要给出多少例子的分布,以构建到某个数的自然数。也就是说,数学中的基本问题有学习表述 - 这将允许学习解决方案,一旦语言范式改变,这个范式由于不适当的概念框架而阻碍了这些问题的进展。这样哲学可以帮助数学 - 和数学学习。
计算机学习的哲学
计算机科学哲学之后的下一步是计算机学习的哲学。今天深度学习的状态就像互联网之前的个人电脑状态。未来是深度学习网络和机器学习分类器的互联网网络,它们通过协议相互连接,创造了在学习构建中组合它们的能力。也就是说:将各种深度学习模块连接起来,每个模块专门做某件事,成为一个真正了解世界很多事情的大系统,像大脑一样,而不仅仅是根据特定数据训练的孤立专家系统。这样的深度网络网络将是一种市场,在那里支付一点钱以换取一点分类,或任何其他能力或行动,创造了一个巨大的人工学习生态系统。它将是通向大智能的入口 - 人工智能将从它发展,而不是从任何特定系统 - 它不会某一天从某个实验室的某个网络确定,而是从网络中产生。这样的智能的自然类别是什么?就像在计算世界中,图灵机重新定义了空间概念为内存,也就是说作为占用空间的信息,和时间概念为计算中的操作,也就是说作为占用时间的东西(因此 - 效率),深度学习也重新定义它们。现在什么是空间?某种局部的东西,像在卷积网络中,也就是说一个系统中的东西影响靠近它的东西。什么是时间?持续的记忆,像在RNN中,也就是说一个系统中的东西影响远离它的东西。前一个世界,计算世界,降低了空间的重要性(因为一切都在内存中),消除了它的自然维度(内存本质上是一维的),相反强调了时间维度和速度。而在这里,在深度学习世界中,我们看到时间维度实际上有扩展的空间,不再是一维的,因为东西可以从各种方向远距离影响 - 在多个维度中。深度学习网络完全可以有两个或更多时间维度,也就是说在时间维度上连接到它自己的副本不止一个维度,不仅仅是向后递归,而是在两个或更多变量/方向上递归。也就是说,如果计算是空间的时间化(一切,包括金钱,等于时间),那么深度学习可以是时间的空间化(一切都将是空间,包括时间)。
深度学习的哲学
深度学习由什么构成?由数学中学习的两个最基本和原始的东西构成,也就是说来自第一学期:线性代数1和微积分1。线性代数是我们讨论的组合(它是最简单的组合:线性组合)。此外还有导数,它给出了指导,根据第三个纳坦耶提公设(导数是方向因此它是最简单的指导)。也就是说:学习到底做什么?用指导替换例子。什么使学习变得深入?所有这种构建都在系统内完成。这是系统的深度(和第二个公设)。学习不再总是靠近系统的表面,像在语言中,在系统与外部例子的对话中(在网络的底部和顶部)。此外,每一层对下面的层是女性的,对上面的层是男性的,根据第四个纳坦耶提公设。也就是说我们在这里看到所有公设的实地实现(如果你注意的话,甚至第一个)。就像预言一样。让我们也注意到,这里有两个元素,它们在学习的整个历史中相互竞争:指导对结构。这里我们在学习时间中向后渗透的梯度导数中看到它们(指导)对特定模型的构建(例如网络的特定架构,预先确定,但更重要的是今天不太流行的各种想法,如为特定问题创建具有强先验的特定学习模型,而不是对每个问题使用通用深度网络方法)。这一切只是那个古老问题的当代化身:环境对遗传,经验主义对理性主义,亚里士多德对柏拉图。或自由竞争和看不见的手(指导世界)对社会主义和国家(结构世界),自由主义对保守主义,拉马克进化论(在指导极端)对智能设计(在结构极端)。在数学层面上,指导是连续的,与分析和几何世界相关,而结构组合是语言的,与代数和逻辑世界相关。深度学习是这种辩证法中指导学习方法对构建的巨大胜利(但反动还会到来),它相当于资本主义和民主的胜利(通信和选举的指导对官僚和政府结构),或享乐主义对社会中结构的主导。因为在深度学习中,结构似乎远不如简单的大量反馈和指导重要(但当然这里有综合,因为在深度学习中哪里有这样高的层次结构?只是结构的细节似乎不那么重要,实际上其中的一切都通过指导确定,因此我们有了一个相当通用的学习机制,它是一种经验白板)。因此,要理解什么是学习,也许需要的是看学习所需的例子与给定结构之间的关系,也就是说它如何变化(它们之间的关系)。需要的例子越多,需要的结构就越少,反之亦然。要理解这个函数是什么样的,这是重要的研究,而不是结构是否比例子更重要。例如这个函数是否线性,是否多项式,是否指数,等等,在不同的问题领域(例如如果学习不同的数学对象,也在现实中的不同问题)。也就是说,需要问的是例子数量和先验数量之间的关系是什么。这是方差对偏差的同一个问题,它位于机器学习的核心(但在深度学习的核心较少,在方差对偏差的大胜利之后,深度学习有无数参数,远多于约束数量)。
神经科学哲学
是什么概念基础允许像赫布法则这样的规则(相对于深度网络的全局性如此局部),倾向于正或负的自我反馈(致命的腐败特性)?赫布法则作为基本学习机制如何可能,它既不与指导 - 也不与结构有关,既不与外部 - 也不与内部有关?好吧,赫布法则不仅仅是"同时发射同时连接"(一起发射的神经元一起连接 - fire&wire兄弟),而是它的真正表述是我加强来自预测我的人的连接,减弱来自我预测的人的连接。因此,这个规则只有在假设神经元既主要是信息传递者又是独立的质量评估者时才有意义,然后这个规则创造声誉,寻找新颖性以传播它。此外它创造层次,因为它反对循环。它寻找第一个识别者,因此创造了谁将是第一个识别者的竞争,也就是说:它是一个竞争规则。但需要没有一个神经元的单一来源超过百分之五十,或至少超过固定阈值,否则这是一个腐败的正反馈循环(此外,显然这个规则本身是不够的,因为它是自闭的,也需要给出外部反馈的神经递质,可能还需要其他形式的反馈)。也就是说,赫布法则只有在你(作为神经元)有独立评估能力时才能工作,并暗示有这样的能力(!)。然后对它有竞争。因此它对人类社交网络确实比对神经元网络更有意义,表面上看。但从对大脑连接组或甚至单个神经元网络的任何快速观察,似乎大脑在创造无序、多样性、噪音和复杂性的方式上走得非常非常远,也许是为了不让赫布法则收敛到平凡性,给它足够多样化、随机、混沌和不稳定的材料来工作。赫布法则将信息视为内容,而不是计算中的操作(像将神经元网络视为某种分布式并行计算机那样)。也就是说,当有大量冗余(像在大脑中,或许多其他学习系统中)并且所有人都站在同一条线上时,那么需要选择正确的消息,你将其传递下去并进行相对较小参数的改变,也就是说当更多涉及信息传递而不是计算时。在这方面,大脑中自上而下预测的整个故事(比如:当每个上层预测其下层,因此例如我预测我将收到的感觉数据),可能与赫布法则有深层联系。因为我预测的人,我听他说话是多余的。如果是这样,这里有一个猜测和收敛的过程,而不是计算。因此需要用猜测替换预测这个词。在这种观点中,大脑通过自下(而上)计算和自上(而下)猜测运作,然后有它们之间的冲突点,或冲突层,谁是对的(预测或计算了后续)在那里战胜另一个。如果每个上层说下面应该是什么,反之亦然,那么这个过程的收敛允许找到错误的来源,这是评估开始变得不正确的地方,那里问题急剧上升。也就是说要么计算 - 从下而上升起 - 在这个点变得错误,然后导致后续层向上的错误,要么猜测 - 从上而下降 - 在这个点变得错误并被证明是错误的,然后导致对后续层向下的猜测错误。因此,真正的神经元是内容评估者,不仅仅是被评估。因为它决定听谁的。也就是说它被特定评估它传递的每个内容,并特定评估它接收的每个内容。它不怕无限正或负反馈机制,在其中它只听一个朋友而不听其他人,因为它听到足够多的意见和足够的噪音,也许也有限制它听某人多少的限制(也许是对数的例如)。也就是说我们看到每个神经元不仅可以有外部反馈和来自上面的指导,还可以有内在的评估方式,如:他是否预测我,他是否适合我上面当前的预测。深度学习中的常见思维是将网络中的两个方向视为分开的,在两个分开的阶段出现:计算(向前传播)从下到上,和反馈(向后传播)从上到下。但我们也可以将它们视为同时在系统中前进的波,异步且双向,根据它们的强度,也就是说有时某个进展在不满意的神经元或整层停止,开始向后发送反馈,反之亦然,有返回和回声和汹涌的海洋,直到它收敛到某个状态,这是网络的真实计算机制(不仅仅是从下到上)。因此训练和执行/预测不是两个分开的阶段,就好像反向传播和前向传播同时发生。这可能就是大脑中发生的情况。如果每一层预测它前面的层,那么有时甚至会从输入层,即数据层返回反馈,这在当前深度学习中不会发生,这很遗憾,因为我们错过了这种回响,反向传播信号中的信息在到达输入层时消失并丢失(我们不使用这个信息来与实际输入比较)。但如果每个处理单元从上面接收指导,并独立输出(不仅仅作为反向传播的一部分)向下的指导,那么在上下相遇时,从上面下降的梯度或评估与从下面上升的计算相遇。如果有不匹配那么就有问题。对双方都是。如果他们不同意信号应该向哪个方向改变,那么需要引起注意力关注这种不匹配。将系统资源引导到那里,这样我们就可以注意到新颖性,或惊喜,或问题。例如,在微观层面,如果说有一个不受欢迎的神经元,其权重向外接近零,那么它收到了负面反馈要变成更有用和有趣的功能。如果它持续收到强烈的矛盾反馈,那么也许它需要分裂成两个神经元。如果两个神经元的连接太相似,那么也许它们需要合并成一个。也就是说我们可以根据反馈和不匹配来设计架构。而在宏观层面,这使系统能够寻找惊喜,和它在预测未来时犯错的例子,这就是好奇心。例如,如果上层在预测下层时出错,那么继续研究类似的例子,直到找到解决方案。因为更正确的系统思维是关于已经学习(很多)的网络。然后它继续学习另一个例子,或遇到一个与过去不符的新例子。与今天的思维相反,网络从头开始学习所有例子(婴儿思维)。因此,当我们识别出问题时,参数搜索空间应该像搜索一样工作,而不仅仅像优化 - 而是探索。并提出更多创新 - 新组合。一旦有独立评估,其中一层用自己的度量来判断下面的层,而不仅仅根据从上面收到的指导(在反向传播中),你也可以执行搜索,并在整个过程中缩小搜索空间(即在不同层之间,这样搜索就不需要在暴力搜索中爆炸成无数组合)。人工智能研究的第一代是搜索(作为主要算法范式,例如在逻辑推理中),而今天的人工智能像躲避火一样躲避搜索,用优化替代它(在连续参数调整和统计中),但未来将有它们之间的综合。如果正确管理,搜索也有价值(不仅仅是爆炸),事实上大脑中经常进行搜索,就像在进化中一样,因为这是一种允许更具创造性创新的方式 - 通过组合和评估。毕竟,如果哲学只是针对其评估函数的优化,它会非常无聊和奉承,而它是搜索才使它变得困难和有趣 - 和创造性,在与其评估的斗争中。为什么进化比暴力搜索快?进化的成功来自组合能力本身,也就是说一开始搜索是用简单的组合,然后在后续层中,搜索步骤变大,用本身复杂的部分的组合。在每个阶段(即层)都有生物的独立评估。所以这不是暴力搜索因为前面的学习步骤影响后面的步骤,并指导它们,因此搜索不是在所有可能空间中,而只在前进的光束中。如果是这样,组合和世代(=层)现象在学习中是基本的。也就是说:在深度学习和大脑和进化和一般学习定义中,我们有多个组件是黑盒子,它们之间有建设性连接(需要在每个特定情况下描述:在深度学习中是带非线性扭曲的线性组合,在进化中是交配,等等在其他系统中)。向上它们用下面计算函数。而向下它们给出评估(例如通过梯度或也许选择,例如在配偶中,明白吗?)。
网络研究的哲学
反馈创造什么?简单来说,偏微分方程和递归方程,它们实际上是反馈机制,因此复杂性和混沌现象。因此在大脑中,在学习中一般来说,反馈循环将产生类似现象,这些是学习的自然现象,而不是其缺陷。但有什么类型的反馈?在反向传递评估中有替代梯度下降(=在优化中沿斜率下降)的机制。例如:追求简单性(评估是根据测量有多简单,像奥卡姆剃刀)。或追求新颖性。或可变性和多样性(某种分布)。但反馈最重要的特性不是它根据什么,而是它创造的循环大小,因为这是系统特性。这里突出了反向传播的弱点,它创造了一个巨大的反馈循环,在大系统中非常人为 - 和非常慢。更合理因此更普遍的替代方案是短反馈循环(在人工神经网络之外不存在任何学习系统使用反向传播学习)。例如在大脑中,神经元层之间有许多反向连接,在相反方向(在深度学习中不存在)。当前在理解大脑方面缺少的 - 以及在深度学习中 - 是竞争的概念,和想法在群体中传播(这实际上更符合赫布法则)。因为在每个阶段,大脑中都有几个选项在竞争,几个后续想法,选择其中之一。也就是说有某种评估的竞争,选择如何继续学习。也就是说:反馈最大的重要性恰恰在于它创造的竞争(就像在经济或民主中一样,反馈的存在本身很重要,即使它不理想)。但在太大的反馈循环中这一切都丢失或无效,相比之下在小循环中的紧密竞争。在谷歌的PageRank算法中也有中心,它们是评估者,这实际上是其本质 - 分析图使网络中的一些顶点评估其他顶点(反过来被它们评估)。这一切与神经网络非常相似,因此在网络上创造了网站之间的排名竞争,总的来说是质量竞争。在科学中呢?每篇论文都引用其他论文,也就是说这是网络中的评估,其中没有层而是所有人都连接到所有人。层是根据发表时间形成的(每篇论文评估在它之前发表的论文)。也就是说我们在这里有评估它们之前的层,并被它们之后的层评估的层,这样就创造了竞争,通过一个非常简单的网络机制。在这两种情况下,不需要从外部的大反馈循环来创造评估和竞争,而是评估从它们自身产生。不一定需要像进化中那样强大的外部评估来创造竞争,这是非监督学习的关键,这是大脑中占主导地位的学习,也是深度学习的主要缺点,它需要大量示例(顺便说一句,即使在进化中主要竞争也是为了配偶,也就是说为了物种内部的小反馈循环,而不是针对大灭绝)。因此我们看到即使在没有明确外部评估的网络中,例如在Facebook、股市、约会和论文中,仍然可能有激烈的竞争。在这样的网络中你得到一个数字,像价格或点赞或h指数或pagerank和谷歌排名,和对你的指导。这个数字不给你任何指导,只给你评估,你需要解释它并理解你需要改变的方向。这与深度学习中指导你的梯度相反,那是从上面给你的方向。也许可以说多项式时间是有适度指导的,而NP是没有指导的问题类,不可微分,而是混沌和非局部的。因此需要从NP学习评估不足以学习。只有指导。因为NP正是这个巨大的外部反馈循环,结果表明它对内部学习没有任何帮助,会引导我们找到解决方案。不能从这样的评估中推导出指导。多项式是间歇拉马克主义,也就是说可以分解为局部优化,也就是说它是建设+指导?在大脑中仍然不知道学习如何工作,但在进化中知道,我们看到即使在它中也有一个关键特征:独立评估函数,这就是为什么有两种性别。也就是说即使有强大的生死外部评估,为了让学习工作,系统内部也需要独立的内部评估,性别的评估。大反馈循环必须分解为更小更紧密的反馈循环,不仅仅是其导数,双关语。在文化/政治/公司/经济网络中也有独立评估功能。也就是说:有部分这是它们的全部功能。然后有对它的竞争,也就是说有冗余和多余和多样性和变异和替代方案之间的比较(否则为什么所有学习系统中都存在心理冗余?为什么大脑中有这么多神经元和基因组中有这么多基因和物种中有这么多生物 - 和国家中有这么多人)。那么,内部评估如何工作?它本身如何被评估?好吧,系统内部简单地有独立评估单位,独立指导,而不仅仅是大的整体反馈循环。总的来说,系统的一般反馈是罕见和昂贵的,因此依赖于次要评估函数。并简单地学习评估函数。在NP中发生什么?次要评估失败了。事实上,整个系统外部强化学习作为创造系统学习的想法(例如行为主义)是一个概念错误,源于对学习的简单哲学图景。我们永远没有最终反馈,所有账目还没有结束。
神经网络的哲学
独立评估,在系统内部,与来自系统外部教导它的外部评估相比,如何进一步帮助?因为你也需要保护你之前学到的东西不被新学习抹去。内部评估保护它引导的学习不被冲走和被所有冲刷的外部指导磨损(像在反向传播中)。这样可以使新反馈只到达新东西,并引导向它的方向,而不是向所有旧的方向,并添加 - 而不是删除。使记忆保持的是恰恰没有向后学习。例如它不是拉马克式的,而是DNA学习,也就是说是数字的而不仅仅是连续的模拟(全部通过导数和优化中的收敛被磨损)。这也使组合成为可能。当评估独立时,学习每次只向后一层。魔法在那里发生,例如复杂性,只是通过另一层。在进化中也是 - 总是一代。反向传播是邪恶之源,它使整个深度学习领域变成暴力搜索,黑盒子因此是工程而不是科学。所有问题现象都来自它。没有任何自然系统这样学习。灾难性遗忘(深度网络如果现在给它不同类型的例子就忘记它学到的现象)和深度学习中无法很好地连接构建块的问题如果我们选择像这里开始提出的模型,教师和建设的模型,就会避免。灾难性遗忘实际上是因为根本没有记忆,只有行动或学习。因此需要对学习有抵抗力的记忆,也就是说:网络决定它学到了一些有用的东西,或某个概念的情况,并将其与继续变化分开保存(或大大减慢对它的变化能力)。因此需要一种方法来加强你做过的事而不仅仅是不改变它,而是每个参数都有一个信心参数,每次你成功时都会加强(也就是说当几乎没有导数改变参数指导时,这也是有价值的信息,现在或多或少丢失了,尽管在梯度下降优化算法中部分影响,例如在动量中)。记住是不学习的能力。为了学习任何持久的东西需要不学习的能力,而不是被每个新信息影响像指导风向标。反向传播机制中的任何改变都比深度学习中的其他改变原则性得多,因为这是方法,学习机制。在那里可以修复它。哲学的作用是分析这种深度概念分析(它现在几乎不做,因此没有人付钱给哲学家,尽管他们可以提供巨大的价值)。
深度学习的哲学:总结
因此,需要的是一个模型,其中所有向下的东西(评估)都连接在一个深度评估网络中,每一层都有输出和输入到常规深度网络中发生的事情,也就是说到计算网络中的对应层。来自计算网络的输入到评估网络是计算网络层的输出,传递给评估网络 - 供其评估。而从评估网络到计算网络的输出是其评估输出 - 这是指导。是的,这从两个方向完全对称。因此更加一般。一个向上升的网络和一个完全平行的向下降的网络。在特殊情况下,如果它们有完全相同的结构,那么实际上每个神经元都有双重权重,向下和向上,用于更新它们。也就是说可以将其视为一个网络(双重行动),但也许最好给评估网络架构独立性,也就是说两个网络相互控制。这对NP意味着什么?这里的学习定义是作为评估者和被评估者的层次分解,教师和学生。问题是是否存在这样的分解,或者不存在,对于问题,当每个多项式算法都是这样的分解。也就是说,这是与我们在计算机科学哲学中看到的不同的学习定义,也许它更适合处理这些科学的基本问题。而我,我已经过了能够把这些想法变成形式化的人生阶段 - 但也许你能够。