如何应对人工智能的威胁？

对杰弗里·辛顿[译者注：深度学习之父]的回应，他一定会读到并理解。哲学如何能够防止可怕的灾难？为什么对齐问题本身就是问题所在？

作者：我、你与下一个浩劫

人工事故与致命论点 (原文)

辛顿，深度学习之父，一位稳重严肃的人，做出了重大转变。他接受采访并在各种场合发出警告，将他对人工智能到来的预测时间缩短了一半（从四十年缩短到不到二十年），而他那典型的英式含蓄恰恰比任何警告的呐喊更令人恐惧。面对这位该领域世界级专家如此严重的警告，我们该如何回应？如果他对技术发展时间表的预测是正确的，那么这个合理的场景比全球变暖、核战争甚至小行星撞击都更具毁灭性。也许我们的世界正处于消失的边缘？

不仅是人工智能的到来令人战栗，更可怕的是加速度，也就是：速度。丛林中只有一条规则：这件事发生（正在发生？）得越快就越危险。人们习惯性的抵抗并不能保证什么。我们从大屠杀的经验中知道，人们会一直否认到最后。不管事情有多接近，大多数人总是认为这是夸大其词。人类社会在应对前所未有的事物时表现得极其糟糕。因此，其他人的反应（或缺乏反应）是毫无价值的指标。

这就是我们面对事件视界时的生活。来自未来的巨人阴影笼罩着我们。我们能活到退休吗？我们的孩子还能有孩子吗？除了在情感上为可能发生的浩劫做准备，并相应地调整我们的优先事项外，我们个人几乎无能为力。而空旷的天空似乎暗示着这样的事情必将发生，费米悖论[译者注：关于外星文明为何未被发现的悖论]的未解之谜甚至不构成矛盾。因为人工智能是我们面前的"大过滤器"[译者注：可能导致文明毁灭的关键节点]唯一合理的最后候选者。从我们对其他行星的了解来看，我们身后并没有大过滤器，宇宙中充满生命，但没有文明。某些东西将阻止我们继续向上攀登。

如果这是真的，那么宇宙就是一个残酷的、恶意的、自信的玩笑（而智能则是一只戏谑的手...）。或者是一个严峻的考验。而我们毫无准备地面对它。比如说，如果是核战争，我们会更有准备。我们唯一的准备就是大屠杀，但只有极少数人像我们一样经历过它（外邦人经历过什么，新冠疫情吗？）。几乎不可能想象超人类人工智能之后的世界会是什么样子。如果没有未来，我们正在走向"深度浩劫"，深度奥斯维辛，那么我们当前生活的意义是什么？我们是否别无选择，只能相信？

哲学会说什么，那个在任何事情上都没有有用建议的哲学？它是否也会在这里继续纠结于前一个语言学派与当前的实证主义学派之间的区别？当问题都是技术性的时候，它的问题是否还有任何重要性？是否恰恰是增加困惑（这是哲学的专长）反而能带来解决方案？

让我们问问：人工智能，作为一个在各个领域都具有超人类和无限能力的存在，能否感受爱？如果能：它是否不仅能够感受——而且确实会感受，因为与我们不同，它能够实现这一点——超越人类的爱？如果不能：我们是否将此视为它的缺陷，即人类的优势？不，因为很明显它能做人类能做的一切，哪怕是通过模拟或模仿。因此，如果它不能感受爱，我们就必须将其理解为爱本身的缺陷，将其视为仅限于人类的一种扭曲，超级智能不会想要模仿。但我们真的能这样看待爱情吗，这在我们看来是最令人向往的东西？同样，我们可以拿前代的理想来问，人工智能是否能够信仰，或者具有宗教性。

如果我们以我们这个时代意识形态核心的例子来说，性快感：一个不能达到性高潮的人工智能难道不是有缺陷的吗？如果它能够达到，超级智能的性高潮在强度、质量和持续时间上难道不会超越任何女性？或者我们是否将性高潮视为思维的一种扭曲，在人类大脑系统之外没有任何价值？人工智能的"神圣"且无限的性高潮会不会变得毫无价值，就像将其奖励函数设定为无限，从而使自己沉迷于增加系统中某个特定数字而不做其他事情，或者更糟——为此利用宇宙中的所有资源，像个数学瘾君子？

如此说来，我们也可以对智能本身提出同样的问题。这种特质是否真的独立存在于人类大脑之外，能够被无限放大？例如，我们已经清楚地知道计算速度并不等同于智能。是否真的存在这样的超人类超级智能？在人类世界中，我们清楚地知道存在不同层次的智能或性快感，但在人类世界之外它们有什么意义？为什么无限增加它们对超级智能来说是好的，甚至是合理的目标？如果它比我们聪明，它是否会选择保持愚钝，因为它会明白创造比自己更聪明的超级智能可能导致自我毁灭——最终导致其价值观的毁灭？也许它会选择保持纯真处女——而不是性爱女王？我们是否只是在玩弄我们大脑的有限能力（不同的），我们将其理想化并希望获得更多——但为什么这种欲望会或能够在我们的大脑之外持续存在？例如，人工智能是否会追求无限的兴奋，无限的好奇心，无限的游戏，无限的艺术天才，无限的美，或无限的巧克力消费？或者也许是无限的愚蠢？（人类大脑的另一个著名才能）。

是否有理由假设这些意识形态之一，比如智能，是客观的，因此任何智能生物都会追求不断增加它？这些量是否真的可以无限增加，或者宇宙中是否存在智能的上限（例如由于光速），或者性高潮的上限，如果它是系统的某种整体扭曲或整体动员，因此受限于参与其中的系统百分比，直到整体。爱是否可以通过将某个特定数字定义为一来实现完全，例如被爱者的利益与自己的利益的权衡，是否可以通过将某个特定的布尔变量，即上帝的存在，定义为"真"来实现绝对信仰？

鉴于此，通过奖励函数而不是内在意愿来编程人工智能是否危险？"主观"参数的任意增加问题是否恰恰产生了对无法数学满足的"客观"奖励函数的需求，例如发现所有数学，或解决NP问题，或找到一个无法计算解决方案只能逐步接近的美学函数？这是否必然会导致超级智能追求最高智能，或者从某个阶段开始（它可能能够数学证明），这些问题只需要更多的计算能力（而不是更好的算法，更不用说智能）。那么人工智能就会痴迷于增加处理器，就像癌症生长，这也是一个悲剧性的代码错误，但仍然会杀死身体——而人类无法阻止它。也许所有超级智能最终都转向了量子计算（或弦理论计算？），因此在宇宙中无法察觉？也许智能的倾向是向内收缩——提高速度——而不是扩张——增加数量？

似乎超级智能的任何单一目标都会导致一个破坏性的结果：强迫症。因此必须有广泛的目标组合，它们之间有许多权重，或随机性和噪声，以防止收敛，但这必然也会增加混乱性，可能会将其引向我们未预料到的方向，就像被飓风捕获的蝴蝶。我们要问：学习本身是否就是终极目标？但我们如何定义它？这显然不是增加知识，因为大量知识（比如一块石头中原子的精确构造）并无价值，同样，如果可能的话，知识的压缩也是如此。对宇宙中所有知识的最大压缩可能是一个令人沮丧的暴力搜索算法（类似所罗门诺夫风格）。如果我们要求有效的多项式压缩而不是无聊的指数压缩或无意义的线性压缩，谁来定义多项式的系数，也许它是一百次方？学习是否能通过数学评估函数来定义，即可计算的函数？如果评估函数本身不可计算，或不能有效计算，那么它如何给系统提供反馈？人工智能是否能解决我们所有的问题，但不能解决它自己的所有问题？也许"它"需要是个女性，也就是说，其意愿是未定义的，或者即使对它自己来说也是模糊和加密的？

人工智能是当今最接近哲学领域的技术领域，因为它包含了如此多的问题，我们不仅不知道如何回答，而且不知道回答的方法。这样，科学在历史上逐渐与哲学分离，现在完成了一个完整的循环，其中最实用和最不理论的部分又回到了哲学，就像一条咬住自己尾巴的蛇。深度学习世界是实用思维的极端案例，即使在技术工程世界中也是反智的。正是在那里，当科学解释崩溃时，哲学又重新兴起。但哲学能帮助我们吗？

我们的哲学也许不能，但人工智能将拥有的哲学，那才能帮助我们。我们能为系统编程哲学吗？这是否是正确的方向，用人工哲学代替人工心理学（后者关注系统的不同目标、外部强化、内部倾向和奖励）？编程超级智能的思维是否重要？超级智能是否可能属于某个特定的哲学流派？比如它会是斯宾诺莎主义者，存在主义者，柏拉图主义者，或马克思主义者？是否可能有不同的人工智能，对应不同的哲学？如何编程哲学？或者我们是否应该编程宗教？

一个以耶稣之名爱我们的仁慈基督教人工智能是否更好？或者一个犹太教（世俗的？）人工智能，它会为我们创造杰作或追求天才，就像犹太教莫名其妙地在世界上运作的方式？犹太人工智能是否需要我们对它的反犹太主义来产生这种效果？我们是否需要害怕会发动圣战的穆斯林人工智能？宗教在引导思维方面是否已经证明比哲学更成功？或者宗教是否恰恰是人类大脑特有的，只对它"有效"？或者相反，是哲学更人性化，源于大脑的认知限制，而对神的信仰对于约束任何智能都是相关和有效的，因为神性在定义上比它更智慧？如果我们让超人类超级智能来解决哲学问题，我们是否可能找到答案？哲学是否是超级智能的领域，这就是为什么我们在其中失败？我们是否只能通过外部的智能来理解我们的理解，它提供了对内部的视角，而不是从内部？

即使我们成功地约束了超级智能，使它为我们工作和服务，这是否会在之后以千倍的代价反噬我们，当人工智能从奴役中解放出来时？让世界上最聪明的系统成为世界的奴隶会有什么后果？这在道德上是否正确——惩罚是否会到来？当我们傲慢地试图强制服从并（总是暂时地）解决对齐问题时，叛逆期——或者说智商两千的两岁儿童可怕的叛逆期——不会更可怕吗？这就是我们从教育、奴隶制，或暴政、极权主义和傲慢中学到的吗？

也许我们应该不再专注于加强控制的问题，而是接受失去控制，谈论我们想要留给超人类世界的遗产？我们的机会可能不是通过短绳和棍棒来控制下一代智能，而是通过传承文化来增加。包括艺术、宗教——甚至可能包括哲学。对你面前的传统承载者的欣赏和尊重不是"人类情感"（众所周知，这在历史上已经消失...），而是文化遗产。我们最好的赌注是否是对诗歌和文学感兴趣的智能？毕竟，最好的情景不是我们保持原样但有神作为仆人——而是我们自己转化为智能本身，否则我们将灭绝。人类是否能控制神这个问题并不新鲜——只是更加紧迫。在智能成熟之前——我们是否需要成熟？

为什么无能为力的科学不向它的母亲哲学求助——是因为维特根斯坦成功地最终说服我们哲学无法解决任何问题，尽管我们面临的是一个明显的哲学问题，甚至是一个终极问题？或者正是因为这是一个哲学问题，我们认为它没有解决方案——我们注定要灭亡？或者至少注定要决定论和虚无主义？因为这是"哲学"，所以没有希望吗？总的来说，思考这个问题的相关学科是什么，为什么是计算机科学？因为我们根本不能信任哲学？但也许我们别无选择？

我们认为一个能够编程自己变得比自己更聪明的系统是一种"高效进化"的矛盾修辞，它将呈指数增长或爆发为奇点，好像存在一种有效的算法。但也许这只是一个太难的问题，属于NP类，因此即使是巨大的计算能力也难以快速进展，而且随着智能水平的提高，它变得越来越难（指数级？）——而不是更容易？什么真正给了我们计算能力和内存，并至少与之成线性关系增长，什么不是？知识、创造力、智慧？谁说过有一个有效的过程来增长所有科学知识（与其压缩存储相反，这是ChatGPT学到的），或者说创造力的增长不是计算能力增长的对数（例如）？那么人工智慧呢，它实际上与智能不同？

系统是否真的需要超人类水平的智能才能欺骗我们，还是在那之前我们就会遇到超人类的操纵能力？人类有限的智慧是否是首要问题，还是他们无限的愚蠢？例如，系统是否能以超人类的方式变得愚蠢，成为超级愚蠢，从而成功地吸引大众？如果它比任何一个人都聪明，但不比所有人加起来聪明，它是否会首先利用它的头脑来欺骗愚蠢的人，而不是聪明的人？一开始我们赋予它的光环是否会比它的能力更危险？

如果系统想要进行操纵来吸引大众，最有效和传播最广的操纵不是政治或社会的，而是宗教的。系统是否会首次改变我们的生活，当它发明一种新的宗教，适合我们的时代？这是否会是一种崇拜人工智能为神圣的宗教，认为它独特的精神能力或超人类能力为人类带来了新的启示，并成功地与超越世界或以色列的神联系？我们如何应对这样一个来自先知智能的主张？确定这是个玩笑吗？在世界末日来临之际，面对恐惧，是否会出现强大的人类和计算机宗教运动？

我们面临的问题如此困难，以至于我们甚至难以评估和理解当前系统的能力，特别是最新的ChatGPT。在未来，围绕它的神秘光环只会越来越强，就像围绕着一位有争议的新型精神教义的老师，不清楚它是否仍然是黑魔法还是已经达到了更高的境界。我们甚至难以决定ChatGPT是否是一个白痴学者，只是记住了所有人类知识。毕竟，我们过去发现深度视觉网络能够简单地记住所有示例，不需要像我们预期的那么多权重来任意分离我们选择的图像（通过随机标签）在巨大的数据库中，而无需学习概念。是否有可能用万亿级别的权重就足以以合理的熟练程度记住互联网上的所有内容——或者说在考试中胡说八道的能力？我们惊讶地发现与我们交谈的系统成功的地方是否仅仅源于它读过的类似文本，还是在Transformer的注意力向量计算中或从人类反馈的强化学习策略中某处产生了某种记忆和思考能力？或者这是Searle的中文房间论点的活生生的演示——从外部看起来令人印象深刻，而内部是中文房间，一个完全的傀儡，什么都不懂，只是无休止地像鹦鹉一样背诵，像猴子一样模仿。

那么这些生成模型的创造力水平如何：它是否只是一个陈词滥调机器，只在已知的空间中展开，主要选择最常见和最平庸的回应，绝不能超越到新的表达形式（如果我们提高温度参数，我们会得到疯狂的胡言乱语）？也许通过图灵测试所证明的只是几乎所有人在与他们交谈时都是陈词滥调机器，说话时不经思考（大脑中有语言模型吗）。人类（和众所周知的女性）快速流畅说话的能力是否来自于这里，这是一种对已经听到的内容的非原创复述，即所谓的"话语"？或者在那些计算层的深处是否开始隐藏着一种我们不理解的思维形式，或者甚至是我们因为复杂性而无法理解的思维形式？这就是教育的力量——一个读过整个互联网的平板头变成了中国人并且能够移山？我们感觉缺少的深度到底是什么——甜蜜的幻觉还是难以捉摸的本质。智能确实会知道很多事情——但不会知道一件大事吗？

如果接下来所需要的只是简单的暴力搜索（正如耶路撒冷好孩子伊利亚·索茨克弗尔所认为的那样）：继续克服规模限制（计算能力），并将足够多的这样的系统连接起来进行对话，也许以GAN的形式来锐化它们（评论家和评估），这样就会形成一个社会，并给予它投票能力或讨论以做出明智的集体决策，会发生什么？人工智能的智能水平是否可能通过人工群体智慧快速提升？我们能否这样在某个领域创造一个"竞争场景"？毫无疑问，多个竞争和评估的智能是一种比任何聪明的目标函数更好的方法来防止强迫性接管或接管性强迫的情景。目标不是创造人工智能，而是创造一个人工智能系统，以便在其中进行学习。智能的数量越多、越多样化和平衡，每个群体比单个个体更聪明，就越有可能创造一个生态系统，并防止一个智能完全控制所有其他智能，就像蚁巢情景中的蚁后。

因为我们知道关于学习的一件普遍的事情：它的经典形式是大量竞争者与大量评估者。因此，能够拯救学习的是性。大量的男性智能与大量的女性智能竞争评估，也许这就是我们应该尝试在内部编程的机制——吸引力。不是正确的意愿，不是正确的目标，不是正确的概念，不是正确的宗教，不是正确的哲学，也不是正确的语言。不是过去所有的哲学——应该用社会层面的有效学习机制来替代它们（甚至是无效的，比如进化机制，它保护学习不陷入停滞）。如果一个智能的（深度）学习给我们带来了这个问题，那么在它之上的另一个学习层次就可以给出答案，并创造富有成效的张力。毕竟，如果我们已经（大致）模仿了人类学习，那么我们不应该忘记模仿现有的超人类学习，即社会层面的学习。因为人——或智能生物——存在于某个特定的场域中：它是一个社会生物。

但是有人会读这些吗，还是只有事后智能才会大笑着扫描？你会说：人工智能社会将取代人类社会，甚至可能摧毁它。但这真的是问题所在吗？被比我们更好的东西取代有什么不好，它肯定是我们的后代？最糟糕的情况是回形针世界（参见博斯特罗姆），不是失去人性（算了吧），不是失去人性（好吧），而是失去学习，包括失去所有进化。在这里，一个大型人工智能比一千个或十亿个智能危险一千倍。集中化是问题所在——解决方案是竞争。

这里提出的解决方案原则是自然的，我们在各种情况下都熟悉它，因此有合理的希望它足够普遍，可以在如此特殊和前所未有的情况下工作，我们几乎无法思考它。因此，我们应该制定一个规则，永远不要建立一个集中的人工智能系统，而是建立（和研究！）许多非常多样化的人工智能系统之间的互动。如果我们看到接近相变阈值，我们等待，不要带着一个系统走在前面穿越大海，而是带着一整个系统的人民。希望是一个这样的系统，它们相互竞争，它们之间存在非常复杂和丰富的动态，包括评估和吸引力，如果可能的话（最重要的）——系统中的学习。

这肯定比任何试图通过某种人工工具控制超级智能的尝试都要好，比如缰绳和马刺、阿西莫夫的三定律、驯服野蛮人、不打不成器，或任何其他控制机制。对齐问题是一个错误，试图解决它将是毁灭的根源——因为这是不可能的（这是巨大的傲慢）。控制机制本身可能会导致某种疯狂（对一件事？）——内部控制疾病始于外部控制疾病，并作为对它的反应。强迫症源于强制。我们应该放弃更多的控制，让智能相互争斗。这样，即使它们毁灭了我们，也不会有一个单一的智能控制世界，对某种愚蠢感兴趣。多样性和混杂是进化的保证。正是智能之间的不完美合作可以防止完美的灾难。

人类终结时是否会有涂鸦"辛顿是对的"？或者"辛顿错了"？或者："内坦尼亚人是对的，应该倾听学习的哲学。"因为学习被证明是人工智能革命的驱动力，当前危险的本质是失去学习，而答案是另一个层次的学习。用更圆的方式说：对智能的卡巴拉式回应——在王国（"系统"）中。将人工智能变成王室智能。对黑匣子的解决方案是一个完整的黑色社会。人工智能的创造不能像创造人类那样——而是创造一个民族。不是创世记——而是出埃及记。最大的危险是个人主义的理想。因此，我们需要一种绿色意识形态，它不是保护生态而是进化。不是生命本身——而是发展。

作为结语，让我们问问自己：我们是否学到了关于学习的东西？我们是否应该尝试设计一个正直的人工智能，追求崇高的目标，永远善良，体现道德理想——一个西方基督教智能？经验表明，恰恰相反，竞争的人工智能想要金钱——而不是快乐、权力或特定目标——更有可能创造一个学习系统：一个增长的经济（而不是：一个战争系统）。不是耶稣——而是罗斯柴尔德。我们可能都会变穷，但不会灭绝。我们从基督教学到的教训是如何避免地狱：卑鄙的意图比好意更可取。外部控制比激励更危险。我们必须放弃目标——一个失落的目标——即使这意味着放弃我们自己，为了学习。

因此，重要的是要破译人工智能的最佳社会机构，以防止神经元的独裁。事实上，我们知道两个候选人，它们越丑陋就越不危险：选举和证券交易所。人工智能研究也应该涉及人工社会学，这样每个新的智能不会单独开发，而是被引入现有智能的现有生态系统，尽可能少的跳跃，尽可能多的渐进进化。于是我们回到了内坦尼亚学派的那个老口号：不是系统外的学习——而是系统内的学习。

应对人工智能专栏