Die Degeneration der Nation
Programm für den Fortschritt der Lernwissenschaften: Computational Learning, Machine Learning und Neurowissenschaften
Ein Brief über die Philosophie der Informationswissenschaften auf ihrem Weg zu den Lernwissenschaften: Philosophie der Mathematik, Philosophie der Informatik, Philosophie des maschinellen Lernens und Philosophie der Neurowissenschaften
Von: Ein Mathematiker (der ich nicht mehr sein werde)
Brief an eine Schülerin: Der Code und die Opferung - Alles ist verbunden (mit dem Lernen)  (Quelle)


Lerntheoretische Philosophie der Mathematik

Du denkst, dass Philosophie der Mathematik nicht interessant ist, aber es ist tatsächlich das Interessanteste überhaupt. Man hätte das Lernen als Grundlage der Mathematik nehmen sollen. Nicht das Schreiben von Beweisen - sondern das Lernen von Beweisen, denn die mathematische Konstruktion ist in ihrer Tiefe keine logische Konstruktion (das ist nur ihre sprachliche Oberfläche), sondern eine lerntheoretische Konstruktion. Das zentrale Problem der Neurowissenschaften ist ja das Denken über das Gehirn als einen einzelnen Agenten, anstatt zu verstehen, dass es einen Wettbewerb im Gehirn gibt - zwischen Gedanken, zwischen Modulen (zum Beispiel für Aufmerksamkeit und Entscheidungen), zwischen verschiedenen Erinnerungen, zwischen Neuronen, und zwischen verschiedenen Fortsetzungen dieses Satzes (und dieser Wettbewerb entspricht dem wirtschaftlichen oder politischen Wettbewerb, der lernende Systeme aufbaut, wie Demokratie oder Kapitalismus oder die chinesische Meritokratie, und ist die Wurzel ihres Erfolgs). So ist das zentrale Problem der Mathematik, dass sie ihre vielfältigen Agenten, die Mathematiker, die sie lernen, nicht in sich selbst konzeptualisiert, und überhaupt nicht das Lernen konzeptualisiert, das der Mathematik zugrunde liegt (wie sie früher die der Mathematik zugrundeliegende Logik nicht konzeptualisierte, und dann machte Frege die Logik zur Grundlage der Mathematik, so liegt unter der Logik - was sie antreibt und was später zur Grundlage der Mathematik werden wird - das mathematische Lernen). Mehr noch - Lernen sollte das Werkzeug zur Definition der grundlegenden Begriffe in der Mathematik sein, auf denen alles aufbaut: Grenzwert, Gruppe, Topologie, Raum, Beweis, Menge, Primzahlen, Wahrscheinlichkeit, Funktion, Folge, usw. Und so muss man der Mathematik eine lerntheoretische Rekonstruktion geben, eine neue Axiomatisierung und Interpretation (wie eine mögliche lerntheoretische Interpretation der Quantentheorie, unter ihren verschiedenen Interpretationen). Die Eigenschaft der Zusammensetzung und Konstruktion der Mathematik - insbesondere der Algebra - hat ihren Ursprung in der Lerntheorie und muss auf ihr basieren. Nehmen wir an, du hast bereits gelernt, wie man a, b als Black Box macht. Was bedeutet es, dass du diese Funktion hast? Was bedeutet es zu wissen, zum Beispiel einen Beweis? Wie lernst du damit, zu c zu gelangen? Es wird ein Punkt kommen, an dem du nicht mehr einfach sagen kannst, ich habe eine Funktion, aber anders als der Intuitionismus von Brouwer oder die axiomatisch-rechnerische Konstruktion des Formalismus, ist die Konstruktion, die du liefern musst, lerntheoretisch: wie du die Funktion gelernt hast. Und selbst wenn die Funktion bereits bei dir existiert (sagen wir in deiner Gehirnneurologie), als Black Box, bedeutet sie zu kennen nicht, sie zu benutzen, das heißt die Fähigkeit zu haben, ihre Antwort auf Eingaben zu geben, sondern die Bedeutung von Wissen ist die Fähigkeit, durch sie zu lernen, das heißt aus dieser Black Box (die du nicht verstehst) passende Lernfortsetzungen zu konstruieren. Wie das Wissen eines Beweises nicht die Fähigkeit ist, ihn zu zitieren und von den Annahmen zu den Schlussfolgerungen zu gelangen (q.e.d.), sondern die Fähigkeit, aus ihm weitere Beweise zu konstruieren, das heißt durch ihn weiter zu lernen. Und das Verstehen eines Beweises ist nicht etwas, das du in ihm verstehst (zum Beispiel innerhalb seiner Sequenz), sondern ein Verständnis, wie man aus ihm weitere Beweise aufbaut (nicht einfach ihn im bestehenden System zu "benutzen", wie bei Wittgenstein, sondern aus ihm die Fortsetzung des Systems zu bauen und das System zu entwickeln, wie die Verwendung der Sprache durch einen Dichter, nicht einen Sprecher, das heißt wie die Verwendung eines Computers durch einen Programmierer, nicht einen "Benutzer"). Und hier bemerken wir zum Beispiel die Ähnlichkeit zwischen neuronalen Netzen und genetischen Algorithmen. In Neuronen ist die Konstruktion hauptsächlich Verbindung und Kombination von Zahlen (das heißt lineare Kombination - die einfachste Kombination - von Funktionen, mit absolut minimalem notwendigem Maß an Nichtlinearität darüber), während in der Evolution die Konstruktion Verbindung und Kombination von Teilen ist (in der Praxis ist es eine sprachliche Kombination von zwei Sätzen - zwei Genomen, so dass einige Wörter vom ersten und einige vom zweiten stammen. Und schließlich nach der Konvergenz - die Sätze sind sehr ähnlich und es gibt zwischen ihnen leichte Variationen, so dass der Satz noch Sinn ergibt. "Der Gärtner züchtete Getreide im Garten" paart sich mit "Der Gärtner züchtete Weizen im Garten". Aber im Grunde ist die Konstruktion im genetischen Algorithmus einfach durch Austausch zu verbinden. Und ihr Sohn ist "Der Gärtner züchtete Getreide im Garten"). So dass jenseits des spezifischen Unterschieds zwischen den beiden Mechanismen der Zusammensetzung und Konstruktion, das heißt den Verbindungen, von denen die eine quantitative Größenverbindung und die andere textuell-sprachliche Verbindung ist, gibt es eine tiefe Ähnlichkeit zwischen neuronalem Lernen und Evolution: Generationen sind Schichten. Die grundlegenden Lernkomponenten sind sowohl in jeder Phase sehr zahlreich als auch aufeinander gestapelt in tiefer Weise (das heißt sehr vielfältig), um das Lernen zu erzeugen. Evolution ist von Natur aus tiefes Lernen, und man kann diese natürliche Ähnlichkeit nicht leugnen. Das heißt, wir sehen, dass in der Natur die Konstruktion grundlegend für das Lernen ist - auch wenn es in der Welt des Lernens verschiedene Konstruktionstechniken geben kann (Addition, Multiplikation, Verkettung von Zeichenketten, Aufruf eines anderen Codeabschnitts als Funktion, usw.) - und so ist es auch in der logischen und mathematischen Konstruktion. Denn auch in der Logik gibt es viele Schichten der Konstruktion, die durch Kombination entstehen (in der Konstruktion gibt es zwei Dimensionen, weil sie zwei oder mehr vorherige Dinge verbindet - horizontale Dimension - um aus ihnen etwas Neues zu schaffen - vertikale Dimension. Das heißt, Konstruktion entsteht sowohl aus der Vielfalt nach unten als auch aus der Vielfalt der Möglichkeiten neben dir, wie Steine in einer Mauer). Und wenn wir zum Projekt der Neudefinition der Mathematik über dem Lernen zurückkehren, sehen wir, dass dieses Programm (das lerntheoretische Programm der mathematischen Grundlagen, in Anlehnung an das Langlands-Programm) nicht nur in der von Natur aus konstruktiven Algebra passt, sondern auch in der Analysis. In der Tat ist in der Algebra die Konstruktion grundlegend, und gerade deshalb werden grundlegende Konstruktionsfragen in ihr von einer lerntheoretischen Betrachtung profitieren. Was sind zum Beispiel die Primzahlen? Der Zusammenstoß zwischen zwei Konstruktionsmethoden der Zahlen: die eine in der Addition - und die andere in der Multiplikation. Das ist der Ursprung des Rätsels (Riemann als Gleichnis), und seine Lösung wird durch eine neue Konzeptualisierung erfolgen: zu lernen, sie zu konstruieren. Die Primzahlen zu lernen - das ist der Königsweg zur Riemann-Vermutung. Und so kann man lernen, eine Gruppe zu konstruieren. Oder eine Menge zu lernen (oder einen Graphen, oder ein Spiel, oder eine Matrix). Und in der Analysis, was bedeutet Grenzwert? Sich durch Messungen annähern - bedeutet zu wissen. Und Topologie ist eine Verallgemeinerung des Grenzwerts. Ein Grenzwert ist ein Lernmechanismus, und wenn er erfolgreich ist, wenn man lernen kann (das heißt, dass je näher man kommt, es einen lehrt, wohin man sich nähert), ist es stetig. Und wenn man nicht lernen kann - dann ist es nicht stetig. Und dieser Lernmechanismus selbst ergibt sich aus der Topologie der Stetigkeit. Das heißt, in der Topologie ist Lernen eine abstraktere Verallgemeinerung und nicht die Grundlage der Definition des Grenzwerts, sondern der Grenzwert ist ein spezielles Beispiel davon. Wenn man den Lernmechanismus selbst (des Stetigen) betrachtet und von ihm die Definition beginnt - das ist die Topologie (als Alternative zur Definition mittels Filter oder offener/geschlossener Mengen oder anderer zeitgenössischer Vorschläge). Und in der Analysis können wir die Ableitung mit Hilfe der Methode definieren, oder die Methode als Verallgemeinerung der Idee der Ableitung. Dies ist das Lernen des Lernens.


Lerntheoretische Philosophie der Informatik

Auf die gleiche Weise kann ein ähnlicher Prozess des Aufbaus des Gebiets auf lerntheoretischen Grundlagen auch in der Informatik durchgeführt werden (und damit endlich ernsthaft das Gebiet der Philosophie der Informatik begründen). Was ist denn Berechnung: Wie ist eine Funktion dazu gekommen? (Du kannst nicht mehr einfach definieren, sondern es muss konstruktiv sein - berechenbar). Was ist dann Lernen: Wie ist die Berechnung dazu gekommen? (Du musst erklären, wie du den Algorithmus konstruiert hast, das heißt wie du ihn gelernt hast, wie du vorher erklären musstest, wie du die Funktion konstruiert hast. Dies ist Konstruktivität der Konstruktivität). Wenn wir also zur Funktion zurückkehren, was nötig ist: zu lernen, eine Funktion zu berechnen. Ein Beweis ist ja eine Konstruktion. Und Lernen ist wie man konstruiert. Die Konstruktion selbst zu konstruieren. Daraus folgt, dass die nächste algebraische Stufe Addition und Multiplikation im Lernen sein wird, die eine Verallgemeinerung von Addition und Multiplikation sein werden, und daher werden wir mit Hilfe des Lernens Addition und Multiplikation von Algorithmen definieren können. Und so werden sie eine Verallgemeinerung der Multiplikation (Aufruf in einer Schleife, im polynomiellen Fall) und Addition (Ausführung eines Algorithmus nach einem Algorithmus) sein, in der lerntheoretischen Konstruktion. Und Rekursion wird eine Verallgemeinerung der Potenz sein. Und Bedingung ist eine Art von Addition. In Turings Berechnungswelt waren das Unendliche und das Asymptotische die Analysis, und die Operationen - die Algebra. Und jetzt stehen wir vor dem Problem, dass wir Unendlichkeiten verbinden wollen, das heißt lernende Systeme in Richtung eines Grenzwerts, was historisch sehr ähnlich ist zu dem Problem der Verbindung von Unendlichkeiten, das an der Wurzel der Infinitesimalrechnung bestand. Die Lernkomponenten nähern sich ja immer einem Optimum an, und das ist der stetige Teil, der Optimierung. Und andererseits werden sie miteinander/übereinander wie algebraisch zusammengesetzt, was der diskrete Teil ist, der Suche und Mutation, das heißt des rechnerisch Teuren. Wenn es keine Methode gibt, wie man das allgemein macht - gibt es Kombinationen. Das heißt, es ist eine Brute-Force-Suche. Und daher müssen wir verstehen, dass in ihrer Tiefe Exponentialität eigentlich ein Ausdruck für Brute Force und die Unfähigkeit ist, das Problem zu verstehen und zu lösen, sondern es nur zu formulieren. Seine Bedeutung: nicht zu wissen, wie man löst. Das heißt: unter allen grundlegenden algebraischen Operationen, die wir in der Mathematik kennen, wie Addition und Multiplikation und Potenz, gibt es etwas Tieferes, und Rechnerisches, und sogar (darunter) Lerntheoretisches. Und es blickt heute äußerlich nur als Funktion der Laufzeit hervor. Potenz ist eigentlich Suche im ganzen Möglichkeitsraum. Das ist Sprache und nicht Lernen. Sprache ist alle möglichen Kombinationen, und Lernen ist die Konvergenz der Möglichkeiten, und ermöglicht daher eine spezifische Lösung. Einen spezifischen Satz. Kein Satz in der Welt wurde jemals von der Sprache geschrieben - sie werden alle vom Lernen geschrieben.


Philosophie der Algorithmik

Hast du eine Funktion oder einen Algorithmus gelernt? Beachte, dass es ähnlich ist zum Grenzwert in der Analysis - wo sich die Funktion befindet (die der Grenzwert ist). Und anstelle von Epsilon und Delta haben wir hier eine Interaktion zwischen Lehrer und Schüler. Der Schüler strebt zum Grenzwert (der sein Horizont ist), und der Lehrende steht in der Position des Maßes im Grenzwert, fragt zum Beispiel wie nahe du am Funktionsergebnis an einem bestimmten Punkt bist. Das heißt, die Lehrerseite, die Seite, die Erfolg misst, die deine Konvergenz beurteilt, ist wie das Kriterium in NP. Und was ist das Problem mit NP? Dass es genau das Gegenteil eines stetigen Grenzwerts in der Analysis ist, weil bei solchen Problemen eine teilweise Messung des Erfolgs überhaupt nicht hilft, das Ziel zu erreichen, und nicht beim Lernen hilft, das heißt, dass du als Schüler nicht erfolgreich sein kannst. Es gibt keine Anleitungen auf dem Weg, die es ermöglichen, das Ziel zu erreichen. Das Lernen ist der Prozess des Aufbaus aus den Dingen, die man zu tun weiß - etwas, das man nicht zu tun weiß. Und all das gegenüber einem Bewertungsmaßstab. Und wenn die Bewertung ein internes Kriterium ist, kein externes, dann ist das der Weg - der die Methode ist. Aber wenn es überhaupt kein internes Kriterium gibt, sondern nur ein externes? Dann bist du in NP. Wenn du einen Algorithmus lernst, ist es richtig, dies als Lernen aus einem Beispiel oder aus einer Demonstration zu definieren, das heißt als Lernen was oder als Lernen wie? Erhältst du nur die Eingabe- und Ausgabewerte der Funktion, die du in einem bestimmten Fall lernst, oder erhältst du eine konstruktive Konstruktion der Funktion in einem bestimmten Eingabe-Ausgabe-Fall? Die Antwort muss beides sein, denn das Lernen ist genau die Zerlegung der Funktion als aus früheren Funktionen gebaut, was die Demonstration selbst ist, aber in jedem Schritt hängt die Wahl, welche Kombination von ihnen zu machen ist, vom Beispiel ab (Ist ein Beweis ein Beispiel oder eine Demonstration?). Wenn ja, NP sind die Probleme, die leicht zu prüfen sind - und schwer zu lernen (das heißt, dass man nicht lehren kann - Lehrer sein - in ihrem Fall). Und so ist es genau auch beim Problem der Primzahlen, die Frage ist, wie sehr du sie nicht lernen kannst, wie unvorhersehbar sie sind (Wahrscheinlichkeit, die man auch neu mit Hilfe des Lernens definieren kann). Das ist das Wesen der Riemann-Vermutung (und daher wird sie voraussichtlich eine tiefe Verbindung zum Problem der Primfaktorzerlegung als Einwegfunktion haben). Was ist das Lernen bei Primzahlen? Bei jeder Primzahl, zu der du auf der Folge der natürlichen Zahlen gekommen bist, ist das, was du bereits weißt, mit Hilfe von Multiplikation Zahlen aus allen Primzahlen davor zu bauen. Das heißt, sie (die nächste Primzahl) ist etwas, das du nicht gelernt hast und lernen musst, und die tiefe Frage ist, wie begrenzt deine Lernfähigkeit eigentlich ist, wenn die lerntheoretische Konstruktion eine Konstruktion einer Zahl mit Hilfe der Multiplikation früherer Zahlen ist. Das heißt: in den beiden wichtigsten Vermutungen in der Mathematik gibt es eine lerntheoretische Formulierung, die ihr Wesen berührt - und es hätte der Weg sein müssen, auf dem man zu ihrer Lösung geht, wenn wir nicht auf sprachliches Denken gestoßen wären, das heißt auf eine sehr primitive und kombinatorische Art der Konstruktion (sowohl der natürlichen Zahlen als auch der Algorithmen). In beiden muss man beweisen, dass ein bestimmtes Phänomen schwer zu lernen ist - das heißt finden, was man nicht lernen kann. In der Geschichte der Mathematik haben wir grundlegende Vermutungen gelöst, bei denen wir überhaupt nicht wussten, wie wir sie angehen sollten (Existenz irrationaler Zahlen, Quadratur des Kreises, quintische Gleichung, Gödels Satz, usw.) immer mit Hilfe einer solchen neuen Konstruktion, die es schaffte, das Phänomen zu erfassen - und danach ein Beweis, was man damit nicht konstruieren kann. Beachten wir, dass all diese Probleme waren, was man nicht tun kann (in der pythagoreischen Schule war die Existenz einer irrationalen Zahl die Unfähigkeit, sie als Verhältnis mit Hilfe der natürlichen Zahlen zu konstruieren, obwohl das Problem positiv formuliert ist), weil die tieferen Probleme in der Mathematik immer Probleme der (Un-)Möglichkeit sind. Gerade weil die Mathematik eine Konstruktion ist - ist sie anfällig dafür, vor einem zerbrochenen Trog zu stehen, wenn sie zeigen muss, was nicht konstruiert werden kann (und weniger was konstruiert werden kann - denn das kann man einfach konstruieren). Und daher muss man, um in den beiden führenden Unmöglichkeitsproblemen heute, NP und Riemann, voranzukommen, eine mathematische Definition des Lernens und der daraus folgenden Konstruktion aufbauen - und dann einen Beweis durch Widerspruch, dass eine solche Konstruktion nicht möglich ist, weil man das nicht lernen kann (mit anderen Worten: das Lernen kann und soll die mathematische Struktur ausdrücken, die es lernt, und ihr Grenzen auferlegen wegen dem, was man nicht lernen kann - was sich aus der mathematischen Lerntheorie ergeben wird - und dadurch die Grenzen ihrer Möglichkeiten beweisen). Und bezüglich des Problems von NP versus P, beachten wir, dass Lernen im allgemeinen Sinne notwendigerweise schwierig, ineffizient und nicht polynomial ist. Und eigentlich reicht es vielleicht zu beweisen, dass Lernen ein schwieriges Problem ist, weil es leicht ist zu prüfen, dass wir richtig gelernt haben, gemäß den Beispielen. Das ist selbst ein NP-Problem. Das heißt zu zeigen, dass wenn es einen effizienten allgemeinen Lernalgorithmus gäbe - dann müsste man zu einem Widerspruch kommen (eine solche Führung zum Absurden ist, dass wenn man das Lernproblem lösen kann, dann kann man alles leicht lösen, weil das Lernen zuerst den Lösungsalgorithmus lernen kann, und in einer solchen Situation kann man auch lernen, das Lernproblem selbst zu lösen, und so weiter bis man zu irgendeinem minimalen Lernalgorithmus kommt, aber der wurde ja auch gelernt. Außerdem gibt es in einer solchen Situation einen minimalen polynomiellen Exponenten für einen Algorithmus in P, der ein NP-Problem löst, und dann muss man zeigen, dass wegen der konstruktiven Eigenschaften des Lernens auch ein Algorithmus darunter, das heißt dass der neue mit seiner Hilfe gebaut wurde und einen niedrigeren polynomiellen Exponenten hat, ein NP-Problem löst. Alternativ, die Information zwischen den Bausteinen aufzuteilen, aus denen die Lösung gebaut ist, und durch Induktion ad absurdum hinabzusteigen, mit Hilfe einer Formulierung der Idee, dass die Lösung eines NP-Problems von der ganzen Information abhängt, und es darin kein Teile und Herrsche gibt, zumindest in der lerntheoretischen Konstruktion. Die Polynomialität selbst ergibt sich daraus, dass das Lernen konstruktiv ist, und die beiden grundlegenden Konstruktionen sind das Zusammenfügen von Algorithmen und der Aufruf in einer Schleife, das heißt Addition und Multiplikation, und daher das Polynom in P, das heißt die Erklärung warum dies genau die Definition von Effizienz und leichter Lösung ist). Beachten wir, dass die grundlegenden Dinge in der Mathematik irgendwie immer ein diskreter unendlicher Prozess sind: die Primzahlen, der Grenzwert, die Berechnung, die Logik... Und so wird es auch beim Lernen sein, und tatsächlich ist das Lernen der Grund für dieses Phänomen, weil es unter ihnen liegt. Und in jedem Fall ergibt sich aus dieser gemeinsamen Eigenschaft ihre Fähigkeit, mit ihnen umzugehen und zu einem neuen mathematischen Paradigma durchzubrechen, das jenseits der Sprache liegt (die das gegenwärtige mathematische Paradigma ist). Und dann bemerken wir, wie sehr das NP-Problem eigentlich ein Lernproblem ist (das fälschlicherweise mit Hilfe von Sprache konzeptualisiert wurde und daher zu einem wurde, für das es keine Sprache gibt, die es erfasst, oder die sogar beginnen kann, seine Lösung zu erfassen), und dann verstehen wir nicht, warum wir nicht verstanden haben, dass eine Konzeptualisierung mit Hilfe des Lernens seine natürliche Lösungsrichtung ist. Denn mit Hilfe der lerntheoretischen Sicht sehen wir sogar die Ähnlichkeit von NP zur Evolution, in der Lernen der Mechanismus ist (Paarung und Mutation), der gegen den Überlebens- und Fitness-Prüfer kämpft, wo es sehr schwierig ist, ein Lebewesen zu bauen und darin zu erneuern, und sehr leicht zu prüfen, ob es überlebt oder nicht. Die Biologie befindet sich immer in einer Position schweren Lernens gegenüber der grausamen Natur, der es leicht fällt, ihre Bemühungen zu beurteilen. Und hier, auf dem Weg zum Lernen, sehen wir, dass die Schönheit eine Rolle bei der Anleitung spielt, damit die Biologie durch Abkürzungen erraten kann, wer fitter ist und wer weniger. Und so auch in der Mathematik. Ein hartes Kriterium des Beweises geht Hand in Hand mit einem weichen Kriterium der Schönheit, das es Mathematikern ermöglicht, Mathematik zu betreiben und im mathematischen Lernen voranzukommen, obwohl es prinzipiell ein schwieriges Problem ist. Und auch unser Denken hängt von schönen Zügen ab. Und so beurteilen wir auch die Philosophie.


Philosophie der Komplexitätstheorie

Wie wird die Bewertung durchgeführt: Gibt es als Teil der Definition des Lernens viele Bewertungsschichten oder nur eine am Ende, wie bei NP, wo man nicht in Bewertungsschichten aufteilen kann? Nun, die zwei natürlichen Lernbeispiele helfen zu verstehen, was Lernen ist - das Gehirn und die Evolution - und in ihnen gibt es unendlich viele Bewertungsschichten, und tatsächlich gibt es in jeder Schicht (oder Generation) eine Bewertung der vorherigen (deshalb sind Frauen die verborgene Schicht - des Netzes - in der Evolution, das heißt sie sind das, was jede Generation zu einem tiefen Netzwerk macht, als interne Bewertungsschicht zwischen Input und Output, nämlich den Kindern). So helfen uns auf die gleiche Weise der Grenzwert und die natürlichen Zahlen zu verstehen, was der verallgemeinerte Begriff des Lernens in der Mathematik ist, im kontinuierlichen und im diskreten Bereich (und das Lernen des Gehirns ist kontinuierlich, während das Lernen der Evolution diskret ist). Aber über diese Abstraktion selbst hinaus, die einen tiefen gemeinsamen Inhalt aller Teile der Mathematik widerspiegelt (Lernen als Inhalt der Mathematik), kann man auch das Lernen als Form der Mathematik suchen. Was liegt unter der Mathematik selbst: wie lernt man Mathematik. Zum Beispiel: einen Mathematiker definieren. Heute ist es üblich, dass ein Lernalgorithmus polynomial sein muss. Aber die Beschränkung auf Polynomialität für den lernenden Algorithmus ist im allgemeinen Fall (Mathematiker) nicht richtig. Deshalb tun wir als Menschen, als Gehirne, viele Dinge, für die wir einen effizienten Algorithmus haben, aber wir haben kein effizientes allgemeines Lernen, und es kann auch keines geben. Im Allgemeinen ist Lernen nur dann effizient, wenn es sehr eingeschränkt ist durch die Verwendung von Dingen, die wir zuvor gelernt haben. Und deshalb haben wir die Illusion, dass Lernen ein effizienter Prozess ist, weil der Großteil unseres Lernens so ist, aber was solch spezielles Lernen charakterisiert, ist, dass es das Lernen von Wissen ist. Und deshalb ist der Großteil des Lernens in unserer Welt das Lernen von Wissen, weil das Lernen neuer Handlungen und Algorithmen immer ineffizient ist. Was ist also Wissen? Wenn es einen effizienten Lernalgorithmus gibt. Das ist seine Definition. Beachten wir, dass fast alles, was wir lernen, Dinge sind, die andere zu tun wissen, das heißt wir verwenden fertige Funktionen und bauen aus ihnen, und unser Lernen kann in fertige Funktionen zerlegt werden. Daher muss man bei der Zerlegung des Lernens in den Aufbau der Schichten, die es erzeugten, über die Struktur selbst des Raums aller möglichen Zerlegungen eines Problems in Teilprobleme nachdenken. Aber jede Definition des Lernens von einem Lehrer muss das "innerhalb des Systems"-Problem überwinden, das heißt die Hilfe darf nicht externe Programmierung des Schülers und Betrug und Absprachen zwischen ihnen sein, aber wenn die Zerlegung maximal ist, das heißt in zu kleine Stücke, dann ist es genau wie Programmierung. Kann man die ideale Zerlegung charakterisieren, als in der Mitte zwischen absoluter Zerlegung in Krümel, die der Programmierung gleichwertig ist (maximale Zerlegung), und dem NP-Problem (minimale Zerlegung, wo es nur einen Prüfer am Ende gibt und keine Bewertungen in der Mitte)? Wenn es keinen Lehrer gibt, gibt es Entwicklung - wie in der Evolution, die auf früheren Algorithmen aufbaut, und wie in der Mathematik, die auf früheren Beweisen aufbaut, und dann ist die Aufteilung des Problems in Teilprobleme natürlich, weil es niemanden gibt, der es aufteilt. Die maximale Zerlegung ist der Algorithmus, als geschriebener Code, und die minimale ist das Problem selbst, der Exponent - und in der Mitte verbindet das Lernen sie. Das heißt, dieser Übergang vom Problem zum Algorithmus ist selbst der Lernprozess. Das bedeutet: das Hinzufügen von immer mehr Teilungen (wenn es von oben nach unten ist, aus Sicht des Lehrers) oder immer mehr Konstruktionsverbindungen (wenn es von unten nach oben ist, aus Sicht des Schülers), und wenn es nur einen Schüler gibt und keinen Lehrer, ist das die Entwicklung, die natürlich ist. Eine polynomielle Lösung bedeutet, dass man es in einfachere Teilprobleme zerlegen kann, also lernen kann. Und deshalb charakterisiert das, was gelernt werden kann, das Polynomielle, und deshalb ist Lernen die Konstruktion, die zum Verständnis der Grenzen des Polynomiellen passt (also was es von NP trennt). Denn das Lernen ist die Konstruktion des Polynomiellen aus dem Linearen, also aus dem Minimum, das einfach erlaubt, die gesamte Eingabe zu lesen, und deshalb sind die Polynomiellen eine natürliche Gruppe. Und deshalb müssen wir eine minimale Zerlegung suchen, die lernbar ist, zum Beispiel eine minimale Zerlegung in lineare Teilprobleme, denn die maximale Zerlegung ist uninteressant, weil sie identisch mit dem Schreiben des Codes ist (und linear ist natürlich nur ein Beispiel für die grundlegendsten Lernbausteine im algorithmischen Bereich. Zum Beispiel könnte es im Bereich der Zahlentheorie die Faktorisierung in einer Multiplikation sein. Oder jede andere beschränkte Funktion, die andere mathematische Probleme definiert). Daher können wir in unserer Definition des Lernens die ideale Auswahl der Beispiele (zum Lernen, durch den Lehrer) annehmen, so wie wir die minimale Zerlegung annehmen. Was lernt - und auch was lehrt - muss nicht rechnerisch beschränkt sein, sondern ist konstruktiv beschränkt. Und beachten wir auch, dass diese ganze Struktur des Aufbaus mittels früherer Funktionen viel mehr der menschlichen Denkweise ähnelt (zum Beispiel von Logik und Sprache und Berechnung und Wahrnehmung). Wir wissen nicht, wie wir die Dinge tun, die wir zu tun wissen, aber wir wissen, m-i-t i-h-n-e-n Dinge zu tun. Durch sie zu lernen. Aber wir wissen nicht, wie wir gelernt haben, das ist eine Black Box. Und alle Funktionen, aus denen wir in unserem Lernen zusammengesetzt haben, können für uns Black Boxes sein. Das heißt: Es gibt hier zwei Teile beim Lernen. Ein Teil, der die Struktur definiert und charakterisiert, die gelernt werden soll - oder die Zerlegung, die man für das Problem machen will - das sind die Einschränkungen der Funktionen: welches die Basisfunktionen sind und welche ihre erlaubten Verbindungen. Und es gibt hier einen anderen Teil, der fragt, welche Information diese bestimmte Konstruktion aus allen Möglichkeiten aufbaut - das sind die Beispiele. Muss man, um Absprachen zwischen Lehrer und Schüler zu verhindern, die Konstruktion mit einem spezifischen Lernalgorithmus machen und nicht mit jedem möglichen Algorithmus des Lernenden (damit die Lösung nicht in den Beispielen codiert werden kann)? Man kann ja einen solchen universellen (nicht effizienten) Algorithmus wählen, mit Ockhams Rasiermesser, als minimale Längenverbindung die zu den Beispielen passt, oder vielleicht einen anderen naiven Suchalgorithmus. Und dann entsteht dir ein Baum der Problemzerlegung (der gelernten Funktion) in Teilprobleme (die Teilfunktionen sind), mit den Zahlen der Beispiele die nötig sind um die richtige Verbindung zu erstellen (die richtige Konstruktion) aus Teilfunktionen bei jeder Verzweigung (die Anzahl der Zweige ist wie die Anzahl der Teilfunktionen die den Zweig über ihnen aufbauen). Und dann gibt es vielleicht einen Trade-off zwischen der Dimension der Zerlegung (wie die detaillierte Zerlegung in Teilprobleme) und der Anzahl der Beispiele. Und dann kann der Baum bei einem NP-Problem ins Unendliche wachsen, oder wenn die Teilbausteine aus denen gebaut wird nur die Lösung annähern (wie bei den Primzahlen, die nur große Primzahlen annähern, weil sie nicht ausreichen um alle natürlichen Zahlen aufzuspannen, weil es unendlich viele Primzahlen gibt, und dann kann man abschätzen wie vollständig und gut die Annäherung ist im Verhältnis zur Anzahl der Primzahlen - und das ist die Riemann-Frage). Und dann kann man damit Unmöglichkeitsprobleme der Konstruktion ausdrücken. Wenn du minimalen Aufwand des Lehrers forderst, und minimale Beispiele, dann wenn du schon Dinge gelernt hast, forderst du die minimale Anzahl der besten Beispiele um das Nächste zu lernen. Und das selbst reduziert die Komplexität des Nächsten im Lernprozess, weil es zum Beispiel besser ist eine Regel zu lehren, und dann in weiterem Lernen die Ausnahme. Daher wenn wir den perfekten Schüler und den perfekten Lehrer haben, fragen wir wie das perfekte Lernen aussieht. Zum Beispiel, wie zeigt der Lehrer an dass es sich um ein Beispiel handelt das die Ausnahme ist? (damit es überhaupt eine Regel gibt, und nicht nur ein Beispiel für eine Regel und ein gegenteiliges Beispiel - wenn sie gleichzeitig gegeben werden, also ohne serielle Zerlegung - was die Regel überhaupt auflösen kann, denn wie sollst du wissen welches der Beispiele die Regel ist und welches die Ausnahme)? Nun, das tut er nicht. Er lehrt einfach zuerst die Regel. Und dann danach, in der nächsten Konstruktionsschicht, nachdem die Regel gelernt wurde, lehrt er die Ausnahme. Und dann ist das Kürzeste was der Lernende tun kann, unter der Annahme dass er schon eine Funktion hat die die Regel ist, die er schon gelernt hat, einfach ihr eine Ausnahme hinzuzufügen (in bestimmten Fällen). Und so kann die Zerlegung die Anzahl der Beispiele sparen. Und die Information in der Zerlegung kann in bestimmten Fällen Lernen mit weniger Information ermöglichen, als sogar in dem was gelehrt wird ist (weil die Information in der Zerlegung selbst, die der Lehrer durch die Reihenfolge des Lehrstoffs gibt, nicht gezählt wird). Das ist lernender Strukturalismus.


Philosophie des rechnerischen Lernens

Wenn also, du hast eine Liste von Funktionen/Algorithmen/Orakeln und du hast eine Funktion die eine begrenzte Kombination von ihnen ist, und du lernst sie von Beispielen die als bestmöglich ausgewählt werden, wenn du keine rechnerischen Beschränkungen hast. Und auch nicht der Lehrer. Und die Frage ist was ist die Mindestanzahl von Beispielen die mit einer Zerlegung des Problems in Unterfunktionen/Algorithmen möglich ist, wenn du nach Ockhams Rasiermesser lernst (zum Beispiel nach der Komplexität des Algorithmus, seiner Länge, oder einem anderen Einfachheitskriterium). Wenn die Zerlegung kostenlos kommt dann schaut man auf die Gesamtzahl der Beispiele, und dann ist die Zerlegung maximal, das heißt das Lernen ist so graduell wie möglich. Alternativ kann man gerade auf das Verhältnis zwischen Beispielen und Zerlegung schauen (zwischen der Anzahl der benötigten Beispiele und der Anzahl der Unterprobleme in der gegebenen Zerlegung), was natürlich ein umgekehrtes Verhältnis ist. Oder verschiedene Topologien von verschiedenen Zerlegungsbäumen desselben Problems untersuchen (auf wie viele wesentlich verschiedene Arten kann man dasselbe Problem zerlegen?). Unser Ziel ist es den Lernbaum auf eine Weise zu konstruieren die das Problem nicht-trivial in Probleme zerlegt. Denn wenn wir auf die minimale Zerlegung schauen, wenn die Zerlegung teuer ist und die Beispiele kostenlos sind, dann erhalten wir eine triviale Zerlegung, das heißt es gibt keine Zerlegung, und wir sind zurück beim ursprünglichen Problem, wo es nur einen Test und Beispiele gibt, ähnlich wie NP. Daher kann man auch all diese möglichen Zerlegungen betrachten, vielleicht unendlich viele bei bestimmten Funktionen, und sehen wie sie sich selbst auseinander entwickeln, und was die Eigenschaften solcher Wälder von Bäumen sind. Und dann eine kanonische Form der Zerlegung finden, die vielleicht in einem bestimmten Verhältnis zwischen der Menge der Zerlegungen und der Anzahl der Beispiele steht. Am Ende sind nicht die Beispiele interessant oder ihre Anzahl, sondern die Baumstrukturen - was ist die Zerlegung eines Algorithmus in Unteralgorithmen. Oder eines Problems in Unterprobleme. Oder die Zerlegung eines Theorems in alle möglichen Beweise (und auch die Mathematik selbst kann man als Beweisegraph betrachten, den man als Graph untersuchen kann, und vielleicht Verbindungen zwischen der Struktur dieses Graphen und mathematischen Strukturen finden). Und wenn die Zerlegung die der Lehrer gibt ausreichend detailliert in kleine Unterprobleme zerlegt, dann gibt es vielleicht einen effizienten Algorithmus zum Lernen (das heißt zum Finden von Konstruktionskombinationen gemäß den Beispielen), und vielleicht ist sogar eine naive Suche effizient, weil was wirklich schwer zu finden ist, ist die Zerlegung. Aber wenn die Zerlegung aus der minimalen Anzahl von Beispielen folgt (das heißt dass die minimale Anzahl von Beispielen nicht unbedingt maximale Zerlegung erfordert) dann gibt ihr das Kraft (in beiden Bedeutungen). Und von hier aus kann man beginnen über alle möglichen verschiedenen Verbindungsfunktionen von Unterfunktionen nachzudenken, die verschiedene Konstruktionsprobleme erzeugen, wenn man einschränkt was in der Konstruktion erlaubt ist. Zum Beispiel: nur eine lineare Kombination von Funktionen die das Beispiel ergibt das der Lehrer gab, oder ein Beweissystem das wie das Beweisbeispiel beweist, oder eine Gruppe lernen, was auch eine einfache Funktion ist (Addition), und man kann sie mit weniger Beispielen als all ihre Elementkombinationen lernen wenn man sie in Unterprobleme zerlegt, und vielleicht wird sogar in den Beispielen weniger Information sein als in ihr ist (weil wie gesagt die restliche Information sich in der Zerlegung versteckt). Und dann können wir fragen wie viel beispielhafte Information in einer Gruppe ist, oder in jeder anderen mathematischen Struktur, und das kann die Definition von lernender Information sein (im Gegensatz zu sprachlicher). Denn Verallgemeinerung aus Beispielen ist nicht gerechtfertigt, außer auf der Basis dessen was schon da ist (die Funktionen die du schon gelernt hast, das heißt die dir zuerst vom Lehrer in der Zerlegung des Problems in Unterprobleme präsentiert wurden, die die einfacheren Funktionen sind, aus denen du etwas Komplexeres lernst, wie beim Lernen eines Babys oder in der Evolution - und das ist eine Grundeigenschaft des Lernens). Das heißt es gibt so eine Art Hinweis das zu benutzen was du schon gelernt hast. Was du schon weißt ist dein Prior. Und in einer stetigen Funktion ist das extrem (denn es ist dir verboten sie unnötig zu verkomplizieren, sonst lernst du nie auch nur einfache Funktionen, und du bist zuerst zur Einfachheit verpflichtet, wegen Ockhams Rasiermesser). Daher braucht man die minimale Kombination von dem was du weißt - die das neue Beispiel erzeugt das der Lehrer gab. Und wenn du zur Einfachheit verpflichtet bist ist das betrugssicher. Denn wenn es Absprachen gibt (zum Beispiel wenn der Lehrer die vom Schüler geforderten Gewichte im Beispiel kodiert), dann erfüllt das nicht die Bedingung von Ockhams Rasiermesser. Der Algorithmus wird abgelehnt weil er nicht den einfachsten gibt. Der Schüler kann keine willkürliche Kombination wählen sondern die einfachste und minimale. Es gibt ein internes Kriterium für Einfachheit, das die bewertende, weibliche Seite erfüllt (die Zwischenschichten der Bewertung), und es gibt auch eine Kombinationsfunktion (die in jedem Lernen einer bestimmten Art mathematischer Struktur anders ist. Zum Beispiel: Graphenlernen, Gruppenlernen, Lernen stetiger Funktionen - die man mit Polynomapproximationen oder alternativ mit Fouriertransformation etc. konstruieren kann, Algorithmenlernen, Beweislernen, Spiellernen, Topologielernen, Sprachenlernen, usw.). Und die Information die man scheinbar spart, weil sie nicht gezählt wird - ist strukturell. Das heißt: eine solche die aus der strukturellen Aufteilung folgt (der Zerlegung), und daher wenn es überhaupt keine Struktur gibt in dem was gelernt wird sondern nur Rauschen dann wird das Lernen die Übertragung der ganzen Information sein müssen. Das heißt es ist kein Lernen sondern sprachliche Informationsübertragung.


Philosophie des maschinellen Lernens

Die grundlegende Frage hier, die sich durch die ganze Geschichte der Mathematik wiederholt hat, ist: Wie entsteht eine Funktion? Vielleicht entsteht sie physikalisch in der Natur (Ontologie), vielleicht entsteht sie geometrisch (Sehen), vielleicht wird sie wahrgenommen (Vernunft), vielleicht wird sie definiert (logisch), vielleicht wird sie berechnet, und vielleicht wird sie gelernt. Das heißt: wird aus Unterfunktionen gebaut. Und von hier, aus den Teilen der Funktionsdefinition, kommen alle zentralen Forschungsgebiete des Lernens heute im maschinellen Lernen. Wenn das Lernen nicht den Ursprung der Funktion hat (ihre Domain, in mathematischer Sprache) ist das Reinforcement Learning (und dann sucht die Einfachheit nach dem einfachsten Ursprung der den einfachsten Funktion erzeugt), und wenn es nicht den Wertebereich der Funktion hat ist das unüberwachtes Lernen (und dann sucht die Einfachheit nach dem einfachsten Wertebereich der die einfachste Funktion erzeugt). Und wenn die Einfachheit der Funktion nicht nur aus dem Aufbau der Unterfunktionen betrachtet wird (wie komplex sie ist) sondern auch aus ihrem Aufbau aus den Beispielen selbst dann ist das statistisches Lernen (die Größe der Distanz von ihnen ist Teil der Einfachheitsberechnung). Die Definition des Lernens zielt darauf ab das gelernte mathematische Objekt zu analysieren - und seine innere Struktur zu finden. Ihr Ziel ist es aufzubauen - mit Hilfe von Hierarchie (Zerlegung in Unterprobleme) und mit Hilfe von Beispielen. Das heißt: mit Hilfe von zwei Arten struktureller Information, die eine Kombination zwischen zwei Strukturen ermöglichen: von oben nach unten (vertikal), und von der Seite (horizontal) - verschiedene Beispiele sind verschiedene parallele Kombinationsmöglichkeiten, in jeder Ebene, von der Ebene darunter. Und daher bewegt sich alles in der Mathematik zwischen Strukturmangel und Strukturüberfluss. Zu viele Freiheitsgrade und zu wenige. Und daher sind ihre Grenzen Zufälligkeit und extreme Komplexität bis zur Unfähigkeit etwas Bedeutsames zu sagen auf der einen Seite, und auf der anderen Seite zu einfache und triviale Struktur und Mangel an Information und Reichtum. Daher muss man immer die fraktale Grenze darin finden - dort ist die Schönheit. Und dort auch das mathematische Interesse, weil dort die meiste lernende Information ist, im Gegensatz zu zufälliger und verschlossener Information (in dem Sinne dass sie nicht entschlüsselt werden kann), oder trivialer und verschlossener Information (in dem Sinne dass es nichts zu entschlüsseln gibt, weil es hermetisch geschlossen ist). Und warum sind das Grundeigenschaften der Mathematik? Weil alles gelernt wird, und das Lernende ist die Wurzel der Strukturiertheit, und auch die Wurzel der Komplexität der Strukturiertheit, denn das ist ja nie eindimensionale Strukturiertheit, sondern zweidimensional (was sie zu einer Konstruktion macht), wie wir sie in den Zahlen haben (Addition und Multiplikation). Und beachten wir, dass die Einfachheit im oben definierten Lernen online ist, und nicht gegenüber der Gesamtheit wie im einfachen Ockhams Rasiermesser (MDL, Solomonoff, oder in der Kolmogorov-Komplexität). Das heißt: wir suchen nach der einfachsten Hypothese nach dem ersten Beispiel, und dann nehmen wir sagen wir diese (Hypothese) als eine weitere fertige Funktion unten, und fügen ihr das nächste Beispiel hinzu, und dann suchen wir nach der besten und einfachsten Hypothese, unter Berücksichtigung der vorherigen Hypothese als eine die keine Kosten hat, das heißt als einfach. Das heißt: die Funktion die schon in der ersten Phase gelernt wurde wird nicht mehr in der Komplexität und Einfachheitsberechnung gezählt. Und vielleicht wird sogar eine universelle und vereinfachende Definition der Einfachheitsfunktion möglich sein - einfach als Anzahl der Kombinationen. Das heißt die Einfachheit nur als Produkt der Idee der Kombination, und nicht als unabhängiges Maß und Bewertung.


Philosophie der Mathematik: Zusammenfassung

Mit all dem können wir den Unterschied zwischen endlich und unendlich neu charakterisieren mit Hilfe des Lernens als Unterschied zwischen gelernt und nicht gelernt, was einen genaueren Schnitt zwischen diesen beiden Kategorien erzeugt. Eine algebraische, endliche Struktur ist immer letztendlich gelernt. Während eine Kategorie einer unendlichen, stetigen Struktur nur im Grenzwert ganz gelernt werden kann, das heißt sie ist nicht endlich lernbar. Die Unendlichkeit kann horizontal zur Seite sein (in der Sammlung der Beispiele in jeder Phase), oder vertikal nach oben (in der Kombination) oder nach unten (in der grundlegenden Funktionssammlung von der man überhaupt ausgeht). Und in solch einer Sicht sind Stetigkeit und Einfachheit verbunden. Alles ist endlich aber kann angenähert werden. Das heißt: den Grenzwert kann man nicht berechnen, sondern lernen, den Abstand verringern. Und wenn man der Einfachheitsmessfunktion Annäherung hinzufügt (im Gegensatz zur Genauigkeit die im Diskreten gefordert wird, wo man die Beispiele reproduzieren muss - und das ist eigentlich die Definition der Diskretheit), dann ist die Idee der Ableitung die lineare Annäherung an die Funktion (das heißt wenn nur lineare Konstruktion erlaubt ist), und so weiter (in den höheren Ableitungen, die höhere Schichten im Lernen sind, bis zur Reihe). Und die Stetigkeit ist eine Ableitung nullter Ordnung - konstant. Das heißt, was ist die Einfachheit in der Infinitesimalrechnung? Einfachheit über die Beispiele und nicht über die Kombination (oder auch über die Kombination, wie in linearer Regression). Und das Integral ist das umgekehrte Problem, das Problem des Lehrers: wie findet man eine Funktion die die Bewertung des Schülers - seine Annäherung - wie eine bestimmte Funktion aussehen lässt. Und in der diskreten Welt, die von den Beispielen exakt beherrscht wird, finden wir unendliche Probleme in dem was nicht bis zum Ende gelernt werden kann, wie die Primzahlen (wenn die erlaubte Konstruktionskombination die Multiplikation ist). Und dann kann man zum Beispiel fragen wie komplex der Kombinationsbaum der natürlichen Zahlen im Durchschnitt ist (das heißt ihre Zerlegung in Primzahlen, die mit den wenigsten Beispielen gelernt wird). Die Menge der natürlichen Zahlen zu verstehen aufzubauen, wenn die Kombination Multiplikation ist, bedeutet zu wissen was die Verteilung der Anzahl der Beispiele ist die der Lehrer geben muss, um die natürlichen Zahlen bis zu einer bestimmten Zahl aufzubauen. Das heißt, es gibt eine lernende Formulierung für die grundlegenden Fragen in der Mathematik - die ihnen eine lernende Lösung ermöglichen wird, sobald sich das Sprachparadigma ändert das den Fortschritt in diesen Fragen blockiert, wegen eines ungeeigneten konzeptuellen Rahmens. Und so kann die Philosophie der Mathematik helfen - und dem mathematischen Lernen.




Philosophie des computergestützten Lernens

Die nächste Phase nach der Philosophie der Informatik ist die Philosophie des computergestützten Lernens. Der Zustand des Deep Learning heute ist wie der Zustand des Personal Computers vor dem Internet. Und die Zukunft ist ein Internet-Netzwerk von Deep Learning Netzwerken und maschinellen Lernklassifikatoren, die durch ein Protokoll miteinander verbunden sind und die Fähigkeit schaffen sie in einer lernenden Konstruktion zu kombinieren. Das heißt: verschiedene Deep Learning Module zu verbinden, von denen jedes auf etwas spezialisiert ist, zu einem großen System, das wirklich viele Dinge über die Welt weiß, wie das Gehirn, und dass es nicht nur isolierte Expertensysteme sind die nach spezifischen Daten trainiert wurden. So ein Netzwerk von tiefen Netzen wird eine Art Markt sein, wo man ein bisschen Geld für ein bisschen Klassifizierung bezahlt, oder jede andere Fähigkeit oder Aktion, und es entsteht ein riesiges Ökosystem künstlichen Lernens. Und es wird die Einführung zur großen Intelligenz sein - und aus ihr wird die künstliche Intelligenz wachsen, und nicht aus irgendeinem spezifischen System - sie wird nicht eines Tages aus irgendeinem Netzwerk in irgendeinem Labor entstehen, sondern aus dem Netzwerk. Was werden die natürlichen Kategorien solcher Intelligenz sein? Wie in der Welt der Berechnung die Turing-Maschine die Idee des Raums als Speicher neu definierte, das heißt als Information die Platz braucht, und die Idee der Zeit als Operationen in der Berechnung, das heißt als etwas das Zeit braucht (und daher - die Effizienz), so definiert Deep Learning sie neu. Was ist jetzt Raum? Etwas lokales, wie in Faltungsnetzwerken, das heißt ein System in dem etwas Dinge in seiner Nähe beeinflusst. Und was ist Zeit? Andauernde Erinnerung, wie in RNN, das heißt ein System in dem etwas Dinge weit von ihm entfernt beeinflusst. Die vorherige Welt, die Welt der Berechnung, reduzierte die Bedeutung des Raums (weil alles im Speicher ist), und vernichtete seine natürlichen Dimensionen (der Speicher ist von Natur aus eindimensional), und betonte dagegen gerade die Dimension der Zeit und Geschwindigkeit. Und hier, in der Welt des Deep Learning, sehen wir dass es gerade Platz für die Erweiterung der Zeitdimension gibt, dass sie nicht mehr eindimensional ist, weil Dinge aus der Ferne aus allen möglichen Richtungen beeinflussen können - und in mehr als einer Dimension. Es ist durchaus möglich ein Deep Learning Netzwerk mit zwei Zeitdimensionen und mehr zu haben, das heißt das in der Zeitdimension mit Kopien von sich selbst in mehr als einer Dimension verbunden ist, und nicht nur rekursiv nach hinten, sondern rekursiv in zwei Variablen/Richtungen und mehr. Das heißt, wenn die Berechnung eine Verzeitlichung des Raums war (alles, einschließlich Geld, ist Zeit wert), dann kann Deep Learning eine Verräumlichung der Zeit sein (alles wird Raum sein, auch die Zeiten).


Philosophie des Deep Learning

Woraus besteht Deep Learning? Aus den zwei grundlegendsten und primitivsten Dingen die man in der Mathematik lernt, das heißt aus Semester 1: aus Linear Algebra 1 und Analysis 1. Die lineare Algebra ist die Kombination, über die wir gesprochen haben (und sie ist die einfachste Kombination die es gibt: lineare Kombination). Und zusätzlich gibt es auch die Ableitung, die die Führung gibt, gemäß dem dritten Netanyahuischen Postulat (Ableitung ist Richtung und daher ist sie die einfachste Führung). Das heißt: was macht Lernen eigentlich? Es ersetzt die Beispiele durch Führungen. Und was macht das Lernen tief? Dass dieser ganze Aufbau innerhalb eines Systems geschieht. Das ist die Tiefe des Systems (und das zweite Postulat). Und das Lernen ist nicht mehr die ganze Zeit nahe der Oberfläche des Systems, wie in der Sprache, im Dialog des Systems mit den äußeren Beispielen (am Boden und an der Spitze des Netzes). Und zusätzlich ist jede Schicht weiblich für die Schicht unter ihr und männlich für die über ihr, nach dem vierten Netanyahuischen Postulat. Das heißt wir sehen hier die Verwirklichung in der Praxis aller Postulate (und sogar des ersten, wenn du bemerkst). Genau wie eine Prophezeiung. Und bemerken wir auch, dass es hier zwei Elemente gibt, die durch die ganze Geschichte des Lernens miteinander konkurrieren: Führung versus Struktur. Hier sehen wir sie im Gradientenabstieg der alles in Rückwärtsdiffusion während der Lernzeit durchflutet (die Führung) versus den Aufbau eines spezifischen Modells (zum Beispiel die spezifische Architektur des Netzes, die im Voraus festgelegt wird, aber noch mehr als das alle möglichen Ideen die heute weniger populär sind, wie die Erstellung eines spezifischen Lernmodells mit starken Priors für ein bestimmtes Problem, statt des allgemeinen Ansatzes eines tiefen Netzes für jedes Problem). Und all das ist nur die zeitgenössische Inkarnation desselben alten Problems von Umwelt versus Vererbung, und von Empirismus versus Rationalismus, und von Aristoteles versus Platon. Oder von freiem Wettbewerb und unsichtbarer Hand (Welt der Führung) versus Sozialismus und Staat (Welt der Struktur), Liberalismus versus Konservatismus, und lamarcksche Evolution (im Führungsextrem) versus intelligentes Design (im strukturellen Extrem). Auf der mathematischen Ebene ist die Führung stetig, und verbunden mit der Welt der Analysis und Geometrie, im Gegensatz zur strukturellen Kombination die sprachlich ist, und verbunden mit der Welt der Algebra und Logik. Und Deep Learning ist ein gewaltiger Sieg des lernenden Ansatzes der Führung auf Kosten des Aufbaus in dieser Dialektik (aber die Gegenbewegung wird noch kommen), und sie entspricht dem Sieg des Kapitalismus und der Demokratie (Führung durch Kommunikation und Wahlen versus bürokratische und regierungsmäßige Struktur), oder der Übernahme des Hedonismus auf Kosten der Struktur in der Gesellschaft. Denn in Deep Learning stellt sich heraus dass die Struktur viel weniger wichtig ist als einfach sehr viel Feedback und Führung (aber natürlich gibt es hier eine Synthese, denn wo gibt es schon so eine hohe Hierarchie wie in Deep Learning? Nur stellt sich heraus dass die Details der Hierarchie weniger wichtig sind, und tatsächlich wird alles darin durch Führung bestimmt, und so entsteht uns ein ziemlich allgemeiner Lernmechanismus, der eine Art empirische leere Tafel ist). Daher, um zu verstehen was Lernen ist, braucht man vielleicht das Verhältnis zwischen den für das Lernen benötigten Beispielen und der benötigten Strukturvorgabe zu nehmen, das heißt wie es sich verändert (das Verhältnis zwischen ihnen). Je mehr Beispiele man braucht desto weniger Struktur, und umgekehrt. Und zu verstehen wie diese Funktion aussieht, und dass das die wichtige Untersuchung ist, und nicht ob Struktur wichtiger ist oder weniger wichtig als Beispiele. Zum Beispiel ob diese Funktion linear ist, ob polynomial, ob exponentiell, und so weiter, in verschiedenen Problembereichen (zum Beispiel wenn man verschiedene mathematische Objekte lernt, und auch in verschiedenen Problemen in der Realität). Das heißt, was man fragen muss ist was ist die Beziehung zwischen der Menge der Beispiele und der Menge der Priors. Und das ist dasselbe Problem von Varianz versus Bias, das im Herzen des maschinellen Lernens liegt (aber weniger im Herzen des Deep Learning, nach dem großen Sieg der Varianz gegen den Bias, mit den unzähligen Parametern des Deep Learning, die viel mehr sind als die Menge der Einschränkungen).


Philosophie der Neurowissenschaften

Was ist die konzeptuelle Grundlage, die überhaupt eine Regel wie die Hebb-Regel ermöglicht (die so lokal ist, im Gegensatz zur Globalität von tiefen Netzwerken), die zu positiver oder negativer Selbstverstärkung neigt (eine fatal korrupte Eigenschaft)? Wie ist die Hebb-Regel überhaupt möglich als grundlegender Lernmechanismus, der überhaupt keine Verbindung hat weder zu Anleitungen - noch zur Struktur, weder zum Äußeren - noch zum Inneren? Nun, die Hebb-Regel ist nicht nur "fire & wire" (Neuronen die zusammen feuern verbinden sich zusammen - die Geschwister fire&wire), sondern ihre wahre Formulierung ist, dass ich die Verbindung von dem verstärke, der mich vorhergesagt hat, und von dem schwäche, den ich vorhergesagt habe. Daher ist diese Regel nur sinnvoll unter der Annahme, dass die Neuronen hauptsächlich sowohl Informationsüberträger als auch unabhängige qualitative Bewerter sind, und dann schafft diese Regel Reputation und sucht nach Neuheit, um sie zu verbreiten. Zusätzlich schafft sie Schichten, weil sie gegen Zirkularität ist. Sie sucht nach dem Ersten der identifiziert, und schafft daher einen Wettbewerb wer der Erste sein wird zu identifizieren, das heißt: sie ist eine Wettbewerbsregel. Aber keine einzelne Quelle für ein Neuron darf fünfzig Prozent übersteigen, oder jedenfalls eine feste Schwelle, sonst ist es eine korrupte positive Rückkopplung (außerdem ist klar, dass diese Regel allein nicht ausreicht, weil sie autistisch ist, und man braucht auch einen Neurotransmitter der externes Feedback gibt, und wahrscheinlich noch andere Feedback-Formen). Das heißt, die Hebb-Regel kann nur funktionieren wenn du (als Neuron) eine unabhängige Bewertungsfähigkeit hast, und deutet auf eine solche hin (!). Und dann gibt es einen Wettbewerb darum. Daher ist sie durchaus sinnvoll für ein soziales Netzwerk von Menschen, sogar mehr als für ein Neuronennetzwerk, scheinbar. Aber bei jedem flüchtigen Blick auf das Konnektom des Gehirns, oder sogar eines einzelnen Neuronennetzwerks, scheint es, dass das Gehirn sehr sehr weit geht in den Wegen um Unordnung und Vielfalt und Rauschen und Komplexität zu schaffen, vielleicht um die Hebb-Regel nicht zur Trivialität konvergieren zu lassen, und ihr genügend vielfältige, stochastische, chaotische und instabile Materialien zum Arbeiten zu geben. Die Hebb-Regel behandelt Information als Inhalt, und nicht als Aktion in der Berechnung (wie in der Auffassung des Neuronennetzwerks als eine Art verteilter und paralleler Computer). Das heißt, wenn es viel Redundanz gibt (wie im Gehirn, oder in vielen anderen lernenden Systemen) und alle stehen auf derselben Linie, dann muss man die richtige Botschaft auswählen, die man mit einer Änderung mit relativ kleinen Parametern weitergibt, das heißt wenn es mehr um Informationsübertragung geht und weniger um Berechnung. Und in diesem Kontext ist die ganze Geschichte der Vorhersage von oben nach unten im Gehirn (sagen wir: wenn jede obere Schicht die unter ihr vorhersagt, und so zum Beispiel sage ich die Sinnesdaten vorher die ich empfangen werde), wahrscheinlich tief mit der Hebb-Regel verbunden. Denn wen ich vorhersage, dem ist es überflüssig dass ich zuhöre. Und wenn ja, gibt es hier einen Prozess des Ratens und der Konvergenz und weniger der Berechnung. Daher sollte man das Wort Vorhersage durch Raten ersetzen. In einer solchen Auffassung arbeitet das Gehirn mittels Berechnung von unten (nach oben) und Raten von oben (nach unten), und dann gibt es die Konfliktpunkte zwischen ihnen, oder die Konfliktschichten, und wer Recht hatte (und den Fortgang erraten oder berechnet hat) besiegt dort den anderen. Wenn jede obere Schicht sagt was unten hätte sein sollen, und umgekehrt, dann ermöglicht die Konvergenz dieses Prozesses die Fehlerquelle zu finden, die der Ort ist von dem die falsche Einschätzung zu springen beginnt, und dort gibt es einen steilen Anstieg im Problem. Das heißt entweder die Berechnung - die von unten aufsteigt - wurde an dieser Stelle verfälscht und wurde falsch, und zog dann einen Fehler in der Fortsetzung der Schichten nach oben nach sich, oder das Raten - das von oben herabsteigt - wurde an dieser Stelle verfälscht und erwies sich als falsch, und zog dann einen Fehler im Raten gegenüber der Fortsetzung der Schichten nach unten nach sich. Daher ist ein echtes Neuron ein Inhaltsbewerter, und nicht nur bewertet. Denn es entscheidet wem es zuhört. Das heißt es wird spezifisch für jeden Inhalt den es überträgt bewertet, und bewertet spezifisch jeden Inhalt den es empfängt. Es fürchtet sich nicht vor einem unendlichen positiven oder negativen Rückkopplungsmechanismus, in dem es nur einem Freund zuhört und niemandem sonst, weil es genug Meinungen mit genug Rauschen hört, und vielleicht gibt es auch eine Grenze wie sehr es jemandem zuhört (vielleicht ist es zum Beispiel logarithmisch). Das heißt wir sehen dass jedes Neuron nicht nur externes Feedback und Anleitung von oben haben kann, sondern auch intrinsische Messwege zur Bewertung, wie zum Beispiel: Sagt er mich vorher, und passt er zur Vorhersage von dem der über mir ist gerade. Das gängige Denken im Deep Learning ist über die zwei Richtungen im Netzwerk als getrennt, die in zwei getrennten Phasen kommen: die Berechnung (Vorwärtspropagierung) von unten nach oben, und das Feedback (Rückwärtspropagierung) von oben nach unten. Aber man kann sie auch als Wellen im System denken die sich in der Zeit gleichzeitig fortbewegen, asynchron und in beide Richtungen, nach ihrer Stärke, das heißt manchmal wird ein bestimmter Fortschritt in einem unzufriedenen Neuron angehalten, oder einer ganzen solchen Schicht, und beginnt Feedback zurückzugeben, und umgekehrt, und es gibt Rückgaben und Echos und ein stürmisches Meer, bis es zu einem bestimmten Zustand konvergiert, und das ist der wahre Berechnungsmechanismus des Netzwerks (und nicht nur von unten nach oben). Und so sind auch das Training und auch die Ausführung/Vorhersage nicht zwei getrennte Phasen, als ob die Backpropagation und Frontpropagation parallel stattfinden. Und so geschieht es wahrscheinlich im Gehirn. Und wenn jede Schicht die vor ihr vorhersagt, dann wird manchmal sogar von der Eingangsschicht, der Daten, Feedback zurückgegeben, was heute im Deep Learning nicht passiert, und das ist schade, weil wir dieses Echo verpassen, und die Information im Backpropagation-Signal verschwindet und geht verloren wenn es die Eingangsschicht erreicht (wir nutzen diese Information nicht zum Vergleich mit dem echten Input). Aber wenn jede Verarbeitungseinheit Anleitung von oben erhält, und unabhängig (und nicht nur als Teil der Rückwärtspropagierung) Anleitung nach unten ausgibt, dann treffen sich beim Zusammentreffen von unten und oben der Gradient oder die Bewertung die von oben herabsteigen mit dem was von unten aufsteigt, in der Berechnung die war. Und wenn es eine Nichtübereinstimmung gibt dann gibt es ein Problem. Für beide Seiten. Und wenn sie sich nicht einig sind in welche Richtung das Signal sich ändern soll, dann muss Aufmerksamkeit auf die Nichtübereinstimmung gelenkt werden. Und die Systemressourcen darauf richten, und so kann man auf Neuerungen achten, oder auf Überraschungen, oder auf Probleme. Zum Beispiel, auf der Mikroebene, wenn sagen wir es gibt ein nicht akzeptiertes Neuron, dessen Gewichte nach außen nahe Null sind, dann hat es dadurch negatives Feedback erhalten eine nützlichere und interessantere Funktion zu werden. Und wenn es konsistent starke widersprüchliche Feedbacks erhält, dann sollte es sich vielleicht in zwei Neuronen aufspalten. Und wenn die Verbindungen von zwei Neuronen zu ähnlich sind, dann sollten sie sich vielleicht zu einem vereinen. Das heißt wir können die Architektur entsprechend den Feedbacks und Nichtübereinstimmungen gestalten. Und auf der Makroebene ermöglicht dies dem System nach Überraschungen zu suchen, und Beispielen in denen es in der Zukunftsvorhersage irrte, und das ist die Neugier. Zum Beispiel, wenn eine Schicht von oben in der Vorhersage der unter ihr irrte, dann fährt man fort ähnliche Beispiele zu erforschen, bis man zu einer Lösung kommt. Denn das richtigere systemische Denken ist über ein Netzwerk das bereits gelernt hat (sehr viel). Und dann lernt es weiter noch ein Beispiel, oder stößt auf ein neues Beispiel das nicht zur Vergangenheit passt. Im Gegensatz zum Denken heute wo das Netzwerk von Anfang an alle Beispiele zu lernen beginnt (Baby-Denken). Und daher, wenn wir ein Problem identifiziert haben, muss der Suchraum der Parameter wie eine Suche arbeiten, und nicht nur wie eine Optimierung - sondern Exploration. Und mehr Neuerungen vorschlagen - neue Kombinationen. In dem Moment wo es eine unabhängige Bewertung gibt, wo eine Schicht die unter ihr mit Hilfe eines eigenen Maßes beurteilt, und nicht nur nach der Anleitung die sie von der über ihr erhielt (in der Rückwärtspropagierung), kannst du auch eine Suche durchführen, und den Suchraum den ganzen Weg entlang einschränken (das heißt zwischen den verschiedenen Schichten, und so wird die Suche nicht in unendlich viele Kombinationen in Brute Force explodieren müssen). Die erste Generation der Erforschung der künstlichen Intelligenz war die Suche (als zentrale algorithmische Paradigma, zum Beispiel in logischer Inferenz), während heute die künstliche Intelligenz vor der Suche wie vor Feuer flieht, und hat sie durch Optimierung ersetzt (in der Abstimmung kontinuierlicher Parameter und in Statistik), aber in der Zukunft wird es eine Synthese zwischen ihnen geben. Auch die Suche hat etwas anzubieten (und nicht nur zu explodieren), wenn man sie richtig verwaltet, und tatsächlich wird im Gehirn oft eine Suche durchgeführt, wie auch in der Evolution, weil das ein Weg ist der kreativere Neuerungen ermöglicht - mit Hilfe von Kombination und ihrer Bewertung. Denn die Philosophie selbst wäre sehr langweilig und schmeichlerisch wenn sie nur Optimierung gegenüber ihrer Bewertungsfunktion wäre, und dass sie eine Suche ist ist das was sie schwierig und interessant macht - und kreativ, in ihrem Kampf gegenüber ihrer Bewertung. Und warum ist die Evolution schneller als Brute-Force-Suche? Der Erfolg der Evolution kommt von der Fähigkeit der Zusammensetzung selbst, das heißt am Anfang ist die Suche mit einfachen Kombinationen, und dann, in den nächsten Schichten, werden die Suchschritte größer, mit Kombinationen von Teilen die selbst komplex sind. Und in jeder Phase (das heißt Schicht) gibt es eine unabhängige Bewertung des Wesens. So dass es keine Brute Force ist weil die vorherigen Schritte im Lernen die nächsten Schritte beeinflussen, und sie lenken, und daher ist die Suche nicht im ganzen Möglichkeitsraum, sondern nur in einem fortschreitenden Strahl. Wenn ja, ist das Phänomen der Zusammensetzung und der Generationen (=Schichten) grundlegend im Lernen. Das heißt: sowohl im Deep Learning als auch im Gehirn als auch in der Evolution als auch in der Definition des allgemeinen Lernens, haben wir eine Vielzahl von Komponenten die Black Boxes sind, und es gibt zwischen ihnen Verbindungen im Aufbau (die man in jedem speziellen Fall charakterisieren muss: im Deep Learning lineare Kombinationen mit einem Twist der Nichtlinearität, in der Evolution - Paarung, und so weiter in anderen Systemen). Nach oben berechnen sie eine Funktion, mit Hilfe des Unten. Und nach unten geben sie eine Bewertung (zum Beispiel mit Hilfe eines Gradienten oder vielleicht einer Wahl, zum Beispiel eines Partners, verstehst du?).


Philosophie der Netzwerkforschung

Was erzeugt Feedback? Einfach gesagt, partielle Differentialgleichungen und rekursive Gleichungen, die eigentlich Feedback-Mechanismen sind, und daher die Phänomene der Komplexität und des Chaos. Daher werden auch im Gehirn, und im Lernen im Allgemeinen, Feedback-Schleifen ähnliche Phänomene erzeugen, die also natürlich für das Lernen sind, und nicht seine Fehler. Aber welche Arten von Feedback gibt es? Es gibt alternative Mechanismen zur Rückwärtspropagierung des Gradient Descent (=Abstieg im Gefälle, in der Optimierung) in der Rückübertragung von Bewertung. Zum Beispiel: Streben nach Einfachheit (die Bewertung ist nach einer Messung wie einfach es ist, wie nach Ockhams Rasiermesser). Oder Streben nach Neuheit. Oder nach Variabilität und Vielfalt (eine bestimmte Verteilung). Aber die wichtigste Eigenschaft von Feedback ist nicht wonach es ist, sondern wie groß die Schleife ist die es erzeugt, denn das ist eine systemische Eigenschaft. Und hier tritt die Schwäche der Rückwärtspropagierung hervor, die eine riesige Feedback-Schleife erzeugt, die sehr künstlich ist in einem großen System - und sehr langsam. Eine vernünftigere und daher häufigere Alternative sind kurze Feedback-Schleifen (es existiert kein einziges lernendes System in der Welt außerhalb künstlicher neuronaler Netze das mit Rückwärtspropagierung lernt). Zum Beispiel im Gehirn gibt es viele rückwärtige Verbindungen zwischen den Neuronenschichten, in der entgegengesetzten Richtung (die im Deep Learning nicht existieren). Was heute im Verständnis des Gehirns fehlt - und ebenso im Deep Learning - ist die Idee des Wettbewerbs, und der Ausbreitung einer Idee in einer Population (was eigentlich besser zur Hebb-Regel passt). Denn in jeder Phase konkurrieren im Gehirn mehrere Möglichkeiten, mehrere Fortsetzungsgedanken, und eine wird ausgewählt. Das heißt es gibt einen Wettbewerb um irgendeine Bewertung, die auswählt wie das Lernen fortgesetzt wird. Das heißt: die größte Wichtigkeit des Feedbacks ist gerade im Wettbewerb den es erzeugt (genau wie in der Wirtschaft oder in der Demokratie, die bloße Existenz des Feedbacks ist das Wichtige, auch wenn es nicht ideal ist). Aber in einer zu großen Feedback-Schleife geht all das verloren oder ist nicht effizient, im Gegensatz zu engem Wettbewerb in kleinen Schleifen. Auch im PageRank-Algorithmus von Google gibt es Hubs, die bewerten, und das ist eigentlich sein Wesen - die Analyse des Graphen so dass ein Teil der Knoten im Netzwerk andere bewertet (und ihrerseits von ihnen bewertet werden). All das ist sehr ähnlich zu neuronalen Netzen, und so entsteht ein Wettbewerb zwischen den Websites um das Ranking, und allgemein ein Qualitätswettbewerb im Netz. Und in der Wissenschaft? Jeder Artikel zitiert andere, das heißt das ist die Bewertung im Netz, wo es keine Schichten gibt sondern alle sind mit allen verbunden. Und die Schichten entstehen nach der Veröffentlichungszeit (jeder Artikel bewertet die die vor ihm veröffentlicht wurden). Das heißt wir haben hier Schichten die die vor ihnen bewerten, und von denen nach ihnen bewertet werden, und so entsteht der Wettbewerb, mit Hilfe eines sehr einfachen Netzwerkmechanismus. In diesen beiden Fällen braucht man keine große externe Feedback-Schleife von außen um Bewertung und Wettbewerb zu erzeugen, sondern die Bewertung in ihnen entsteht aus sich selbst. Man braucht nicht unbedingt eine starke externe Bewertung wie in der Evolution um Wettbewerb zu erzeugen, und das ist der Schlüssel zu unüberwachtem Lernen, das das dominante Lernen im Gehirn ist, und der große Mangel des Deep Learning, das eine enorme Menge von Beispielen braucht (übrigens ist auch in der Evolution der Hauptwettbewerb um den Partner, das heißt um die kleinen Feedback-Schleifen, die intern zur Art sind, und nicht gegenüber der großen Auslöschung). So sehen wir dass gerade in Netzwerken in denen es keine klare externe Bewertung gibt, zum Beispiel in Facebook, am Aktienmarkt, und in Dating, und in Artikeln, trotzdem heftiger Wettbewerb möglich ist. In solchen Netzwerken bekommst du eine Zahl, wie Preis oder Likes oder h-index oder pagerank und Google-Ranking, und die Anleitung auf dich. Diese Zahl gibt dir keine Anleitung irgendwelcher Art, sondern nur eine Bewertung, und du musst sie interpretieren und von ihr verstehen in welche Richtung du dich ändern sollst. Und das im Gegensatz zum Gradienten der dich im Deep Learning anleitet, der eine Richtung ist die dir von oben gegeben wird. Und vielleicht kann man behaupten dass der polynomielle Bereich das ist worin es lernbare Anleitung gibt, während NP die Klasse der Probleme ohne Anleitung ist, und nicht ableitbar, sondern chaotisch und nicht lokal. Daher muss man von NP lernen dass Bewertung nicht ausreicht zum Lernen. Nur Anleitung. Denn NP ist genau diese riesige Feedback-Schleife, von außen, die sich als nichts gebend für das Lernen drinnen herausstellt, das uns zur Lösung führen wird. Man kann aus solch einer Bewertung keine Anleitung ableiten. Ist das Polynomielle das abwechselnd Lamarcksche, das heißt zerlegbar in lokale Optimierung, das heißt ist es Aufbau+Anleitung? Im Gehirn weiß man noch nicht wie das Lernen funktioniert, aber in der Evolution schon, und wir sehen dass auch in ihr es eine Schlüsseleigenschaft gibt: eine unabhängige Bewertungsfunktion, weswegen es zwei Geschlechter gibt. Das heißt sogar wenn es eine starke externe Bewertung von Leben und Tod gibt, damit Lernen funktioniert braucht man im System auch eine unabhängige interne Bewertung, von Geschlecht. Die große Feedback-Schleife muss in kleinere und engere Feedback-Schleifen zerlegt sein, die nicht nur eine Ableitung, im doppelten Sinne, von ihr sind. Auch in einem kulturellen/politischen/Unternehmens/Wirtschafts-Netzwerk gibt es unabhängige Bewertungsfunktionen. Das heißt: es gibt Teile deren ganze Funktion das ist. Und dann gibt es Wettbewerb darum, das heißt es gibt Verdopplung und Redundanz und Vielfalt und Verschiedenheit und Vergleich zwischen Alternativen (sonst wozu existiert die psychische Redundanz in allen lernenden Systemen? Warum gibt es so viele Neuronen im Gehirn und Gene im Genom und Organismen in der Art - und Menschen im Staat). Wenn ja, wie funktioniert die interne Bewertung? Wie wird sie selbst bewertet? Nun, es gibt einfach unabhängige Bewertungseinheiten innerhalb des Systems, die unabhängig anleiten, und nicht nur eine große umfassende Feedback-Schleife. Im Großen ist das allgemeine Feedback an das System selten und teuer, und daher stützt man sich auf sekundäre Bewertungsfunktionen. Und lernt einfach auch die Bewertungsfunktionen. Und was passiert in NP? Die sekundären Bewertungen gelingen nicht. Tatsächlich ist die ganze Idee des Verstärkungslernens von außerhalb des Systems als etwas das das Lernen des Systems erzeugt (zum Beispiel der Behaviorismus) ein Wahrnehmungsfehler, dessen Ursprung in einem simplistischen philosophischen Bild des Lernens liegt. Wir haben nie endgültiges Feedback, die ganze Rechnung ist noch nicht fertig.


Philosophie der neuronalen Netze

Wie helfen noch die unabhängigen Bewertungen, innerhalb des Systems, im Gegensatz zur externen Bewertung, die von außerhalb des Systems kommt um es zu lehren? Weil man auch das was man vorher gelernt hat vor neuem Lernen schützen muss das es löscht. Und die interne Bewertung schützt das Lernen das sie führte davor von externen alles wegspülenden Anleitungen weggewaschen und abgeschliffen zu werden (wie in der Rückwärtspropagierung). So kann man bewirken dass das neue Feedback nur zu etwas Neuem kommt, und in seine Richtung kanalisiert wird, und nicht in die Richtung alles Alten, und hinzufügt - und nicht löscht. Was die Erhaltung des Gedächtnisses ermöglicht ist gerade dass es kein Lernen nach hinten gibt. Zum Beispiel dass es nicht lamarckisch ist, sondern Lernen von DNA, das heißt digital und nicht nur analog kontinuierlich (das alles abgeschliffen wird mit Hilfe von Ableitung und Konvergenz in der Optimierung). Und das ermöglicht auch die Kombination. Wenn die Bewertungen unabhängig sind, geht das Lernen nur eine Schicht nach hinten jedes Mal. Dort geschieht die Magie, zum Beispiel der Komplexität, einfach mit Hilfe noch einer Schicht. Auch in der Evolution - es ist immer eine Generation. Die Rückwärtspropagierung (Backpropagation) ist die Wurzel des Übels, die das ganze Gebiet des Deep Learning zu Brute Force gemacht hat, Black Box und daher zu Engineering und nicht zu Wissenschaft. Alle problematischen Phänomene stammen von ihr. Und es existiert kein einziges natürliches System das so lernt. Das Catastrophic Forgetting (das Phänomen wobei ein tiefes Netzwerk vergisst was es gelernt hat wenn man ihm jetzt Beispiele einer anderen Art gibt) und die Unfähigkeit Bausteine gut zu verbinden im Deep Learning wären vermieden worden wenn wir ein Modell wie das hier am Anfang vorgestellte gewählt hätten, von Lehrer und von Aufbau. Das katastrophale Vergessen ist eigentlich weil es überhaupt kein Gedächtnis gibt, sondern nur Aktion oder Lernen. Daher braucht man ein Gedächtnis das resistent gegen Lernen ist, das heißt: Fälle in denen das Netzwerk entscheidet dass es etwas Nützliches gelernt hat, oder einen bestimmten Begriff, und bewahrt ihn getrennt von der weiteren Änderung (oder verlangsamt sehr stark bezüglich ihm die Änderungsfähigkeit). Daher braucht man einen Weg zu stärken was man gemacht hat und nicht nur es nicht zu ändern, sondern dass es einen Vertrauensparameter für jeden Parameter gibt, der sich jedes Mal stärkt wenn man Erfolg hatte (das heißt wenn es fast keine Änderungsableitung für die Parameteranleitung gibt, was auch eine wertvolle Information ist, die heute mehr oder weniger verloren geht, auch wenn sie teilweise in Optimierungsalgorithmen von Gradient Descent beeinflusst, zum Beispiel im Momentum). Sich zu erinnern ist die Fähigkeit nicht zu lernen. Um irgendetwas zu lernen das andauert braucht man die Fähigkeit nicht zu lernen, und nicht von jeder neuen Information beeinflusst zu werden wie eine Wetterfahne der Anleitungen. Jede Änderung im Rückwärtspropagierungsmechanismus ist viel grundsätzlicher als andere Änderungen im Deep Learning, weil das die Methode ist, der Lernmechanismus. Und dort kann man sie korrigieren. Und die Aufgabe der Philosophie ist diese konzeptuelle Tiefenanalyse zu analysieren (was sie heute fast nicht tut, und daher bezahlt niemand Philosophen, trotz des enormen Wertes den sie liefern können).


Die Philosophie des Deep Learning: Zusammenfassung

Daher braucht man ein Modell in dem alles was nach unten geht (die Bewertungen) in einem Netzwerk von tiefer Bewertung verbunden ist, und jede Schicht darin hat Ausgänge und Eingänge zu dem was im regulären tiefen Netzwerk geschieht, das heißt zur parallelen Schicht im berechnenden Netzwerk, das nach oben steigt. Der Eingang zum Bewertungsnetzwerk vom berechnenden Netzwerk ist der Output einer Schicht des berechnenden Netzwerks, der zum Bewertungsnetzwerk übertragen wird - zu ihrer Bewertung. Und der Ausgang vom bewertenden Netzwerk zum berechnenden Netzwerk ist ihr Bewertungsoutput - der eine Anleitung ist. Ja, das ist völlig symmetrisch von beiden Richtungen. Und daher viel allgemeiner. Ein Netzwerk das nach oben steigt und ihm gegenüber ein völlig paralleles Netzwerk das nach unten steigt. Und im speziellen Fall dass beide genau dieselbe Struktur haben, dann hat eigentlich jedes Neuron doppelte Gewichte, nach unten und nach oben, zu ihrer Aktualisierung. Das heißt man kann darüber als ein Netzwerk denken (mit doppelter Aktion), aber vielleicht ist es besser dem bewertenden Netzwerk Unabhängigkeit in der Architektur zu geben, das heißt zwei Netzwerke die Kontrolle eines über das andere ausüben. Und was sagt all das zu NP? Die Definition des Lernens hier ist als Zerlegung in Schichten von Bewerter und Bewerteten, Lehrer und Schüler. Und die Frage ist ob es solch eine Zerlegung gibt, oder nicht, für ein Problem, wo jeder polynomielle Algorithmus solch eine Zerlegung ist. Das heißt, das ist eine andere Definition für Lernen als die die wir in der Philosophie der Informatik sahen, und möglicherweise ist sie geeigneter für die Behandlung des Grundproblems dieser Wissenschaften. Und ich, ich bin schon über die Phase in meinem Leben hinaus in der ich fähig bin diese Gedanken zu nehmen und sie formal zu machen - aber vielleicht wirst du fähig sein.
Kultur und Literatur