Programme pour l'avancement des sciences de l'apprentissage : apprentissage computationnel, apprentissage automatique et neurosciences

Lettre sur la philosophie des sciences de l'information, vers leur transformation en sciences de l'apprentissage : philosophie des mathématiques, philosophie de l'informatique, philosophie de l'apprentissage computationnel et philosophie des neurosciences

Par : Un mathématicien (que je ne serai plus)

Lettre à une étudiante : Le code et le sacrifice - Tout est lié (à l'apprentissage) (source)

Philosophie de l'apprentissage des mathématiques

Tu penses que la philosophie des mathématiques n'est pas intéressante, mais c'est vraiment la chose la plus intéressante qui soit. Il aurait fallu prendre l'apprentissage comme fondement des mathématiques. Non pas l'écriture des preuves - mais l'apprentissage des preuves, car la construction mathématique n'est pas, dans son essence, une construction logique (ce n'est que sa surface linguistique), mais une construction d'apprentissage. Le problème central des neurosciences est de penser le cerveau comme un agent unique, au lieu de comprendre qu'il y a compétition dans le cerveau - entre les pensées, entre les modules (par exemple pour l'attention et les décisions), entre différentes mémoires, entre neurones, et entre différentes continuations de cette phrase (et cette compétition est parallèle à la compétition économique ou politique, qui construit des systèmes qui apprennent, comme la démocratie ou le capitalisme ou la méritocratie chinoise, et c'est la racine de leur victoire). Ainsi, le problème central des mathématiques est qu'elles ne conceptualisent pas en leur sein leurs multiples agents, les mathématiciens, qui les apprennent, et ne conceptualisent pas du tout l'apprentissage qui sous-tend les mathématiques (comme autrefois elles ne conceptualisaient pas la logique sous-jacente aux mathématiques, puis Frege a fait de la logique l'infrastructure des mathématiques, ainsi sous la logique - ce qui l'active, et qui deviendra plus tard l'infrastructure des mathématiques - c'est l'apprentissage mathématique). Plus encore - l'apprentissage doit être l'outil pour définir les concepts fondamentaux en mathématiques, sur lesquels tout est construit : limite, groupe, topologie, espace, preuve, ensemble, nombres premiers, probabilité, fonction, continuité, etc. Ainsi il faut faire aux mathématiques une reconstruction par l'apprentissage, une axiomatisation et une réinterprétation (comme une interprétation possible par l'apprentissage de la théorie quantique, parmi ses autres interprétations). La propriété de composition et de construction des mathématiques - et particulièrement de l'algèbre - trouve son origine dans l'apprentissage, et doit être fondée sur lui. Supposons que tu aies déjà appris comment faire a, b, comme boîte noire. Qu'est-ce que cela signifie, d'avoir cette fonction ? Que signifie savoir, par exemple une preuve ? Comment apprends-tu grâce à cela à atteindre c ? Viendra un stade où tu ne pourras plus simplement dire j'ai une fonction, mais contrairement à l'intuitionnisme de Brouwer ou à la construction axiomatique-computationnelle du formalisme, la construction que tu devras fournir est celle de l'apprentissage : comment as-tu appris la fonction. Et même si la fonction existe déjà en toi (disons dans la neurologie de ton cerveau), comme boîte noire, la connaître ne signifie pas l'utiliser, c'est-à-dire que savoir n'est pas la capacité à donner sa réponse aux entrées, mais la signification de savoir est la capacité d'apprendre à travers elle, c'est-à-dire de composer à partir de cette boîte noire (que tu ne comprends pas) des continuations d'apprentissage appropriées. Comme la connaissance d'une preuve n'est pas la capacité à la citer et à aller des hypothèses aux conclusions (CQFD), mais la capacité à composer à partir d'elle d'autres preuves, c'est-à-dire de continuer à apprendre à travers elle. Et la compréhension d'une preuve n'est pas quelque chose que tu comprends en elle (par exemple à l'intérieur de sa séquence), mais une compréhension de comment construire à partir d'elle d'autres preuves (pas simplement "l'utiliser" dans le système existant, comme chez Wittgenstein, mais construire à partir d'elle la suite du système et développer le système, comme l'usage d'un poète de la langue, et non d'un locuteur, c'est-à-dire comme l'usage d'un programmeur de l'ordinateur, et non d'un "utilisateur"). Et ici nous remarquerons par exemple la similitude entre les réseaux de neurones et les algorithmes génétiques. Dans les neurones la construction est principalement connexion et combinaison de nombres (c'est-à-dire combinaison linéaire - la combinaison la plus simple - de fonctions, avec vraiment un minimum de non-linéarité nécessaire au-dessus), tandis que dans l'évolution la construction est connexion et combinaison de parties (en pratique, c'est une combinaison linguistique de deux phrases - deux génomes, de sorte qu'une partie des mots vient du premier et une partie du second. Et finalement après convergence - les phrases sont très similaires et il y a entre elles des variations légères, de sorte que la phrase a encore un sens. "Le jardinier cultive du grain dans le jardin" se couple avec "Le jardinier cultive du blé dans le jardin". Mais fondamentalement la construction dans l'algorithme génétique est simplement de connecter par permutation. Et leur fils est "Le jardinier cultive du grain dans le jardin"). Ainsi au-delà de la différence spécifique entre les deux mécanismes de composition et de construction, c'est-à-dire les connexions, dont l'une est une connexion quantitative de grandeurs et l'autre une connexion textuelle-linguistique, il y a une similitude profonde entre l'apprentissage neuronal et l'évolution : les générations sont des couches. Les composants d'apprentissage de base sont à la fois très nombreux à chaque étape, et s'empilent les uns sur les autres de manière profonde (c'est-à-dire très nombreuse), pour créer l'apprentissage. L'évolution est par nature un apprentissage profond, et on ne peut nier cette similitude naturelle. C'est-à-dire que nous voyons que dans la nature la construction est fondamentale pour l'apprentissage - même s'il peut exister dans le monde de l'apprentissage différentes techniques de construction (addition, multiplication, concaténation de chaînes, appel à un autre segment de code comme fonction, etc.) - et il en va de même dans la construction logique et mathématique. Car en logique aussi il y a d'innombrables couches de construction qui sont créées par combinaison (dans la construction il y a deux dimensions, car elle combine deux choses précédentes ou plus - dimension horizontale - pour créer quelque chose de nouveau à partir d'elles - dimension verticale. C'est-à-dire que la construction naît à la fois de la multiplicité vers le bas, et de la multiplicité des possibilités à côté de toi, comme des briques dans un mur). Et si nous revenons au projet de redéfinition des mathématiques au-dessus de l'apprentissage, nous verrons que ce programme (le programme d'apprentissage des fondements des mathématiques, sur le modèle du programme de Langlands) convient non seulement à l'algèbre constructive par nature, mais aussi à l'analyse. En effet, en algèbre la construction est fondamentale, et c'est précisément pour cela que les questions de construction fondamentales en elle gagneront à une perspective d'apprentissage. Car que sont par exemple les nombres premiers ? La collision entre deux méthodes de construction des nombres : l'une par addition - et l'autre par multiplication. C'est la source de l'énigme (Riemann comme parabole), et sa solution sera à l'aide d'une nouvelle conceptualisation : apprendre à les construire. Apprendre les nombres premiers - c'est la voie royale vers l'hypothèse de Riemann. Et ainsi on peut apprendre à construire un groupe. Ou apprendre un ensemble (ou un graphe, ou un jeu, ou une matrice). Et en analyse, que signifie une limite ? S'approcher à l'aide de mesures - signifie savoir. Et la topologie est une généralisation de la limite. La limite est un mécanisme d'apprentissage, et quand elle réussit, quand on peut apprendre (c'est-à-dire que plus on s'approche plus cela nous apprend vers quoi on s'approche), c'est continu. Et quand on ne peut pas apprendre - alors ce n'est pas continu. Et ce mécanisme d'apprentissage lui-même découle de la topologie du continu. C'est-à-dire qu'en topologie l'apprentissage est une généralisation plus abstraite et non la base de la définition de la limite, mais la limite est un exemple particulier de celle-ci. Quand on regarde le mécanisme d'apprentissage lui-même (du continu) et qu'on commence la définition à partir de lui - c'est la topologie (comme alternative à la définition à l'aide de filtres, ou d'ensembles ouverts/fermés, ou d'autres propositions contemporaines). Et en analyse, nous pourrons définir la dérivée à l'aide de l'idée de la méthode, ou la méthode comme généralisation de l'idée de la dérivée. C'est l'apprentissage de l'apprentissage.

Philosophie de l'apprentissage en informatique

De la même manière, un processus similaire de construction du domaine sur des fondements d'apprentissage peut être fait aussi en informatique (et ainsi enfin fonder sérieusement le domaine de la philosophie de l'informatique). Car qu'est-ce qu'un calcul : comment une fonction est-elle arrivée à cela ? (tu ne peux plus définir simplement mais cela doit être constructif - calculable). Si c'est ainsi, qu'est-ce que l'apprentissage : comment le calcul est-il arrivé à cela ? (tu dois expliquer comment tu as construit l'algorithme, c'est-à-dire comment tu l'as appris, comme avant tu devais expliquer comment tu as construit la fonction. C'est la constructivité de la constructivité). Si c'est ainsi, si on revient à la fonction, ce qu'il faut c'est : apprendre à calculer une fonction. Une preuve est en effet une construction. Et l'apprentissage est comment on construit. Construire la construction elle-même. De là que la prochaine étape algébrique sera l'addition et la multiplication dans l'apprentissage, qui constitueront une généralisation de l'addition et de la multiplication, et donc à l'aide de l'apprentissage nous pourrons définir l'addition et la multiplication d'algorithmes. Et ainsi il y aura une généralisation de la multiplication (appel en boucle, dans le cas polynomial) et de l'addition (exécution d'un algorithme après un algorithme), dans la construction par apprentissage. Et la récursion sera une généralisation de l'exponentiation. Et la condition est une sorte d'addition. Dans le monde du calcul de Turing, l'infini et l'asymptotique étaient l'analyse, et les opérations - l'algèbre. Et maintenant nous sommes face au problème que nous voulons additionner des infinis, c'est-à-dire des systèmes qui apprennent vers une limite, qui ressemble beaucoup historiquement au problème d'addition d'infinis qui existait à la racine du calcul infinitésimal. Car les composants d'apprentissage s'approchent toujours de l'optimum, et c'est la partie continue, de l'optimisation. Et d'autre part ils sont composés l'un avec/sur l'autre comme algébriquement, c'est la partie discrète, de la recherche et de la mutation, c'est-à-dire coûteuse en calcul. S'il n'y a pas de méthode pour faire cela de manière générale - il y a des combinaisons. C'est-à-dire que c'est une recherche par force brute. Et donc nous devons comprendre qu'en profondeur, l'exponentialité est en fait une expression de la force brute et de l'incapacité à comprendre et résoudre le problème, mais seulement à le formuler. Sa signification : ne pas savoir résoudre. C'est-à-dire : sous toutes les opérations algébriques de base que nous connaissons en mathématiques, comme l'addition et la multiplication et l'exponentiation, il y a quelque chose de plus profond, et computationnel, et même (dessous) d'apprentissage. Et il apparaît aujourd'hui extérieurement simplement comme fonction du temps d'exécution. L'exponentiation c'est en fait une recherche dans tout l'espace des possibilités. C'est un langage et non un apprentissage. Un langage est toutes les combinaisons possibles, et l'apprentissage est la convergence des possibilités, et donc permet une solution spécifique. Une phrase spécifique. Aucune phrase au monde n'a jamais été écrite par le langage - elles sont toutes écrites par l'apprentissage.

Philosophie de l'algorithmique

As-tu appris une fonction ou un algorithme ? Tu remarqueras que c'est similaire à la limite en analyse - où se trouve la fonction (qui est la limite). Et au lieu d'epsilon et delta, nous avons ici une interaction entre enseignant et élève. L'élève tend vers la limite (qui est son horizon), et l'enseignant se tient dans la position de la mesure dans la limite, par exemple demande à quel point tu es proche du résultat de la fonction en un point donné. C'est-à-dire que le côté de l'enseignant, le côté qui mesure le succès, qui juge ta convergence, est comme le critère dans NP. Et quel est le problème dans NP ? Que c'est exactement l'opposé d'une limite continue en analyse, car dans de tels problèmes une mesure partielle du succès n'aide pas du tout à atteindre l'objectif, et n'aide pas l'apprentissage, c'est-à-dire que tu ne peux pas réussir comme élève. Il n'y a pas de directions en chemin, qui permettent d'atteindre l'objectif. L'apprentissage c'est le processus de construction à partir des choses qu'on sait faire - quelque chose qu'on ne sait pas faire. Et tout cela face à une mesure d'évaluation. Et si l'évaluation est un critère interne, non externe, alors c'est le chemin - qui est la méthode. Mais s'il n'y a aucun critère interne quelconque mais seulement externe ? Alors tu es dans NP. Quand tu apprends un algorithme, est-il correct de définir cela comme apprentissage par exemple ou par démonstration, c'est-à-dire comme apprentissage quoi ou apprentissage comment ? Est-ce que tu reçois seulement les valeurs d'entrée et de sortie de la fonction que tu apprends dans un cas particulier, ou est-ce que tu reçois une construction constructive de la fonction dans un cas particulier d'entrée-sortie ? La réponse doit être les deux, car l'apprentissage est exactement la décomposition de la fonction comme construite à partir de fonctions précédentes, qui est l'essence de la démonstration, mais à chaque étape le choix de quelle combinaison faire dépend de l'exemple (une preuve est-elle un exemple ou une démonstration ?). Si c'est ainsi, NP sont les problèmes qu'il est facile d'examiner sur eux - et difficile d'apprendre (c'est-à-dire qu'on ne peut pas enseigner - être enseignant - dans leur cas). Et ainsi exactement aussi dans le problème des nombres premiers, la question est jusqu'à quel point tu ne peux pas les apprendre, combien ils sont imprévisibles (probabilité, qu'on peut aussi redéfinir à l'aide de l'apprentissage). C'est l'essence de l'hypothèse de Riemann (et donc elle devrait avoir un lien profond avec le problème de la factorisation des nombres premiers comme fonction à sens unique). Quel est l'apprentissage dans les nombres premiers ? À chaque nombre premier que tu as atteint sur la séquence des naturels, ce que tu sais déjà c'est construire à l'aide de la multiplication des nombres à partir de tous les premiers qui le précèdent. C'est-à-dire qu'il (le prochain premier) est quelque chose que tu n'as pas appris et dois apprendre, et la question profonde est combien ta capacité d'apprentissage est limitée en essence, si la construction par apprentissage est une construction d'un nombre à l'aide de la multiplication de nombres précédents. C'est-à-dire : dans les deux hypothèses les plus importantes en mathématiques il existe une formulation par l'apprentissage qui touche à leur essence - et aurait dû être la voie dans laquelle on va vers leur solution, si nous n'avions pas rencontré une pensée linguistique, c'est-à-dire un type très primitif et combinatoire de construction (tant des nombres naturels que des algorithmes). Dans les deux il faut prouver qu'un certain phénomène est difficile pour l'apprentissage - c'est-à-dire trouver ce qu'on ne peut pas apprendre. Dans l'histoire des mathématiques nous avons résolu des hypothèses de base que nous ne savions pas du tout comment aborder (l'existence de nombres irrationnels, la quadrature du cercle, l'équation quintique, le théorème de Gödel, etc.) toujours à l'aide d'une nouvelle construction de ce type, qui a réussi à capturer le phénomène - et après elle une preuve de ce qui ne peut pas être construit à travers elle. Remarquons que tous ceux-ci étaient des problèmes de ce qui ne peut pas être fait (dans l'école pythagoricienne l'existence d'un nombre irrationnel était l'impossibilité de le construire comme rapport à l'aide des naturels, bien que le problème soit formulé de manière positive), car les problèmes plus profonds en mathématiques sont toujours des problèmes d'impossibilité. Exactement parce que les mathématiques sont une construction - elles sont vouées à se tenir face à une impasse quand elles doivent montrer ce qui ne peut pas être construit (et moins ce qui peut - car celui-ci on peut simplement le construire). Et donc pour avancer dans les deux problèmes d'impossibilité principaux aujourd'hui, NP et Riemann, il faut construire une définition mathématique de l'apprentissage et de la construction qui en découle - et alors une preuve par l'absurde qu'une telle construction n'est pas possible car on ne peut pas apprendre cela (en d'autres termes : l'apprentissage peut et doit exprimer la structure mathématique qu'il apprend, et lui imposer des limites à cause de ce qu'on ne peut pas apprendre - qui sera dérivé de la théorie mathématique de l'apprentissage - et ainsi prouver les limites de ses possibilités). Et concernant le problème de NP contre P, remarquons qu'apprendre, au sens général, est nécessairement difficile, non efficace et non polynomial. Et en fait peut-être que ce qui suffit à prouver c'est qu'apprendre est un problème difficile, car il est facile de vérifier que nous avons appris correctement, conformément aux exemples. C'est en soi un problème NP. C'est-à-dire montrer que s'il y avait un algorithme d'apprentissage général efficace - alors il faut arriver à une contradiction (une telle réduction à l'absurde est que si on peut résoudre le problème de l'apprentissage, alors on peut tout résoudre facilement, car l'apprentissage peut d'abord apprendre l'algorithme de solution, et dans une telle situation on peut aussi apprendre à résoudre le problème de l'apprentissage lui-même, et ainsi jusqu'à ce qu'on arrive à un certain algorithme d'apprentissage minimal, mais celui-ci aussi est appris. De plus, dans une telle situation, il y a un exposant polynomial minimal pour l'algorithme dans P qui résout un problème NP, et alors il faut montrer qu'à cause des propriétés constructives de l'apprentissage, même un algorithme en dessous de lui, c'est-à-dire que le nouveau est construit à son aide et qu'il a un exposant polynomial plus bas, résout un problème NP. Alternativement, diviser l'information entre les briques dont est construite la solution, et descendre par induction ad absurdum, à l'aide d'une formulation de l'idée que la solution d'un problème NP dépend de toute l'information, et il n'y a pas en elle de diviser pour régner, au moins dans une construction par apprentissage. La polynomialité elle-même découle du fait que l'apprentissage est constructif, et les deux constructions de base sont l'addition d'algorithmes, et l'appel en boucle, c'est-à-dire addition et multiplication, et de là le polynôme dans P, c'est-à-dire l'explication pourquoi c'est exactement la définition d'efficacité et de facilité de solution). Remarquons que les choses fondamentales en mathématiques sont toujours d'une certaine manière un processus discret infini : les nombres premiers, la limite, le calcul, la logique... Et il en sera ainsi aussi dans l'apprentissage, et en fait, l'apprentissage est la raison de ce phénomène, car il est sous eux. Et dans tous les cas, de cette propriété commune, découle sa capacité à les traiter, et à percer vers un nouveau paradigme mathématique, qui est au-delà du langage (qui est le paradigme mathématique actuel). Et alors nous remarquerons combien le problème NP est en fait un problème d'apprentissage (qui a été conceptualisé par erreur à l'aide du langage, et donc est devenu tel qu'il n'y a pas de langage qui lui convient, ou capable même de commencer à saisir sa solution), et alors nous ne comprendrons pas pourquoi nous n'avons pas compris qu'une conceptualisation à l'aide de l'apprentissage est la direction naturelle de sa solution. Car à l'aide de la vision par l'apprentissage, nous voyons même la similitude de NP avec l'évolution, où l'apprentissage est le mécanisme (accouplement et mutation) qui lutte face à l'examinateur de survie et d'aptitude, quand il est très difficile de construire un être vivant et d'innover en lui, et très facile de vérifier s'il survit ou non. La biologie se trouve toujours en position d'apprentissage difficile face à la nature cruelle, à qui il est facile de juger ses efforts. Et ici, sur le chemin vers l'apprentissage, nous voyons que la beauté joue un rôle dans la direction, pour que la biologie puisse deviner à travers des raccourcis qui est plus apte et qui moins. Et ainsi aussi en mathématiques. Un critère difficile de preuve va de pair avec un critère souple de beauté, qui permet aux mathématiciens de faire des mathématiques et d'avancer dans l'apprentissage mathématique, bien que ce soit un problème difficile en principe. Et notre pensée aussi dépend de mouvements beaux. Et ainsi nous jugeons même la philosophie.

Philosophie de la théorie de la complexité

Comment se fait l'évaluation : est-ce que dans la définition de l'apprentissage il y a beaucoup de couches d'évaluation ou juste une à la fin, comme dans NP, où il n'est pas possible de décomposer en couches d'évaluation ? Eh bien, les deux exemples naturels d'apprentissage aident à comprendre ce qu'est l'apprentissage - le cerveau et l'évolution - et en eux il y a d'innombrables couches d'évaluation, et en fait dans chaque couche (ou génération) il y a une évaluation de la précédente (c'est pourquoi les femmes sont la couche cachée - du réseau - dans l'évolution, c'est-à-dire qu'elles sont ce qui transforme chaque génération en réseau profond, comme une couche d'évaluation interne entre l'entrée et la sortie, c'est-à-dire les enfants). Ainsi, de la même manière, la limite et les naturels nous aident à comprendre ce qu'est le concept généralisé d'apprentissage en mathématiques, dans le domaine continu et dans le domaine discret (et l'apprentissage du cerveau est continu, tandis que l'apprentissage de l'évolution est discret). Mais au-delà de cette abstraction elle-même, qui reflète un contenu profond commun à toutes les parties des mathématiques (l'apprentissage comme contenu des mathématiques), on peut aussi chercher l'apprentissage comme forme des mathématiques. Qu'y a-t-il sous les mathématiques elles-mêmes : comment apprend-on les mathématiques. Par exemple : définir un mathématicien. Aujourd'hui, il est admis qu'un algorithme d'apprentissage doit être polynomial. Mais la restriction sur la polynomialité pour l'algorithme apprenant n'est pas correcte dans le cas général (mathématicien). C'est pourquoi nous, en tant qu'humains, en tant que cerveaux, faisons beaucoup de choses pour lesquelles nous avons un algorithme efficace, mais nous n'avons pas d'apprentissage général efficace, et il ne peut pas y en avoir. En général, l'apprentissage n'est efficace que lorsqu'il est très limité par l'utilisation de choses que nous avons apprises auparavant. Et donc nous avons l'illusion que l'apprentissage est un processus efficace, car la plupart de notre apprentissage est tel, mais ce qui caractérise un tel apprentissage spécial est qu'il est l'apprentissage de la connaissance. Et donc la plupart de l'apprentissage dans notre monde est l'apprentissage de la connaissance, car l'apprentissage d'une nouvelle action et d'un nouvel algorithme est toujours inefficace. Si c'est ainsi, qu'est-ce que la connaissance ? Quand il y a un algorithme d'apprentissage efficace. C'est sa définition. Notons que presque tout ce que nous apprenons ce sont des choses que d'autres savent faire, c'est-à-dire que nous utilisons des fonctions prêtes, et construisons à partir d'elles, et il est possible de décomposer notre apprentissage en fonctions prêtes. Par conséquent, dans la décomposition de l'apprentissage en construction des couches qui l'ont créé, il faut penser à la structure même de l'espace de toutes les décompositions possibles d'un problème en sous-problèmes. Mais, toute définition d'apprentissage d'un enseignant doit surmonter le problème "à l'intérieur du système", c'est-à-dire que l'aide ne soit pas une programmation de l'élève de l'extérieur et une tricherie et une collusion entre eux, mais si la décomposition est une décomposition maximale, c'est-à-dire en morceaux trop petits, alors c'est vraiment comme de la programmation. Est-il possible de caractériser la décomposition idéale, comme se trouvant au milieu entre une décomposition absolue en miettes équivalente à la programmation (décomposition maximale) et le problème NP (décomposition minimale, où il n'y a qu'un examinateur à la fin et pas d'évaluations au milieu) ? S'il n'y a pas d'enseignant, il y a développement - comme dans l'évolution qui construit sur des algorithmes précédents et comme en mathématiques qui construit sur des preuves précédentes, et alors la division du problème en sous-problèmes est naturelle, car il n'y a personne qui la divise. La décomposition maximale est l'algorithme, comme code écrit, et la minimale est le problème lui-même, l'exposant - et au milieu l'apprentissage est ce qui les relie. C'est-à-dire que ce passage du problème à l'algorithme est lui-même le processus d'apprentissage. C'est-à-dire : l'ajout de plus en plus de divisions (quand c'est de haut en bas, du point de vue de l'enseignant) ou de plus en plus de connexions de construction (quand c'est de bas en haut, du point de vue de l'élève), et quand il n'y a qu'un élève et pas d'enseignant c'est le développement, qui est naturel. Une solution polynomiale signifie qu'on peut la décomposer en sous-problèmes plus simples, c'est-à-dire apprendre. Et donc ce qui peut être appris caractérise le polynomial, et donc l'apprentissage est la construction qui correspond à la compréhension des limites du polynomial (c'est-à-dire ce qui le sépare de NP). Car l'apprentissage est la construction du polynomial à partir du linéaire, c'est-à-dire du minimum qui permet simplement de lire toute l'entrée, et donc les polynomiaux sont un groupe naturel. Et donc nous devons chercher une décomposition minimale qui soit apprenante, par exemple une décomposition minimale en sous-problèmes linéaires, car la décomposition maximale n'est pas intéressante, car elle est identique à l'écriture du code (et linéaire n'est bien sûr qu'un exemple parmi les briques d'apprentissage les plus basiques, dans le domaine algorithmique. Et par exemple, dans la branche de la théorie des nombres, cela peut être la décomposition en facteurs dans un produit. Ou toute autre fonction bornée, qui définit d'autres problèmes en mathématiques). Donc, dans notre définition de l'apprentissage, nous pourrons supposer le choix idéal des exemples (pour l'apprentissage, par l'enseignant), comme nous supposons la décomposition minimale. Ce qui apprend - et aussi ce qui enseigne - ne doit pas être limité computationnellement, mais il est limité constructivement. Et notons aussi que toute cette structure de construction au moyen de fonctions précédentes ressemble beaucoup plus à la pensée humaine (par exemple de la logique et du langage et du calcul et de la perception). Nous ne savons pas comment nous faisons les choses que nous savons faire, mais nous savons faire a-v-e-c elles des choses. Apprendre à travers elles. Mais nous ne savons pas comment nous avons appris, c'est une boîte noire. Et toutes les fonctions à partir desquelles nous avons construit dans notre apprentissage peuvent être pour nous des boîtes noires. C'est-à-dire : il y a ici deux parties dans l'apprentissage. Une partie qui définit et caractérise la structure que l'on veut apprendre - ou la décomposition que l'on veut faire du problème - qui est les contraintes sur les fonctions : quelles sont les fonctions de base et quelles sont leurs combinaisons autorisées. Et il y a ici une autre partie, qui demande quelle information construit cette construction précisément parmi toutes les possibilités - ce sont les exemples. Pour éviter la collusion entre l'enseignant et l'élève, faut-il que la construction se fasse avec un algorithme d'apprentissage spécifique, et non avec n'importe quel algorithme possible de l'apprenant (pour qu'il ne soit pas possible de coder la solution dans les exemples) ? On peut choisir un tel algorithme universel (non efficace), à l'aide du rasoir d'Occam, comme la combinaison minimale en longueur qui correspond aux exemples, ou peut-être un autre algorithme de recherche naïf. Et alors se crée pour toi un arbre de décomposition du problème (la fonction apprise) en sous-problèmes (qui sont des sous-fonctions), avec les nombres d'exemples nécessaires pour créer la bonne combinaison (la bonne construction) de sous-fonctions à chaque bifurcation de branches (le nombre de branches est comme le nombre de sous-fonctions qui construisent la branche au-dessus d'elles). Et alors il y a peut-être un compromis entre la dimension de la décomposition (comme la décomposition en sous-problèmes détaillée) et le nombre d'exemples. Et alors l'arbre peut croître à l'infini dans un problème NP, ou quand les sous-briques à partir desquelles on construit ne font qu'approcher la solution (comme dans les nombres premiers, qui ne font qu'approcher les grands nombres premiers, car ils ne suffisent pas à couvrir tous les naturels, car il y a une infinité de nombres premiers, et alors on peut évaluer à quel point l'approximation est complète et bonne par rapport au nombre de nombres premiers - et c'est la question de Riemann). Et alors grâce à cela on peut exprimer des problèmes d'impossibilité de construction. Si tu exiges un minimum d'effort de l'enseignant, et un minimum d'exemples, alors si tu as déjà des choses que tu as apprises, tu exiges le minimum des meilleurs exemples pour apprendre la chose suivante. Et cela en soi réduit la complexité de la chose suivante dans le processus d'apprentissage, car par exemple il vaut mieux enseigner une règle, et puis dans un apprentissage supplémentaire l'exception. Donc si nous avons l'élève parfait et l'enseignant parfait, nous demanderons à quoi ressemble l'apprentissage parfait. Par exemple, comment l'enseignant indique-t-il qu'il s'agit d'un exemple qui est l'exception ? (pour qu'il y ait une règle en général, et pas seulement un exemple d'une règle et un exemple opposé - s'ils sont donnés en même temps, c'est-à-dire sans décomposition séquentielle - ce qui peut en général décomposer la règle, car comment sauras-tu lequel parmi les exemples est la règle et lequel est l'exception) ? Eh bien, il ne le fait pas. Il enseigne simplement d'abord la règle. Et puis après cela, dans la couche de construction suivante, après que la règle a été apprise, il enseigne l'exception. Et alors la chose la plus courte que peut faire l'apprenant, en supposant qu'il a déjà une fonction qui est la règle, qu'il a déjà apprise, est simplement de lui ajouter une exception (dans certains cas). Et ainsi la décomposition peut économiser dans le nombre d'exemples. Et l'information dans la décomposition peut permettre l'apprentissage avec moins d'information, dans certains cas, que ce qu'il y a même dans ce qu'on enseigne (car l'information dans la décomposition elle-même, que donne l'enseignant dans l'ordre même de la matière d'étude, n'est pas comptée). C'est un structuralisme d'apprentissage.

Philosophie de l'apprentissage computationnel

Si donc, tu as une liste de fonctions/algorithmes/oracles et tu as une fonction qui est une combinaison limitée d'eux, et tu les apprends à partir d'exemples qui sont choisis comme les meilleurs, quand tu n'as pas de limitations computationnelles. Et pas non plus sur l'enseignant. Et la question est quel est le minimum d'exemples qui est possible avec une décomposition du problème en sous-fonctions/algorithmes, quand tu apprends selon le rasoir d'Occam (par exemple selon la complexité de l'algorithme, sa longueur, ou un autre critère de simplicité). Si la décomposition vient gratuitement alors on regarde le nombre total d'exemples, et alors la décomposition est maximale, c'est-à-dire que l'apprentissage est le plus graduel possible. Alternativement, on peut justement regarder le rapport entre les exemples et la décomposition (entre le nombre d'exemples nécessaires et le nombre de sous-problèmes dans la décomposition donnée), qui est bien sûr un rapport inverse. Ou examiner différentes topologies d'arbres de décompositions différentes du même problème (de combien de façons peut-on décomposer le même problème, qui sont fondamentalement différentes ?). Notre but est de construire l'arbre d'apprentissage d'une manière qui décompose le problème en problèmes de façon non triviale. Car si nous regardons la décomposition minimale, quand la décomposition est chère et les exemples gratuits, alors nous obtiendrons une décomposition triviale, c'est-à-dire qu'il n'y a pas de décomposition, et nous sommes revenus au problème original, où il n'y a qu'un test et des exemples, qui ressemble à NP. Donc, on peut aussi regarder toutes ces décompositions possibles, peut-être une infinité de telles dans certaines fonctions, et voir comment elles-mêmes se déduisent l'une de l'autre, et quelles sont les propriétés de telles forêts d'arbres. Et alors trouver une forme canonique de décomposition, qui est peut-être dans un certain rapport entre la quantité de décompositions et le nombre d'exemples. En fin de compte ce ne sont pas les exemples qui sont intéressants ou leur nombre, mais les structures d'arbre - quelle est la décomposition d'un algorithme en sous-algorithmes. Ou d'un problème en sous-problèmes. Ou décomposition d'un théorème en toutes les preuves possibles (et on peut aussi penser aux mathématiques elles-mêmes comme un graphe de preuves, qu'on peut étudier comme un graphe, et trouver peut-être des liens entre la structure de ce graphe et des structures mathématiques). Et si la décomposition que l'enseignant donne décompose suffisamment en détail en petits sous-problèmes, alors peut-être qu'il y a un algorithme efficace pour l'apprentissage (c'est-à-dire pour trouver des combinaisons de construction selon les exemples), et peut-être même qu'une simple recherche naïve est efficace, car ce qui est vraiment difficile à trouver c'est la décomposition. Mais si la décomposition découle du nombre minimal d'exemples (c'est-à-dire que le nombre minimal d'exemples ne nécessite pas forcément une décomposition maximale) alors cela lui donne de la puissance (dans les deux sens du terme). Et de là on peut commencer à penser à toutes sortes de différentes fonctions de combinaison de sous-fonctions, qui créent différents problèmes de construction, quand on limite ce qui est permis dans la construction. Par exemple : uniquement une combinaison linéaire de fonctions qui donnera l'exemple que l'enseignant a donné, ou un système de preuve qui prouvera comme l'exemple de preuve, ou apprendre un groupe, qui est aussi une fonction simple (addition), et on peut l'apprendre avec moins d'exemples que toutes les combinaisons de ses éléments si on le décompose en sous-problèmes, et peut-être même qu'il y aura dans les exemples moins d'information que ce qu'il y a en lui (car comme dit l'information dans la décomposition elle-même, que donne l'enseignant dans l'ordre même de la matière d'étude, n'est pas comptée). Et alors nous pourrons demander combien d'information exemplaire il y a dans un groupe, ou dans toute autre structure mathématique, et cela peut être la définition de l'information d'apprentissage (par opposition à linguistique). Car la généralisation à partir d'exemples n'est pas justifiée, sauf sur la base de ce qui existe déjà (les fonctions que tu as déjà apprises, c'est-à-dire qui t'ont été présentées en premier par l'enseignant dans la décomposition du problème en sous-problèmes, qui sont les fonctions plus simples, à partir desquelles tu apprends quelque chose de plus compliqué, comme dans l'apprentissage d'un bébé ou dans le développement de l'évolution - et c'est une propriété fondamentale de l'apprentissage). C'est-à-dire qu'il y a une sorte d'indice d'utiliser ce que tu as déjà appris. Ce que tu sais déjà c'est ton a priori. Et dans une fonction continue c'est extrême (car il t'est interdit de la compliquer inutilement, sinon tu n'apprendras même pas des fonctions simples jamais, et tu es obligé à la simplicité d'abord, à cause du rasoir d'Occam). Donc il faut la combinaison minimale de ce que tu sais - qui produit le nouvel exemple que l'enseignant a donné. Et si tu es obligé à la simplicité c'est résistant à la triche. Car s'il y a collusion (par exemple si l'enseignant code les poids requis de l'élève dans l'exemple), alors cela ne satisfait pas la condition du rasoir d'Occam. L'algorithme est rejeté car il ne donne pas le plus simple. L'élève ne peut pas choisir une composition arbitraire mais la plus simple et minimale. Il y a un critère interne de simplicité, qui remplit le côté évaluateur, féminin (les couches intermédiaires de l'évaluation), et il y a aussi une fonction de composition (qui est différente dans chaque apprentissage d'une structure mathématique d'un certain type. Par exemple : apprentissage de graphes, apprentissage de groupes, apprentissage de fonctions continues - qu'on peut construire à l'aide d'approximations polynomiales ou alternativement en transformée de Fourier etc., apprentissage d'algorithmes, apprentissage de preuves, apprentissage de jeux, apprentissage de topologies, apprentissage de langages, etc.). Et l'information qu'on économise apparemment, car elle n'est pas comptée - elle est structurelle. C'est-à-dire : telle qui découle de la division structurelle (la décomposition), et donc s'il n'y a pas du tout de structure dans ce qu'on apprend mais seulement du bruit alors l'apprentissage devra être le transfert de toute l'information. C'est-à-dire que ce n'est pas un apprentissage mais un transfert d'information linguistique.

Philosophie de l'apprentissage machine

La question fondamentale ici, qui s'est répétée tout au long de l'histoire des mathématiques, est : comment une fonction est-elle créée ? Peut-être qu'elle est créée physiquement dans la nature (ontologie), peut-être qu'elle est créée géométriquement (vision), peut-être qu'elle est perçue (raison), peut-être qu'elle est définie (logique), peut-être qu'elle est calculée, et peut-être qu'elle est apprise. C'est-à-dire : construite à partir de sous-fonctions. Et de là, des parties de la définition de fonction, sortent tous les domaines principaux de recherche d'apprentissage actuels en apprentissage informatique. Quand il n'y a pas dans l'apprentissage l'origine de la fonction (son domaine, dans le jargon mathématique) c'est l'apprentissage par renforcement (et alors la simplicité cherche l'origine la plus simple qui créera la fonction la plus simple), et quand il n'y a pas l'image de la fonction c'est l'apprentissage non supervisé (et alors la simplicité cherche l'image la plus simple qui créera la fonction la plus simple). Et quand la simplicité de la fonction est considérée non seulement à partir de la construction des sous-fonctions (combien elle est complexe) mais aussi à partir de sa construction à partir des exemples eux-mêmes alors c'est l'apprentissage statistique (la taille de la distance d'eux fait partie du calcul de la simplicité). La définition de l'apprentissage a pour but l'analyse de l'objet mathématique appris - et la découverte de sa structure interne. Son but est de le construire - à l'aide d'une hiérarchie (décomposition en sous-problèmes) et à l'aide d'exemples. C'est-à-dire : à l'aide de deux types d'information structurelle, qui permettent une combinaison entre deux structures : de haut en bas (verticale), et du côté (horizontale) - différents exemples sont différentes possibilités de composition parallèles, à chaque étage, à partir de l'étage du dessous. Et donc tout en mathématiques se déplace entre manque de structure et excès de structure. Trop de degrés de liberté et trop peu. Et donc ses limites sont l'aléatoire et la complexité extrême jusqu'à l'impossibilité de dire quelque chose de significatif d'un côté, et de l'autre côté une structure trop simple et banale et manquant d'information et de richesse. Donc il faut toujours trouver en elle la limite fractale - là est la beauté. Et là aussi l'intérêt mathématique, car là se trouve le plus d'information d'apprentissage, contrairement à l'information aléatoire et hermétique (dans le sens qu'on ne peut pas déchiffrer), ou l'information banale et hermétique (dans le sens qu'il n'y a rien à déchiffrer, car c'est hermétiquement fermé). Et pourquoi sont-ce des propriétés fondamentales des mathématiques ? Car tout est appris, et l'apprentissage est la racine de la structuralité, et aussi la racine de la complexité de la structuralité, car ce n'est jamais une structuralité unidimensionnelle, mais bidimensionnelle (ce qui en fait une construction), comme celle que nous avons dans les nombres (addition et multiplication). Et notons que la simplicité dans l'apprentissage défini ci-dessus est en ligne, et non face à l'ensemble comme dans le simple rasoir d'Occam (MDL, Solomonoff, ou en complexité de Kolmogorov). C'est-à-dire : nous cherchons l'hypothèse la plus simple après le premier exemple, et alors disons que nous la prenons (cette hypothèse) comme une autre fonction prête en dessous, et nous lui ajoutons l'exemple suivant, et alors nous cherchons l'hypothèse la meilleure et la plus simple, en tenant compte de l'hypothèse précédente comme n'ayant pas de coût, c'est-à-dire comme simple. C'est-à-dire : la fonction déjà apprise dans la première étape n'est plus comptée dans la complexité et le calcul de la simplicité. Et peut-être même qu'une définition universelle et simpliste de la fonction de simplicité sera possible - simplement comme le nombre de compositions. C'est-à-dire la simplicité uniquement comme produit de l'idée de composition, et non comme mesure et évaluation indépendante.

Philosophie des mathématiques : résumé

À l'aide de tout cela, nous pourrons caractériser à nouveau à l'aide de l'apprentissage la différence entre fini et infini comme la différence entre appris et non appris, qui crée une coupure plus précise entre ces deux catégories. Une structure algébrique, finie, est toujours apprise en fin de compte. Tandis qu'une catégorie de structure infinie, continue, ne peut être apprise entièrement qu'à la limite, c'est-à-dire qu'elle n'est pas apprise de façon finie. L'infinité peut être horizontale vers le côté (dans la collection d'exemples à chaque étape), ou verticale vers le haut (dans la composition) ou vers le bas (dans la collection de fonctions de base à partir de laquelle on commence en général). Et dans une telle vision, la continuité et la simplicité sont liées. Tout est fini mais peut être approché. C'est-à-dire : la limite peut ne pas être calculée, mais apprise, réduire la distance. Et si on ajoute à la fonction de mesure de la simplicité une approximation (par rapport à la précision requise dans la discrétisation, où il est obligatoire de reproduire les exemples - et c'est en fait la définition de la discrétisation), alors l'idée de la dérivée est l'approximation linéaire de la fonction (c'est-à-dire si seule une construction linéaire est permise), et ainsi de suite (dans les dérivées d'ordre supérieur, qui sont des couches supérieures dans l'apprentissage, jusqu'à la série). Et la continuité est une dérivée d'ordre zéro - constante. C'est-à-dire, quelle est la simplicité en calcul infinitésimal ? Simplicité sur les exemples et non sur la combinaison (ou aussi sur la combinaison, comme en régression linéaire). Et l'intégrale est le problème inverse, le problème de l'enseignant : comment trouver une fonction qui fera que l'évaluation de l'élève - son approximation - ressemble à une certaine fonction. Et dans le monde discret, qui est contrôlé par les exemples exactement, nous trouvons des problèmes infinis dans ce qui ne peut pas être appris jusqu'au bout, comme les nombres premiers (quand la composition autorisée dans la construction est la multiplication). Et alors on peut par exemple demander à quel point l'arbre de composition des naturels est complexe, en moyenne (c'est-à-dire leur décomposition en nombres premiers, qui est apprise avec le moins d'exemples). Comprendre comment construire l'ensemble des naturels, quand la combinaison est la multiplication, signifie savoir quelle est la distribution de la quantité d'exemples dont l'enseignant a besoin, pour construire les naturels jusqu'à un certain nombre. C'est-à-dire, il y a une formulation d'apprentissage aux questions de base en mathématiques - qui leur permettra une solution d'apprentissage, dès que changera le paradigme du langage qui bloque le progrès dans ces questions, à cause d'un cadre conceptuel inadéquat. Et ainsi la philosophie peut aider les mathématiques - et l'apprentissage mathématique.

Philosophie de l'apprentissage informatique

L'étape suivante après la philosophie de l'informatique est la philosophie de l'apprentissage informatique. La situation de l'apprentissage profond aujourd'hui est comme la situation de l'ordinateur personnel avant Internet. Et l'avenir est un réseau Internet de réseaux d'apprentissage profond et de classificateurs d'apprentissage machine, qui sont connectés entre eux par protocole, et créent la capacité de les composer dans une construction d'apprentissage. C'est-à-dire : connecter toutes sortes de modules d'apprentissage profond, dont chacun se spécialise dans quelque chose, en un grand système, qui sait vraiment beaucoup de choses sur le monde, comme le cerveau, et qu'il n'y ait pas seulement des systèmes experts isolés qui ont été entraînés selon des données spécifiques. Un tel réseau de réseaux profonds sera une sorte de marché, où on paie un peu d'argent contre un peu de classification, ou toute autre capacité ou action, et se crée un énorme écosystème d'apprentissage artificiel. Et il sera l'introduction vers la grande intelligence - et d'elle grandira l'intelligence artificielle, et non d'aucun système spécifique - elle ne se déterminera pas un jour à partir d'un réseau dans un laboratoire quelconque, mais à partir du réseau. Quelles seront les catégories naturelles d'une telle intelligence ? Comme dans le monde du calcul, la machine de Turing a redéfini l'idée d'espace comme mémoire, c'est-à-dire comme information qui prend de la place, et l'idée de temps comme opérations dans le calcul, c'est-à-dire comme quelque chose qui prend du temps (et de là - l'efficacité), ainsi l'apprentissage profond les redéfinit. Qu'est-ce que l'espace maintenant ? Quelque chose de local, comme dans les réseaux de convolution, c'est-à-dire un système où une chose influence les choses proches d'elle. Et qu'est-ce que le temps ? Une mémoire continue, comme dans RNN, c'est-à-dire un système où une chose influence les choses loin d'elle. Le monde précédent, le monde du calcul, a réduit l'importance de l'espace (parce que tout est en mémoire), et a annulé ses dimensions naturelles (la mémoire est par nature unidimensionnelle), et par contre a souligné la dimension du temps et la vitesse justement. Et ici, dans le monde de l'apprentissage profond, nous voyons que justement il y a place pour l'extension de la dimension du temps, qui ne sera plus unidimensionnelle, car les choses peuvent influencer de loin de toutes sortes de directions - et dans plus d'une dimension. Il est tout à fait possible qu'un réseau d'apprentissage profond avec deux dimensions de temps et plus, c'est-à-dire qui est connecté dans la dimension du temps à ses copies dans plus d'une dimension, et pas seulement récursivement en arrière, mais récursivement dans deux variables/directions et plus. C'est-à-dire, si le calcul était une temporalisation de l'espace (tout, y compris l'argent, vaut du temps), alors l'apprentissage profond peut être une spatialisation du temps (tout sera espace, même les temps).

Philosophie de l'apprentissage profond

De quoi est construit l'apprentissage profond ? Des deux choses les plus basiques et primitives qu'on apprend en mathématiques, c'est-à-dire du premier semestre : d'algèbre linéaire 1 et d'analyse 1. L'algèbre linéaire est la composition, dont nous avons parlé (et c'est la composition la plus simple qui existe : combinaison linéaire). Et en plus il existe aussi la dérivée, qui donne la direction, selon le troisième postulat nathanien (la dérivée est une direction et donc c'est la direction la plus simple). C'est-à-dire : que fait en fait l'apprentissage ? Il remplace les exemples par des directions. Et qu'est-ce qui rend l'apprentissage profond ? Que toute cette construction se fait dans un système. C'est la profondeur du système (et le deuxième postulat). Et l'apprentissage n'est plus tout le temps proche de la surface du système, comme dans le langage, dans le dialogue du système avec les exemples externes (au fond du réseau et à son sommet). Et en plus, chaque couche est femmes pour la couche en dessous d'elle et hommes pour celle au-dessus d'elle, selon le quatrième postulat nathanien. C'est-à-dire que nous voyons ici la réalisation sur le terrain de tous les postulats (et même le premier, si tu fais attention). Vraiment comme une prophétie. Et notons aussi qu'il y a ici deux éléments, qui se font concurrence tout au long de l'histoire de l'apprentissage : direction contre structure. Ici nous les voyons dans la dérivée du gradient qui inonde tout en diffusion en arrière dans le temps d'apprentissage (la direction) contre construction d'un modèle spécifique (par exemple l'architecture spécifique du réseau, qui est déterminée à l'avance, mais encore plus toutes sortes d'idées qui sont moins populaires aujourd'hui, comme la création d'un modèle d'apprentissage spécifique avec des a priori forts pour un problème spécifique, au lieu de l'approche générale d'un réseau profond pour tout problème). Et tout cela n'est que l'incarnation contemporaine de ce même vieux problème d'environnement contre hérédité, et d'empirisme contre rationalisme, et d'Aristote contre Platon. Ou de concurrence libre et main invisible (monde de la direction) contre socialisme et État (monde de la structure), libéralisme contre conservatisme, et évolution lamarckienne (à l'extrême directionnel) contre design intelligent (à l'extrême structurel). Au niveau mathématique, la direction est continue, et liée au monde de l'analyse et de la géométrie, contre la composition structurelle qui est linguistique, et liée au monde de l'algèbre et de la logique. Et l'apprentissage profond est une victoire immense de l'approche d'apprentissage de la direction aux dépens de la construction dans cette dialectique (mais le contre-mouvement viendra encore), et elle est parallèle à la victoire du capitalisme et de la démocratie (direction de la communication et des élections contre la structure bureaucratique et gouvernementale), ou la domination de l'hédonisme aux dépens de la structure dans la société. Car dans l'apprentissage profond il s'avère que la structure est beaucoup moins importante que simplement beaucoup de feedback et de direction (mais bien sûr il y a ici une synthèse, car où y a-t-il une telle haute hiérarchie comme dans l'apprentissage profond ? Seulement il s'avère que les détails de la hiérarchie sont moins importants, et en fait tout en elle est déterminé à l'aide de la direction, et ainsi se crée pour nous un mécanisme d'apprentissage assez général, qui est une sorte de tableau blanc empirique). Donc, pour comprendre ce qu'est l'apprentissage, peut-être que ce qu'il faut c'est prendre le rapport entre les exemples nécessaires à l'apprentissage et la donnée de structure nécessaire, c'est-à-dire comment cela change (le rapport entre eux). Plus il y a d'exemples il faut moins de structure, et vice versa. Et comprendre à quoi ressemble cette fonction, et que c'est l'investigation importante, et non si la structure est plus ou moins importante que les exemples. Par exemple est-ce que cette fonction est linéaire, est-ce qu'elle est polynomiale, est-ce qu'elle est exponentielle, etc., dans différents domaines de problèmes (par exemple si on apprend différents objets mathématiques, et aussi dans différents problèmes dans la réalité). C'est-à-dire, ce qu'il faut demander c'est quel est le lien entre la quantité d'exemples et la quantité d'a priori. Et c'est le même problème de variance contre biais, qui se trouve au cœur de l'apprentissage machine (mais moins au cœur de l'apprentissage profond, après la grande victoire de la variance contre le biais, avec les innombrables paramètres de l'apprentissage profond, qui sont beaucoup plus nombreux que la quantité de contraintes).

Philosophie des neurosciences

Quelle est l'infrastructure conceptuelle qui permet même une règle comme la règle de Hebb (si locale, par rapport à la globalité des réseaux profonds), qui tend vers une rétroaction positive ou négative (une caractéristique fatalement corrompue) ? Comment la règle de Hebb est-elle même possible, comme mécanisme d'apprentissage fondamental, qui n'a aucun rapport ni avec les guidages - ni avec la structure, ni avec l'extérieur - ni avec l'intérieur ? En fait, la règle de Hebb n'est pas seulement "ils tirent et se connectent" (les neurones qui tirent ensemble se connectent ensemble - les frères fire&wire), mais sa véritable formulation est que je renforce la connexion de celui qui m'a prédit, et affaiblis celle de celui que j'ai prédit. Par conséquent, cette règle n'est logique que sous l'hypothèse que les neurones sont à la fois principalement des transmetteurs d'information et des évaluateurs qualitatifs indépendants, et alors cette règle crée une réputation, et cherche la nouveauté, pour la diffuser. De plus, elle crée des couches, car elle est contre la circularité. Elle cherche le premier à identifier, et donc crée une compétition pour être le premier à identifier, c'est-à-dire : c'est une règle compétitive. Mais il faut qu'aucune source unique pour un neurone ne dépasse cinquante pour cent, ou du moins un seuil fixe, sinon c'est une rétroaction circulaire positive corrompue (de plus, il est clair que cette règle seule ne suffit pas, car elle est autistique, et il faut aussi un neurotransmetteur qui donne un feedback externe, et probablement d'autres formes de feedback). C'est-à-dire, la règle de Hebb ne peut fonctionner que si vous avez (en tant que neurone) une capacité d'évaluation indépendante, et suggère une telle capacité (!). Et alors il y a une compétition pour elle. Elle est donc tout à fait logique pour un réseau social d'êtres humains, même plus que pour un réseau de neurones, apparemment. Mais de tout regard rapide sur le connectome du cerveau, ou même d'un seul réseau de neurones, il semble que le cerveau va très très loin dans les façons de créer du désordre et de la diversité et du bruit et de la complexité, peut-être pour ne pas laisser la règle de Hebb converger vers la trivialité, et lui donner des matériaux suffisamment variés, stochastiques, chaotiques et instables pour travailler dessus. La règle de Hebb traite l'information comme contenu, et non comme action dans le calcul (comme dans la perception du réseau neuronal comme une sorte d'ordinateur distribué et parallèle). C'est-à-dire, quand il y a beaucoup de redondance (comme dans le cerveau, ou dans de nombreux autres systèmes apprenants) et que tous sont sur la même ligne, alors il faut choisir le bon message, que vous transmettez plus loin avec un changement avec des paramètres relativement petits, c'est-à-dire quand il s'agit plus de transmission d'information et moins de calcul. Et dans ce contexte, toute l'histoire de la prédiction de haut en bas dans le cerveau (disons : quand chaque couche supérieure prédit celle qui est en dessous, et ainsi par exemple je prédis les données sensorielles que je vais recevoir), est probablement profondément liée à la règle de Hebb. Car celui que je prédis, il est redondant que je l'écoute. Et si oui, il y a ici un processus de devinette et de convergence et moins de calcul. Il faut donc remplacer le mot prédiction par devinette. Dans une telle perception, le cerveau fonctionne par calcul du bas (vers le haut) et devinette du haut (vers le bas), et alors il y a les points de conflit entre eux, ou les couches de conflit, et celui qui a raison (et a deviné ou calculé la suite) l'emporte là sur l'autre. Si chaque couche supérieure dit ce qui aurait dû être en bas, et vice versa, alors la convergence de ce processus permet de trouver la source de l'erreur, qui est l'endroit d'où commence l'évaluation incorrecte à sauter, et là il y a une montée abrupte dans le problème. C'est-à-dire soit le calcul - montant du bas - s'est déformé à cet endroit et est devenu incorrect, et alors a entraîné une erreur dans la suite des couches vers le haut, soit la devinette - descendant du haut - s'est déformée à cet endroit et s'est révélée incorrecte, et alors a entraîné une erreur dans la devinette vers la suite des couches vers le bas. Par conséquent, un vrai neurone est un évaluateur de contenu, et pas seulement évalué. Car il décide à qui écouter. C'est-à-dire qu'il est évalué spécifiquement sur chaque contenu qu'il transmet, et évalue spécifiquement chaque contenu qu'il reçoit. Il ne craint pas un mécanisme de rétroaction positive ou négative infinie, où il n'écoute qu'un seul ami et personne d'autre, car il entend suffisamment d'opinions avec suffisamment de bruit, et peut-être qu'il y a aussi une limite à combien il écoute quelqu'un (peut-être que c'est logarithmique par exemple). C'est-à-dire que nous voyons que chaque neurone peut avoir non seulement un feedback externe et un guidage d'en haut, mais aussi des moyens de mesure intrinsèques pour l'évaluation, comme : est-ce qu'il me prédit, et est-ce qu'il correspond à la prédiction de celui qui est au-dessus de moi maintenant. La pensée courante dans l'apprentissage profond est sur les deux directions dans le réseau comme séparées, qui viennent en deux étapes séparées : le calcul (propagation avant) du bas vers le haut, et le feedback (propagation arrière) du haut vers le bas. Mais on peut aussi penser à eux comme des vagues dans un système qui progressent dans le temps simultanément, de manière asynchrone et dans les deux directions, selon leur intensité, c'est-à-dire parfois une certaine progression s'arrête dans un neurone mécontent, ou toute une telle couche, et commence à renvoyer du feedback en arrière, et vice versa, et il y a des retours et des échos et une mer agitée, jusqu'à ce qu'elle converge vers un certain état, et c'est le véritable mécanisme de calcul du réseau (et pas seulement du bas vers le haut). Et ainsi l'entraînement et l'exécution/prédiction ne sont pas deux étapes séparées, comme si la rétropropagation et la propagation avant se produisaient en parallèle. Et c'est probablement ainsi que cela se passe dans le cerveau. Et si chaque couche prédit celle qui la précède, alors parfois du feedback sera même renvoyé depuis la couche d'entrée, des données, ce qui ne se produit pas actuellement dans l'apprentissage profond, et c'est dommage, car nous manquons cette résonance, et l'information dans le signal de rétropropagation disparaît et se perd quand il atteint la couche d'entrée (nous n'utilisons pas cette information pour la comparaison avec l'entrée réelle). Mais si chaque unité de traitement reçoit un guidage d'en haut, et produit de manière indépendante (et pas seulement comme partie de la rétropropagation) un guidage vers le bas, alors à la rencontre entre le bas et le haut le gradient ou l'évaluation qui descendent d'en haut rencontrent ce qui monte d'en bas, dans le calcul qui a eu lieu. Et s'il y a une inadéquation alors il y a un problème. Pour les deux côtés. Et s'ils ne sont pas d'accord sur la direction dans laquelle le signal doit changer, alors il faut alerter l'attention sur l'inadéquation. Et diriger vers elle les ressources du système, et ainsi on peut remarquer les nouveautés, ou les surprises, ou les problèmes. Par exemple, au niveau micro, si disons qu'il y a un neurone non accepté, dont les poids vers l'avant sont proches de zéro, alors il a reçu par là un feedback négatif pour devenir une fonction plus utile et intéressante. Et s'il reçoit de manière constante des feedbacks forts contradictoires, alors peut-être qu'il doit se diviser en deux neurones. Et si les connexions de deux neurones sont trop similaires, alors peut-être qu'ils doivent s'unir en un seul. C'est-à-dire que nous pouvons concevoir l'architecture selon les feedbacks et les inadéquations. Et au niveau macro, cela permet au système de chercher des surprises, et des exemples où il s'est trompé dans la prédiction du futur, et c'est la curiosité. Par exemple, si une couche d'en haut s'est trompée dans la prédiction de celle en dessous, alors on continue à explorer des exemples similaires, jusqu'à ce qu'on arrive à une solution. Car la pensée systémique plus correcte est sur un réseau qui a déjà appris (beaucoup). Et alors il continue à apprendre encore un exemple, ou tombe sur un nouvel exemple qui ne correspond pas au passé. Contrairement à la pensée aujourd'hui où le réseau commence à apprendre depuis le début tous les exemples (pensée du bébé). Et donc, quand nous avons identifié un problème, l'espace de recherche des paramètres doit fonctionner comme une recherche, et pas seulement comme une optimisation - mais une exploration. Et proposer plus d'innovations - de nouvelles combinaisons. Une fois qu'il y a une évaluation indépendante, où une couche juge celle qui est en dessous à l'aide de sa propre mesure, et pas seulement selon le guidage qu'elle a reçu de celle au-dessus (dans la rétropropagation), vous pouvez aussi effectuer une recherche, et réduire l'espace de recherche tout au long du chemin (c'est-à-dire entre les différentes couches, et ainsi la recherche n'aura pas besoin d'exploser en d'innombrables combinaisons en force brute). La première génération de recherche en intelligence artificielle était la recherche (comme paradigme algorithmique central, par exemple dans l'inférence logique), tandis qu'aujourd'hui l'intelligence artificielle fuit la recherche comme le feu, et l'a remplacée par l'optimisation (dans l'ajustement de paramètres continus et la statistique), mais à l'avenir il y aura une synthèse entre eux. La recherche a aussi quelque chose à offrir (et pas seulement à exploser), si on la gère correctement, et en effet souvent dans le cerveau une recherche est effectuée, comme aussi dans l'évolution, car c'est une façon qui permet des innovations plus créatives - à l'aide de combinaison et de son évaluation. Car la philosophie elle-même serait très ennuyeuse et flagorneuse si elle n'était qu'optimisation face à sa fonction d'évaluation, et le fait qu'elle soit une recherche est ce qui la rend difficile et intéressante - et créative, dans sa lutte face à son évaluation. Et pourquoi l'évolution est-elle plus rapide qu'une recherche en force brute ? Le succès de l'évolution vient de la capacité même de composition, c'est-à-dire qu'au début la recherche est avec des combinaisons simples, et ensuite, dans les couches suivantes, les pas de recherche grandissent, avec des combinaisons de parties complexes en elles-mêmes. Et à chaque étape (c'est-à-dire couche) il y a une évaluation indépendante de la créature. Ainsi ce n'est pas de la force brute car les pas précédents dans l'apprentissage influencent les pas suivants, et les dirigent, et donc la recherche n'est pas dans tout l'espace des possibilités, mais seulement dans un faisceau progressif. Si oui, le phénomène de composition et des générations (=couches) est fondamental dans l'apprentissage. C'est-à-dire : aussi bien dans l'apprentissage profond que dans le cerveau et dans l'évolution et dans la définition de l'apprentissage général, nous avons une multiplicité de composants qui sont des boîtes noires, et il y a entre eux des connexions en construction (qu'il faut caractériser dans chaque cas particulier : dans l'apprentissage profond des combinaisons linéaires avec une torsion de non-linéarité, dans l'évolution - l'accouplement, et ainsi de suite dans d'autres systèmes). Vers le haut ils calculent une fonction, à l'aide du bas. Et vers le bas ils donnent une évaluation (par exemple à l'aide d'un gradient ou peut-être un choix, par exemple dans le partenaire, tu comprends ?).

Philosophie de l'étude des réseaux

Que crée le feedback ? Simplement, des équations différentielles partielles et des équations récursives, qui sont en fait des mécanismes de feedback, et d'où les phénomènes de complexité et de chaos. Donc aussi dans le cerveau, et dans l'apprentissage en général, les boucles de feedback créeront des phénomènes similaires, qui sont donc naturels à l'apprentissage, et non ses défauts. Mais quels types de feedback existe-t-il ? Il existe des mécanismes alternatifs à la rétropropagation du gradient descent (=descente en pente, dans l'optimisation) dans le transfert en arrière de l'évaluation. Par exemple : aspiration à la simplicité (l'évaluation est selon une mesure de combien c'est simple, comme selon le rasoir d'Occam). Ou aspiration à la nouveauté. Ou à la variabilité et à la diversité (une certaine distribution). Mais la caractéristique la plus importante du feedback n'est pas selon quoi il est, mais quelle est la taille de la boucle qu'il crée, car c'est une caractéristique systémique. Et ici ressort la faiblesse de la rétropropagation, qui crée une boucle de feedback géante, qui est très artificielle dans un grand système - et très lente. Une alternative plus raisonnable et donc plus répandue est des boucles de rétroaction courtes (il n'existe aucun système d'apprentissage au monde en dehors des réseaux de neurones artificiels qui apprend par rétropropagation). Par exemple dans le cerveau, il y a beaucoup de connexions qui reviennent en arrière entre les couches de neurones, dans la direction opposée (qui n'existent pas dans l'apprentissage profond). Ce qui manque aujourd'hui dans la compréhension du cerveau - et également dans l'apprentissage profond - c'est l'idée de compétition, et de propagation d'une idée dans une population (ce qui correspond en fait plus à la règle de Hebb). Car à chaque étape, plusieurs possibilités sont en compétition dans le cerveau, plusieurs pensées de suite, et une est choisie. C'est-à-dire qu'il y a une compétition sur une certaine évaluation, qui choisit comment continuer l'apprentissage. C'est-à-dire : la plus grande importance du feedback est justement dans la compétition qu'il crée (exactement comme en économie ou en démocratie, l'existence même du feedback est l'important, même s'il n'est pas idéal). Mais dans une boucle de rétroaction trop grande tout cela est perdu ou inefficace, par rapport à une compétition proche dans de petites boucles. Aussi dans l'algorithme PageRank de Google il y a des hubs, qui sont des évaluateurs, et c'est en fait son essence - l'analyse du graphe de sorte que certains sommets dans le réseau évaluent d'autres (et sont à leur tour évalués par eux). Tout cela est très similaire aux réseaux de neurones, et ainsi se crée une compétition entre les sites sur le classement, et en général une compétition de qualité dans le réseau. Et dans la science ? Chaque article cite d'autres, c'est-à-dire c'est l'évaluation dans le réseau, où il n'y a pas de couches mais tous sont connectés à tous. Et les couches sont créées selon le temps de publication (chaque article évalue ceux qui ont été publiés avant lui). C'est-à-dire que nous avons ici des couches qui évaluent celles qui les précèdent, et sont évaluées par celles qui les suivent, et ainsi se crée la compétition, à l'aide d'un mécanisme de réseau très simple. Dans ces deux cas il n'est pas nécessaire d'avoir une grande boucle de feedback externe de l'extérieur pour créer une évaluation et une compétition, mais l'évaluation en elles se crée d'elles-mêmes. On n'a pas forcément besoin d'une évaluation externe forte comme dans l'évolution pour créer une compétition, et c'est la clé de l'apprentissage non supervisé, qui est l'apprentissage dominant dans le cerveau, et la grande faiblesse de l'apprentissage profond, qui a besoin d'une quantité énorme d'exemples (d'ailleurs, même dans l'évolution la principale compétition est pour le partenaire, c'est-à-dire sur les petites boucles de feedback, internes à l'espèce, et non face à la grande extinction). Ainsi nous voyons que justement dans les réseaux où il n'y a pas d'évaluation externe claire, par exemple sur Facebook, dans le marché boursier, et dans les rencontres, et dans les articles, une compétition féroce est encore possible. Dans de tels réseaux vous recevez un nombre, comme un prix ou des likes ou h-index ou pagerank et classement dans Google, et le guidage sur vous. Ce nombre ne vous donne pas un quelconque guidage, mais seulement une évaluation, et vous devez l'interpréter et comprendre de lui dans quelle direction vous devez changer. Et cela contrairement au gradient qui vous dirige dans l'apprentissage profond, qui est une direction qui vous est donnée d'en haut. Et peut-être peut-on affirmer que le domaine polynomial c'est ce qui a un guidage mesurable, tandis que NP est la classe des problèmes sans guidage, et non dérivable, mais chaotique et non locale. Donc il faut apprendre de NP que l'évaluation ne suffit pas pour l'apprentissage. Seulement le guidage. Car NP est exactement cette grande boucle de feedback, de l'extérieur, qui s'avère ne rien donner à l'apprentissage à l'intérieur, qui nous mènera à la solution. On ne peut pas dériver d'une telle évaluation un guidage. Est-ce que le polynomial est le lamarckien par intermittence, c'est-à-dire décomposable en optimisation locale, c'est-à-dire est-il construction+guidage ? Dans le cerveau on ne sait toujours pas comment fonctionne l'apprentissage, mais dans l'évolution oui, et nous voyons qu'en elle aussi il y a une caractéristique clé : une fonction d'évaluation indépendante, qui à cause de cela il y a deux sexes. C'est-à-dire même s'il y a une évaluation externe forte de vie et de mort, pour que l'apprentissage fonctionne il faut dans le système aussi une évaluation interne indépendante, de sexe. La grande boucle de feedback doit être décomposée en petites boucles de feedback plus proches et plus attachées, qui ne sont pas seulement une dérivée, au sens propre et figuré, d'elle. Aussi dans un réseau culturel/politique/société anonyme/économie il y a des fonctions d'évaluation indépendante. C'est-à-dire : il y a des parties dont c'est toute leur fonction. Et alors il y a une compétition sur elle, c'est-à-dire il y a de la duplication et de la redondance et de la diversité et de la variance et une comparaison entre alternatives (sinon pourquoi existe la redondance psychique dans tous les systèmes d'apprentissage ? Pourquoi y a-t-il tant de neurones dans le cerveau et de gènes dans le génome et d'organismes dans l'espèce - et de personnes dans l'État). Si oui, comment fonctionne l'évaluation interne ? Comment est-elle évaluée elle-même ? Eh bien, il y a simplement des unités d'évaluation indépendantes dans le système, qui guident de manière indépendante, et pas seulement une grande boucle globale de feedback. En gros, le feedback général au système est rare et cher, et donc on s'appuie sur des fonctions d'évaluation secondaires. Et on apprend simplement aussi les fonctions d'évaluation. Et que se passe-t-il dans NP ? Les évaluations secondaires ne réussissent pas. En fait, toute l'idée de l'apprentissage par renforcement de l'extérieur du système comme chose qui crée l'apprentissage du système (par exemple le behaviorisme) est une erreur conceptuelle, dont l'origine est dans une image philosophique simpliste de l'apprentissage. Nous n'avons jamais de feedback final, tout le compte n'est pas encore terminé.

Philosophie des réseaux de neurones

Comment encore aident les évaluations indépendantes, dans le système, contrairement à l'évaluation externe, qui vient de l'extérieur du système pour l'enseigner ? Car il faut aussi protéger ce que tu as appris avant d'un nouvel apprentissage qui l'efface. Et l'évaluation interne protège l'apprentissage qu'elle a conduit d'être lavé et érodé par des guidages externes qui balaient tout (comme dans la rétropropagation). Ainsi on peut faire que le nouveau feedback n'arrive que vers quelque chose de nouveau, et soit canalisé dans sa direction, et non dans la direction de tout l'ancien, et ajoute - et n'efface pas. Ce qui permet la conservation de la mémoire c'est justement qu'il n'y a pas d'apprentissage en arrière. Par exemple que ce n'est pas lamarckien, mais apprentissage d'ADN, c'est-à-dire digital et pas seulement analogique continu (qui est tout érodé à l'aide de dérivée et convergence dans l'optimisation). Et cela permet aussi la combinaison. Quand les évaluations sont indépendantes, l'apprentissage ne va en arrière qu'une couche à la fois. C'est là que se produit la magie, par exemple de la complexité, simplement à l'aide d'une couche de plus. Aussi dans l'évolution - c'est toujours une génération. La rétropropagation (back-propagation) est la racine du mal, qui a transformé tout le domaine de l'apprentissage profond en force brute, boîte noire et donc en ingénierie et non en science. Tous les phénomènes problématiques en découlent. Et il n'existe aucun système naturel qui apprend comme ça. L'oubli catastrophique (le phénomène où un réseau profond oublie ce qu'il a appris si on lui donne maintenant des exemples d'un autre type) et l'incapacité à connecter des blocs de construction de manière satisfaisante dans l'apprentissage profond auraient été évités si nous avions choisi un modèle comme celui présenté ici au début, d'enseignant et de construction. L'oubli catastrophique est en fait parce qu'il n'y a pas du tout de mémoire, mais seulement une action ou apprentissage. Donc il faut une mémoire qui résiste à l'apprentissage, c'est-à-dire : des cas où le réseau décide qu'il a appris quelque chose d'utile, ou un certain concept, et le garde séparément de la suite du changement (ou ralentit beaucoup à son sujet la capacité de changement). Donc il faut une façon de renforcer ce que tu as fait et pas seulement de ne pas le changer, mais qu'il y ait un paramètre de confiance pour chaque paramètre, qui se renforce chaque fois que tu as réussi (c'est-à-dire quand il n'y a presque pas de dérivée de changement pour le guidage du paramètre, ce qui est aussi une information de valeur, qui est aujourd'hui plus ou moins perdue, bien qu'elle influence partiellement dans les algorithmes d'optimisation de gradient descent, par exemple dans le momentum). Se souvenir c'est la capacité de ne pas apprendre. Pour apprendre quelque chose qui persiste il faut la capacité de ne pas apprendre, et de ne pas être influencé par toute nouvelle information comme une girouette de guidages. Tout changement dans le mécanisme de rétropropagation est beaucoup plus fondamental que d'autres changements dans l'apprentissage profond, car c'est la méthode, le mécanisme d'apprentissage. Et là on peut la corriger. Et le rôle de la philosophie est d'analyser cette analyse conceptuelle profonde (ce qu'elle ne fait presque pas aujourd'hui, et donc personne ne paie les philosophes, malgré l'énorme valeur qu'ils peuvent fournir).

La philosophie de l'apprentissage profond : résumé

Par conséquent, ce qu'il faut c'est un modèle où tout ce qui descend en bas (les évaluations) est connecté dans un réseau d'évaluation profonde, et chaque couche en elle a des sorties et des entrées vers ce qui se passe dans le réseau profond normal, c'est-à-dire vers la couche parallèle dans le réseau calculant, qui monte en haut. L'entrée au réseau d'évaluation depuis le réseau calculant est une sortie d'une couche du réseau calculant, qui est transmise au réseau d'évaluation - pour son évaluation. Et la sortie du réseau évaluant vers le réseau calculant est la sortie de son évaluation - qui est un guidage. Oui, c'est totalement symétrique des deux directions. Et donc beaucoup plus général. Un réseau qui monte en haut et face à lui un réseau parallèle complètement qui descend en bas. Et dans le cas particulier où ils ont exactement la même structure, alors en fait chaque neurone a des poids doubles, vers le bas et vers le haut, pour leur mise à jour. C'est-à-dire qu'on peut penser à cela comme un seul réseau (à double action), mais peut-être qu'il vaut mieux donner au réseau évaluant une indépendance dans l'architecture, c'est-à-dire deux réseaux qui font un contrôle l'un sur l'autre. Et que dit tout cela à NP ? La définition de l'apprentissage ici est comme décomposition en couches d'évaluateur et évalués, enseignant et élèves. Et la question est s'il existe une telle décomposition, ou non, pour le problème, où tout algorithme polynomial est une telle décomposition. C'est-à-dire, c'est une autre définition pour l'apprentissage que celle que nous avons vue dans la philosophie de l'informatique, et il est possible qu'elle soit plus appropriée pour traiter le problème fondamental de ces sciences. Et moi, j'ai déjà passé le stade dans ma vie où je suis capable de prendre ces pensées et de les rendre formelles - mais peut-être que toi tu en seras capable.