La Degeneración de la Nación
Programa para el avance de las ciencias del aprendizaje: aprendizaje computacional, aprendizaje automático y neurociencia
Carta sobre la filosofía de las ciencias de la información, hacia su transformación en ciencias del aprendizaje: la filosofía de las matemáticas, la filosofía de las ciencias de la computación, la filosofía del aprendizaje computacional y la filosofía de la neurociencia
Por: Un matemático (que ya no seré)
Carta a una estudiante: El código y el sacrificio - Todo está conectado (al aprendizaje)  (Fuente)


Filosofía del aprendizaje de las matemáticas

Piensas que la filosofía de las matemáticas no es interesante, pero es realmente lo más interesante que hay. Se debería haber tomado el aprendizaje como los fundamentos de las matemáticas. No la escritura de demostraciones - sino el aprendizaje de demostraciones, porque la construcción matemática en su profundidad no es una construcción lógica (eso es solo su superficie lingüística), sino una construcción de aprendizaje. El problema central de la neurociencia es pensar en el cerebro como un único agente, en lugar de entender que hay competencia en el cerebro - entre pensamientos, entre módulos (por ejemplo sobre la atención y decisiones), entre diferentes memorias, entre neuronas, y entre diferentes continuaciones de esta oración (y esta competencia es paralela a la competencia económica o política, que construye sistemas que aprenden, como la democracia o el capitalismo o la meritocracia china, y es la raíz de su éxito). Así, el problema central de las matemáticas es que no conceptualiza dentro de sí a sus múltiples agentes, los matemáticos, que la aprenden, y en general no conceptualiza el aprendizaje que está debajo de las matemáticas (como en el pasado no conceptualizó la lógica que está debajo de las matemáticas, y entonces Frege convirtió la lógica en la infraestructura de las matemáticas, así debajo de la lógica - lo que la activa, y que se convertirá luego en la infraestructura de las matemáticas - está el aprendizaje matemático). Más aún - el aprendizaje debe ser la herramienta para definir los conceptos básicos en matemáticas, sobre los que todo está construido: límite, grupo, topología, espacio, demostración, conjunto, números primos, probabilidad, función, continuidad, etc. Y así hay que hacer una reconstrucción de aprendizaje de las matemáticas, una axiomatización e interpretación nueva (como una posible interpretación de aprendizaje de la teoría cuántica, entre sus otras interpretaciones). La propiedad de composición y construcción de las matemáticas - y en particular del álgebra - tiene su origen en el aprendizaje, y debe estar basada en él. Supongamos que ya aprendiste cómo hacer a, b, como caja negra. ¿Qué significa que tienes esta función? ¿Qué significa saber, por ejemplo una demostración? ¿Cómo aprendes con esto a llegar a c? Llegará un momento en que no podrás decir más simplemente tengo una función, pero a diferencia del intuicionismo de Brouwer o la construcción axiomática-computacional del formalismo, la construcción que necesitarás proporcionar es de aprendizaje: cómo aprendiste la función. E incluso si la función ya existe en ti (digamos en la neurología de tu cerebro), como caja negra, saber sobre ella no significa usarla, es decir saber no es la capacidad de dar su respuesta a las entradas, sino que el significado de saber es la capacidad de aprender mediante ella, es decir construir de esta caja negra (que no entiendes) continuaciones de aprendizaje apropiadas. Como saber una demostración no es la capacidad de citarla y llegar de las hipótesis a las conclusiones (QED), sino la capacidad de construir de ella demostraciones adicionales, es decir seguir aprendiendo mediante ella. Y entender una demostración no es algo que entiendes dentro de ella (por ejemplo dentro de su secuencia), sino entender cómo construir de ella demostraciones adicionales (no simplemente "usar" en el sistema existente, como en Wittgenstein, sino construir de ella la continuación del sistema y desarrollar el sistema, como el uso de un poeta del lenguaje, y no de un hablante, es decir como el uso de un programador de la computadora, y no de un "usuario"). Y aquí notaremos por ejemplo la similitud entre redes neuronales y algoritmos genéticos. En las neuronas la construcción es principalmente conexión y combinación de números (es decir combinación lineal - la combinación más simple - de funciones, con realmente un mínimo de no linealidad necesaria sobre ella), mientras que en la evolución la construcción es conexión y combinación de partes (en la práctica, es una combinación lingüística de dos oraciones - dos genomas, de modo que algunas palabras son del primero y algunas del segundo. Y finalmente después de la convergencia - las oraciones son muy similares y hay entre ellas variaciones leves, de modo que la oración todavía tiene sentido. "El jardinero cultivó grano en el jardín" se aparea con "El jardinero cultivó trigo en el huerto". Y su hijo es "El jardinero cultivó grano en el huerto"). Así que más allá de la diferencia específica entre los dos mecanismos de composición y construcción, es decir las conexiones, que una es conexión cuantitativa de magnitudes y la otra conexión textual-lingüística, hay una similitud profunda entre el aprendizaje neuronal y la evolución: las generaciones son capas. Los componentes básicos del aprendizaje son tanto muy numerosos en cada etapa, como se apilan uno sobre otro de manera profunda (es decir muy numerosa), para crear el aprendizaje. La evolución es aprendizaje profundo por naturaleza, y no se puede negar esta similitud natural. Es decir vemos que en la naturaleza la construcción es básica para el aprendizaje - aunque pueden existir en el mundo del aprendizaje diferentes técnicas de construcción (suma, multiplicación, concatenación de cadenas, llamada a otro segmento de código como función, etc.) - y así es también en la construcción lógica y matemática. Ya que también en la lógica hay numerosas capas de construcción que se crean por combinación (en la construcción hay dos dimensiones, porque combina dos o más cosas previas - dimensión horizontal - para crear de ellas algo nuevo - dimensión vertical. Es decir la construcción se crea tanto de la multiplicidad hacia abajo, como de la multiplicidad de posibilidades a tu lado, como ladrillos en un muro). Y si volvemos al proyecto de redefinir las matemáticas sobre el aprendizaje, veremos que este programa (el programa de aprendizaje de los fundamentos de las matemáticas, al estilo del programa de Langlands) es adecuado no solo en el álgebra constructiva por naturaleza, sino también en el análisis. En efecto, en el álgebra la construcción es básica, y precisamente por eso las preguntas básicas de construcción en ella se beneficiarán de una mirada de aprendizaje. ¿Qué son por ejemplo los números primos? La colisión entre dos métodos de construcción de los números: uno en suma - y el otro en multiplicación. Este es el origen del enigma (Riemann como parábola), y su solución será mediante una nueva conceptualización: aprender a construirlos. Aprender los primos - este es el camino real a la hipótesis de Riemann. Y así se puede aprender a construir un grupo. O aprender un conjunto (o grafo, o juego, o matriz). Y en el análisis, ¿qué significa límite? Acercarse mediante mediciones - significa saber. Y topología es una generalización de límite. El límite es un mecanismo de aprendizaje, y cuando tiene éxito, cuando se puede aprender (es decir que mientras más te acercas te enseña a qué te acercas), es continuo. Y cuando no se puede aprender - entonces no es continuo. Y este mecanismo de aprendizaje mismo surge de la topología de la continuidad. Es decir, en topología el aprendizaje es una generalización más abstracta y no la base de la definición del límite, sino que el límite es un ejemplo particular de ella. Cuando miramos el mecanismo de aprendizaje mismo (de lo continuo) y de él comenzamos la definición - esta es la topología (como sustituto de la definición mediante filtros, o conjuntos abiertos/cerrados, u otras propuestas contemporáneas). Y en el análisis, podremos definir la derivada mediante la idea del método, o el método como generalización de la idea de la derivada. Este es el aprendizaje del aprendizaje.


Filosofía del aprendizaje de las ciencias de la computación

De la misma manera, un proceso similar de construcción del campo sobre fundamentos de aprendizaje se puede hacer también en las ciencias de la computación (y con esto finalmente establecer de manera seria el campo de la filosofía de las ciencias de la computación). ¿Qué es un cálculo: cómo llegó la función a esto? (ya no puedes definir simplemente sino que debe ser constructivo - computable). Si es así, ¿qué es aprendizaje: cómo llegó el cálculo a esto? (necesitas explicar cómo construiste el algoritmo, es decir cómo lo aprendiste, como antes necesitabas explicar cómo construiste la función. Esta es constructividad de la constructividad). Si es así, si volvemos a la función, lo que se necesita es: aprender a calcular una función. Una demostración es construcción. Y aprendizaje es cómo se construye. Construir la construcción misma. De aquí que la siguiente etapa algebraica será suma y multiplicación en aprendizaje, que serán generalización de la suma y multiplicación, y por lo tanto mediante aprendizaje podremos definir suma y multiplicación de algoritmos. Y así serán generalización de multiplicación (llamada en bucle, en el caso polinomial) y suma (ejecución de algoritmo después de algoritmo), en la construcción de aprendizaje. Y recursión será generalización de la potencia. Y la condicional es un tipo de suma. En el mundo del cálculo de Turing, el infinito y lo asintótico eran el análisis, y las operaciones - el álgebra. Y ahora estamos frente al problema que queremos sumar infinitos, es decir sistemas que aprenden hacia un límite, que es muy similar históricamente al problema de sumar infinitos que existió en la raíz del cálculo infinitesimal. Los componentes del aprendizaje siempre se acercan al óptimo, y esta es la parte continua, de la optimización. Y por otro lado se componen uno con/sobre otro como algebraicamente, que es la parte discreta, de la búsqueda y mutación, es decir lo computacionalmente costoso. Si no hay método de cómo hacer esto de manera general - hay combinaciones. Es decir es búsqueda de fuerza bruta. Y por lo tanto debemos entender que en su profundidad, exponencialidad es en realidad expresión de fuerza bruta y de incapacidad de entender y resolver el problema, sino solo formularlo. Su significado: no saber resolver. Es decir: debajo de todas las operaciones algebraicas básicas que conocemos en matemáticas, como suma y multiplicación y potencia, hay algo más profundo, y computacional, e incluso (debajo) de aprendizaje. Y hoy se asoma y se expresa externamente simplemente como función del tiempo de ejecución. Potencia es en realidad búsqueda en todo el espacio de posibilidades. Esto es lenguaje y no aprendizaje. Lenguaje es todas las combinaciones posibles, y aprendizaje es convergencia de las posibilidades, y por lo tanto permite una solución específica. Una oración específica. Ninguna oración en el mundo fue jamás escrita por el lenguaje - todas son escritas por el aprendizaje.


Filosofía de la algorítmica

¿Aprendiste una función o algoritmo? Nota que esto es similar al límite en análisis - donde se encuentra la función (que es el límite). Y en lugar de epsilon y delta, tenemos aquí interacción entre maestro y alumno. El alumno aspira al límite (que es su horizonte), y el maestro se encuentra en la posición del medidor en el límite, por ejemplo pregunta cuán cerca estás del resultado de la función en un punto específico. Es decir el lado del maestro, el lado que mide éxito, que juzga tu convergencia, es como el criterio en NP. ¿Y cuál es el problema en NP? Que es exactamente lo opuesto a un límite continuo en análisis, porque en tales problemas la medición parcial del éxito no ayuda en absoluto a lograr el objetivo, y no ayuda al aprendizaje, es decir que no puedes tener éxito como alumno. No hay guías en el camino, que permitan llegar al objetivo. El aprendizaje es el proceso de construcción desde las cosas que saben hacer - algo que no saben hacer. Y todo esto frente a una medida de evaluación. Y si la evaluación es un criterio interno, no externo, entonces este es el camino - que es el método. ¿Pero si no hay ningún criterio interno sino solo externo? Entonces estás en NP. Cuando aprendes un algoritmo, ¿es correcto definirlo como aprendizaje de ejemplo o de demostración, es decir como aprendizaje qué o aprendizaje cómo? ¿Recibes solo los valores de entrada y salida de la función que estás aprendiendo en un caso específico, o recibes una construcción constructiva de la función en un caso específico de entrada-salida? La respuesta debe ser ambos, porque el aprendizaje es exactamente la descomposición de la función como construida de funciones previas, que es la demostración misma, pero en cada etapa la elección de qué combinación de ellas hacer depende del ejemplo (¿una demostración es ejemplo o demostración?). Si es así, NP son los problemas que es fácil examinar sobre ellos - y difícil aprender (es decir que no se puede enseñar - ser maestro - en su caso). Y así exactamente también en el problema de los primos, la pregunta es cuánto no puedes aprenderlos, cuán impredecibles son (probabilidad, que también se puede redefinir mediante aprendizaje). Esta es la esencia de la hipótesis de Riemann (y por lo tanto se espera que tenga una conexión profunda con el problema de la factorización de primos como función unidireccional). ¿Cuál es el aprendizaje en números primos? En cada número primo al que llegaste en la secuencia de los naturales, lo que ya sabes es construir mediante multiplicación números de todos los primos antes de él. Es decir él (el siguiente primo) es algo que no aprendiste y necesitas aprender, y la pregunta profunda es cuán limitada está tu capacidad de aprendizaje en esencia, si la construcción de aprendizaje es una construcción de un número mediante multiplicación de números previos. Es decir: en las dos hipótesis más importantes en matemáticas existe una formulación de aprendizaje que toca su esencia - y debería haber sido el camino en el que van hacia su solución, si no nos hubiéramos encontrado con pensamiento lingüístico, es decir con un tipo muy primitivo y combinatorio de construcción (tanto de los números naturales como de algoritmos). En ambas hay que demostrar que cierto fenómeno es difícil de aprender - es decir encontrar qué no se puede aprender. En la historia de las matemáticas resolvimos hipótesis base que no sabíamos en absoluto cómo abordar (existencia de números irracionales, cuadratura del círculo, ecuación quíntica, teorema de Gödel, etc.) siempre mediante una nueva construcción así, que logró capturar el fenómeno - y después una demostración de qué no se puede construir mediante ella. Notemos que todas estas eran problemas de qué no se puede hacer (en la escuela pitagórica la existencia de un número irracional era la incapacidad de construirlo como razón mediante los naturales, aunque el problema está formulado de manera positiva), porque los problemas más profundos en matemáticas son siempre problemas de falta de (im)posibilidad. Precisamente porque las matemáticas son construcción - están propensas a encontrarse frente a un callejón sin salida cuando necesitan mostrar qué no se puede construir (y menos qué sí se puede - porque eso simplemente se puede construir). Y por lo tanto para avanzar en los dos problemas de imposibilidad principales hoy, NP y Riemann, hay que construir una definición matemática de aprendizaje y de la construcción que surge de ella - y entonces una demostración por el camino de la negación que no puede existir tal construcción porque no se puede aprender esto (en otras palabras: el aprendizaje puede y debe expresar la estructura matemática que aprende, e imponer sobre ella limitaciones por lo que no se puede aprender - que se derivará de la teoría matemática del aprendizaje - y así demostrar los límites de sus posibilidades). Y respecto al problema de NP versus P, notemos que aprender, en el sentido general, es necesariamente difícil, no eficiente y no polinomial. Y en realidad quizás lo que es suficiente demostrar es que aprender es un problema difícil, porque es fácil verificar que aprendimos correctamente, de acuerdo a los ejemplos. Este es en sí un problema NP. Es decir mostrar que si hubiera un algoritmo de aprendizaje general eficiente - entonces se debe llegar a una contradicción (tal reducción al absurdo es que si se puede resolver el problema del aprendizaje, entonces se puede resolver todo fácilmente, porque el aprendizaje puede primero aprender el algoritmo de solución, y en tal situación también se puede aprender a resolver el problema del aprendizaje mismo, y así hasta que se llega a algún algoritmo de aprendizaje mínimo, pero este también se aprende. Además, en tal situación, hay un exponente polinomial mínimo para un algoritmo en P que resuelve un problema NP, y entonces hay que mostrar que debido a las propiedades constructivas del aprendizaje, también un algoritmo debajo de él, es decir que el nuevo se construye mediante él y que tiene un exponente polinomial más bajo, resuelve un problema NP. Alternativamente, dividir la información entre los ladrillos de los que está construida la solución, y bajar por inducción ad absurdum, mediante una formulación de la idea que la solución de un problema NP depende de toda la información, y no hay divide y vencerás en ella, al menos en construcción de aprendizaje. La polinomialidad misma surge de que el aprendizaje es constructivo, y las dos construcciones básicas son suma de algoritmos, y llamada en bucle, es decir suma y multiplicación, y de aquí el polinomio en P, es decir la explicación de por qué esta es exactamente la definición de eficiencia y facilidad de solución). Notemos que las cosas básicas en matemáticas son de alguna manera siempre un proceso discreto infinito: los primos, el límite, el cálculo, la lógica... Y así será también en el aprendizaje, y de hecho, el aprendizaje es la razón de este fenómeno, porque está debajo de ellos. Y en cualquier caso, de esta propiedad común, surge su capacidad de tratarlos, y de irrumpir hacia un nuevo paradigma matemático, que está más allá del lenguaje (que es el paradigma matemático actual). Y entonces notaremos cuánto el problema NP es en realidad un problema de aprendizaje (que fue conceptualizado erróneamente mediante lenguaje, y por lo tanto se convirtió en uno que no hay lenguaje que lo adecue, o capaz siquiera de empezar a captar su solución), y entonces no entenderemos por qué no entendimos que la conceptualización mediante aprendizaje es la dirección natural de su solución. Ya que mediante la visión de aprendizaje, también vemos la similitud de NP con la evolución, donde el aprendizaje es el mecanismo (apareamiento y mutación) que lucha frente al examinador de supervivencia y aptitud, cuando es muy difícil construir un ser vivo e innovar en él, y muy fácil verificar si sobrevive o no. La biología siempre se encuentra en posición de aprendizaje difícil frente a la naturaleza cruel, que le es fácil juzgar sus esfuerzos. Y aquí, en el camino hacia el aprendizaje, vemos que la belleza juega un papel en la guía, para que la biología pueda adivinar mediante atajos quién es más apto y quién menos. Y así también en matemáticas. Un criterio duro de demostración va de la mano con un criterio suave de belleza, que permite a los matemáticos hacer matemáticas y avanzar en el aprendizaje matemático, aunque este es un problema difícil en principio. Y también nuestro pensamiento depende de movimientos hermosos. Y así también juzgamos la filosofía.


Filosofía de la teoría de la complejidad

¿Cómo se realiza la evaluación: hay muchas capas de evaluación como parte de la definición de aprendizaje o solo una al final, como en NP, donde no se puede descomponer en capas de evaluación? Pues bien, los dos ejemplos naturales de aprendizaje ayudan a entender qué es el aprendizaje - el cerebro y la evolución - y en ellos hay infinitas capas de evaluación, y de hecho en cada capa (o generación) hay una evaluación de la anterior (por eso las mujeres son la capa oculta - de la red - en la evolución, es decir son lo que convierte cada generación en una red profunda, como capa de evaluación interna entre la entrada y la salida, es decir los hijos). Así, de la misma manera, el límite y los naturales nos ayudan a entender qué es el concepto generalizado de aprendizaje en matemáticas, en el campo continuo y en el campo discreto (y el aprendizaje del cerebro es continuo, mientras que el aprendizaje de la evolución es discreto). Pero más allá de esta abstracción misma, que refleja un contenido profundo común a todas las partes de las matemáticas (el aprendizaje como contenido de las matemáticas), también se puede buscar el aprendizaje como su forma matemática. Qué hay debajo de las matemáticas mismas: cómo se aprenden las matemáticas. Por ejemplo: definir matemático. Hoy en día, se acepta que un algoritmo de aprendizaje debe ser polinomial. Pero la restricción de polinomialidad para el algoritmo que aprende no es correcta en el caso general (matemático). Por lo tanto nosotros como humanos, como cerebros, hacemos muchas cosas para las que tenemos un algoritmo eficiente, pero no tenemos un aprendizaje general eficiente, y tampoco puede haberlo. En general, el aprendizaje es eficiente solo cuando está muy limitado mediante el uso de cosas que aprendimos antes. Y por eso tenemos la ilusión de que el aprendizaje es un proceso eficiente, porque la mayoría de nuestro aprendizaje es así, pero lo que caracteriza a tal aprendizaje especial es que es el aprendizaje del conocimiento. Y por lo tanto la mayoría del aprendizaje en nuestro mundo es aprendizaje de conocimiento, porque el aprendizaje de acción y nuevos algoritmos es siempre ineficiente. Entonces, ¿qué es el conocimiento? Cuando hay un algoritmo de aprendizaje eficiente. Esa es su definición. Notemos que casi todo lo que aprendemos son cosas que otros saben hacer, es decir usamos funciones preparadas, y construimos a partir de ellas, y se puede descomponer nuestro aprendizaje en funciones preparadas. Por lo tanto, en la descomposición del aprendizaje en la construcción de las capas que lo crearon, hay que pensar en la estructura misma del espacio de todas las posibles descomposiciones de un problema en subproblemas. Pero, toda definición de aprendizaje de un maestro debe superar el problema "dentro del sistema", es decir que la ayuda no sea programación del alumno desde fuera y trampa y conspiración entre ellos, pero si la descomposición es una descomposición máxima, es decir en piezas demasiado pequeñas, entonces es exactamente como programación. ¿Es posible caracterizar la descomposición ideal, como encontrándose en el medio entre la descomposición absoluta en migajas que equivale a programación (descomposición máxima) y el problema NP (descomposición mínima, donde solo hay un examinador al final y no hay evaluaciones intermedias)? Si no hay maestro, hay desarrollo - como en la evolución que construye sobre algoritmos previos y como en matemáticas que construye sobre demostraciones previas, y entonces la división del problema en subproblemas es natural, porque no hay quien la divida. La descomposición máxima es el algoritmo, como código escrito, y la mínima es el problema mismo, el exponente - y en medio el aprendizaje es lo que los conecta. Es decir, esta transición del problema al algoritmo es en sí misma el proceso de aprendizaje. Es decir: la adición de más y más divisiones (cuando es de arriba hacia abajo, desde el punto de vista del maestro) o más y más conexiones de construcción (cuando es de abajo hacia arriba, desde el punto de vista del alumno), y cuando solo hay alumno y no hay maestro este es el desarrollo, que es natural. Una solución polinomial significa que se puede descomponer en subproblemas más simples, es decir, aprender. Y por lo tanto, lo que se puede aprender caracteriza lo polinomial, y por lo tanto el aprendizaje es la construcción que se ajusta a la comprensión de los límites de lo polinomial (es decir, lo que lo separa de NP). Ya que el aprendizaje es la construcción de lo polinomial desde lo lineal, es decir desde el mínimo que simplemente permite leer toda la entrada, y por lo tanto los polinomiales son un grupo natural. Y por lo tanto debemos buscar una descomposición mínima que sea aprendible, por ejemplo una descomposición mínima en subproblemas lineales, porque la descomposición máxima no es interesante, ya que es idéntica a escribir el código (y lineal es por supuesto solo un ejemplo de los bloques de aprendizaje más básicos en el campo algorítmico. Y por ejemplo, en la rama de la teoría de números, puede ser la factorización en una multiplicación. O cualquier otra función limitada, que define otros problemas en matemáticas). Por lo tanto, en nuestra definición de aprendizaje, podemos asumir la selección ideal de ejemplos (para el aprendizaje, por parte del maestro), así como asumimos la descomposición mínima. Lo que aprende - y también lo que enseña - no tiene que estar limitado computacionalmente, sino que está limitado constructivamente. Y notemos también que toda esta estructura de construcción mediante funciones previas es mucho más similar al pensamiento humano (por ejemplo, desde la lógica y el lenguaje y el cálculo y la percepción). No sabemos cómo hacemos las cosas que sabemos hacer, pero sabemos hacer c-o-n ellas cosas. Aprender mediante ellas. Pero no sabemos cómo aprendimos, es una caja negra. Y todas las funciones de las que construimos en nuestro aprendizaje pueden ser cajas negras para nosotros. Es decir: hay aquí dos partes en el aprendizaje. Una parte que define y caracteriza la estructura que se quiere aprender - o la descomposición que se quiere hacer al problema - que son las restricciones sobre las funciones: cuáles son las funciones básicas y cuáles son sus combinaciones permitidas. Y hay aquí otra parte, que pregunta qué información construye esta construcción específica de entre todas las posibilidades - que son los ejemplos. ¿Para prevenir la colusión entre el maestro y el alumno se requiere que la construcción se haga en un algoritmo de aprendizaje específico, y no en cualquier algoritmo posible del aprendiz (para que no sea posible codificar la solución dentro de los ejemplos)? Se puede elegir un algoritmo universal (no eficiente), con la navaja de Occam, como la combinación mínima en longitud que se ajusta a los ejemplos, o tal vez algún otro algoritmo de búsqueda ingenuo. Y entonces se te crea un árbol de descomposición del problema (la función aprendida) en subproblemas (que son subfunciones), con números de ejemplos requeridos para crear la combinación correcta (la construcción correcta) de subfunciones en cada bifurcación de ramas (el número de ramas es como el número de subfunciones que construyen la rama sobre ellas). Y entonces tal vez hay un trade-off entre la dimensión de la descomposición (como la descomposición en subproblemas detallada) y el número de ejemplos. Y entonces el árbol puede crecer al infinito en un problema NP, o cuando los bloques básicos de los que se construye solo aproximan la solución (como en los primos, que solo aproximan primos grandes, porque no son suficientes para expandir todos los naturales, porque hay infinitos primos, y entonces se puede evaluar cuán completa y buena es la aproximación en relación al número de primos - y esta es la cuestión de Riemann). Y entonces mediante esto se pueden expresar problemas de imposibilidad de construcción. Si exiges un mínimo esfuerzo del maestro, y un mínimo de ejemplos, entonces si ya tienes cosas que has aprendido, exiges el mínimo de los mejores ejemplos para aprender la siguiente cosa. Y esto por sí mismo reduce la complejidad de la siguiente cosa en el proceso de aprendizaje, porque por ejemplo es preferible enseñar una regla, y luego en un aprendizaje adicional la excepción. Por lo tanto, si tenemos el alumno perfecto y el maestro perfecto, preguntaremos cómo se ve el aprendizaje perfecto. Por ejemplo, ¿cómo indica el maestro que se trata de un ejemplo que es la excepción? (para que haya una regla en general, y no solo un ejemplo de la regla y un ejemplo opuesto - si se dan simultáneamente, es decir sin descomposición secuencial - lo que puede descomponer la regla por completo, porque ¿cómo sabrás cuál de los ejemplos es la regla y cuál es la excepción)? Pues bien, no lo hace. Simplemente primero enseña la regla. Y luego después de eso, en la siguiente capa de construcción, después de que la regla se ha aprendido, enseña la excepción. Y entonces lo más corto que puede hacer el aprendiz, asumiendo que ya tiene una función que es la regla, que ya ha aprendido, es simplemente agregarle una excepción (en ciertos casos). Y así la descomposición puede ahorrar en el número de ejemplos. Y la información en la descomposición puede permitir el aprendizaje con menos información, en ciertos casos, de lo que hay incluso en lo que se enseña (porque la información en la descomposición misma, que da el maestro en el orden mismo del material de estudio, no se cuenta). Este es un estructuralismo de aprendizaje.


Filosofía del aprendizaje computacional

Por lo tanto, tienes una lista de funciones/algoritmos/oráculos y tienes una función que es una combinación limitada de ellos, y los aprendes de ejemplos que son elegidos como los mejores, cuando no tienes limitaciones computacionales. Y tampoco sobre el maestro. Y la pregunta es cuál es el mínimo de ejemplos que es posible con una descomposición del problema en subfunciones/algoritmos, cuando aprendes según la navaja de Occam (por ejemplo según la complejidad del algoritmo, su longitud, u otro criterio de simplicidad). Si la descomposición viene gratis entonces se mira el número total de ejemplos, y entonces la descomposición es máxima, es decir el aprendizaje es lo más gradual posible. Alternativamente, se puede mirar precisamente la relación entre los ejemplos y la descomposición (entre el número de ejemplos requeridos y el número de subproblemas en la descomposición dada), que es por supuesto una relación inversa. O examinar diferentes topologías de diferentes árboles de descomposiciones del mismo problema (¿de cuántas maneras se puede descomponer el mismo problema, que son fundamentalmente diferentes?). Nuestro objetivo es construir el árbol de aprendizaje de una manera que descomponga el problema en problemas de forma no trivial. Porque si miramos la descomposición mínima, cuando la descomposición es cara y los ejemplos son gratis, obtendremos una descomposición trivial, es decir que no hay descomposición, y volvimos al problema original, que solo tiene un examen y ejemplos, que se parece a NP. Por lo tanto, también se pueden mirar todas estas posibles descomposiciones, tal vez infinitas en ciertas funciones, y ver cómo ellas mismas se derivan una de otra, y cuáles son las propiedades de tales bosques de árboles. Y entonces encontrar una forma canónica de descomposición, que tal vez esté en cierta relación entre la cantidad de descomposiciones y el número de ejemplos. Al final no son los ejemplos lo interesante o su número, sino las estructuras del árbol - cuál es la descomposición de un algoritmo en subalgoritmos. O de un problema en subproblemas. O la descomposición de un teorema en todas las demostraciones posibles (y sobre las matemáticas mismas en su totalidad se puede pensar como un grafo de demostraciones, que se puede investigar como grafo, y encontrar tal vez conexiones entre la estructura de este grafo y estructuras matemáticas). Y si la descomposición que da el maestro descompone lo suficiente en detalle en subproblemas pequeños, entonces tal vez hay un algoritmo eficiente para el aprendizaje (es decir para encontrar combinaciones de construcción de acuerdo a los ejemplos), y tal vez incluso una simple búsqueda ingenua es eficiente, porque lo que es realmente difícil de encontrar es la descomposición. Pero si la descomposición surge del número mínimo de ejemplos (es decir que el número mínimo de ejemplos no necesariamente requiere una descomposición máxima) entonces esto le da poder (en ambos sentidos). Y de aquí se puede empezar a pensar en todo tipo de diferentes funciones de combinación de subfunciones, que crean diferentes problemas de construcción, cuando se limita lo que está permitido en la construcción. Por ejemplo: solo una combinación lineal de funciones que dará el ejemplo que dio el maestro, o un sistema de demostración que demostrará como el ejemplo de demostración, o aprender un grupo, que también es una función simple (suma), y se puede aprender con menos ejemplos que todas las combinaciones de sus elementos si se descompone en subproblemas, y tal vez incluso habrá en los ejemplos menos información que la que hay en él (porque como se dijo la otra información se esconderá en la descomposición). Y entonces podremos preguntar cuánta información ejemplar hay en un grupo, o en cualquier otra estructura matemática, y esta puede ser la definición de información de aprendizaje (en contraste con la lingüística). Porque la generalización de ejemplos no está justificada, sino basada en lo que ya existe (las funciones que ya aprendiste, es decir que te fueron presentadas primero por el maestro en la descomposición del problema en subproblemas, que son las funciones más simples, de las cuales aprendes algo más complejo, como en el aprendizaje de un bebé o en el desarrollo de la evolución - y esta es una propiedad fundamental del aprendizaje). Es decir hay una especie de pista así para usar lo que ya aprendiste. Lo que ya sabes es tu prior. Y en una función continua esto es extremo (porque no se te permite complicarla innecesariamente, de lo contrario nunca aprenderás ni siquiera funciones simples, y estás obligado a la simplicidad primero, debido a la navaja de Occam). Por lo tanto se necesita la combinación mínima de lo que sabes - que produce el nuevo ejemplo que dio el maestro. Y si estás obligado a la simplicidad esto es inmune al engaño. Porque si hay colusión (por ejemplo si el maestro codifica los pesos requeridos del alumno dentro del ejemplo), entonces esto no cumple con la condición de la navaja de Occam. El algoritmo es descalificado porque no da lo más simple. El alumno no puede elegir una composición arbitraria sino la más simple y mínima. Hay un criterio interno de simplicidad, que llena el lado evaluador, femenino (las capas intermedias de evaluación), y también hay una función de composición (que es diferente en cada aprendizaje de una estructura matemática de cierto tipo. Por ejemplo: aprendizaje de grafos, aprendizaje de grupos, aprendizaje de funciones continuas - que se pueden construir mediante aproximaciones polinomiales o alternativamente en transformada de Fourier y similares, aprendizaje de algoritmos, aprendizaje de demostraciones, aprendizaje de juegos, aprendizaje de topologías, aprendizaje de lenguajes, etc.). Y la información que aparentemente se ahorra, porque no se cuenta - es estructural. Es decir: tal que surge de la división estructural (la descomposición), y por lo tanto si no hay estructura en absoluto en lo que se aprende sino solo ruido entonces el aprendizaje tendrá que ser la transferencia de toda la información. Es decir no es aprendizaje sino transferencia de información lingüística.


Filosofía del aprendizaje automático

La pregunta básica aquí, que se ha repetido a lo largo de toda la historia de las matemáticas, es: ¿cómo se crea una función? Tal vez se crea físicamente en la naturaleza (ontología), tal vez se crea geométricamente (visión), tal vez se percibe (razón), tal vez se define (lógica), tal vez se calcula, y tal vez se aprende. Es decir: se construye a partir de subfunciones. Y de aquí, de las partes de la definición de función, salen todas las principales áreas de investigación del aprendizaje actuales en el aprendizaje computacional. Cuando el aprendizaje no tiene el origen de la función (su dominio, en la jerga matemática) esto es aprendizaje por refuerzo (y entonces la simplicidad busca el origen más simple que creará la función más simple), y cuando no tiene el rango de la función esto es aprendizaje no supervisado (y entonces la simplicidad busca el rango más simple que creará la función más simple). Y cuando la simplicidad de la función se considera no solo desde la construcción de subfunciones (cuán compleja es) sino también desde su construcción desde los ejemplos mismos entonces este es el aprendizaje estadístico (el tamaño de la distancia desde ellos es parte del cálculo de la simplicidad). La definición del aprendizaje tiene como objetivo el análisis del objeto matemático aprendido - y encontrar su estructura interna. Su objetivo es construirlo - mediante jerarquía (descomposición en subproblemas) y mediante ejemplos. Es decir: mediante dos tipos de información estructural, que permiten la combinación entre dos estructuras: de arriba hacia abajo (vertical), y desde el lado (horizontal) - diferentes ejemplos son diferentes posibilidades de composición paralelas, en cada nivel, desde el piso de abajo. Y por lo tanto todo en matemáticas se mueve entre la falta de estructura y el exceso de estructura. Demasiados grados de libertad y muy pocos. Y por lo tanto sus límites son aleatoriedad y complejidad extrema hasta el punto de no poder decir algo significativo por un lado, y por el otro lado una estructura demasiado simple y trivial y carente de información y riqueza. Por lo tanto siempre hay que encontrar dentro de ella el límite fractal - allí está la belleza. Y allí también está el interés matemático, porque allí se encuentra la mayor cantidad de información de aprendizaje, en contraste con la información aleatoria y opaca (en el sentido de que no se puede descifrar), o información trivial y opaca (en el sentido de que no hay nada que descifrar, porque está herméticamente cerrado). ¿Y por qué estas son propiedades fundamentales de las matemáticas? Porque todo se aprende, y el aprendizaje es la raíz de la estructuralidad, y también la raíz de la complejidad de la estructuralidad, porque esta no es después de todo una estructuralidad unidimensional, sino bidimensional (lo que la convierte en construcción), como la que tenemos en los números (suma y multiplicación). Y notemos, que la simplicidad en el aprendizaje definido arriba es online, y no frente al todo como en la navaja de Occam simple (MDL, Solomonoff, o en complejidad de Kolmogorov). Es decir: buscamos la hipótesis más simple después del primer ejemplo, y entonces digamos que tomamos esta (esta hipótesis) como otra función lista debajo, y le agregamos el siguiente ejemplo, y entonces buscamos la hipótesis mejor y más simple, considerando la hipótesis anterior como una que no tiene costo, es decir como simple. Es decir: la función que ya se aprendió en la primera etapa ya no se cuenta en la complejidad y el cálculo de la simplicidad. Y tal vez incluso es posible una definición universal y simplista de la función de simplicidad - simplemente como el número de composiciones. Es decir la simplicidad solo como producto de la idea de composición, y no como medida y evaluación independiente.


Filosofía de las matemáticas: resumen

Con todo esto, podremos caracterizar nuevamente mediante el aprendizaje la diferencia entre finito e infinito como la diferencia entre aprendible y no aprendible, que crea un corte más preciso entre estas dos categorías. Una estructura algebraica, finita, es siempre aprendible al final. Mientras que una categoría de estructura infinita, continua, solo puede ser aprendida en el límite, es decir no es aprendible finitamente. La infinitud puede ser horizontal hacia el lado (en la colección de ejemplos en cada nivel), o vertical hacia arriba (en la composición) o hacia abajo (en la colección básica de funciones desde la que se comienza en general). Y en tal visión, la continuidad y la simplicidad están relacionadas. Todo es finito pero se puede aproximar. Es decir: el límite no se puede calcular, sino aprender, reducir distancia. Y si agregamos a la función de medición de simplicidad una aproximación (versus la precisión requerida en lo discreto, cuando es obligatorio reproducir los ejemplos - y esta es en realidad la definición de lo discreto), entonces la idea de la derivada es la aproximación lineal a la función (es decir si solo se permite construcción lineal), y así sucesivamente (en las derivadas más altas, que son capas más altas en el aprendizaje, hasta la serie). Y mientras que la continuidad es una derivada de orden cero - constante. Es decir, ¿cuál es la simplicidad en cálculo infinitesimal? Simplicidad sobre los ejemplos y no sobre la combinación (o también sobre la combinación, como en regresión lineal). Y mientras que la integral es el problema inverso, el problema del maestro: cómo encontrar una función que hará que la evaluación del alumno - su aproximación - se vea como una función específica. Y mientras que en el mundo discreto, que está controlado por los ejemplos con precisión, encontramos problemas infinitos en lo que no se puede aprender hasta el final, como los primos (cuando la composición permitida en la construcción es la multiplicación). Y entonces se puede por ejemplo preguntar cuán complejo es el árbol de composición de naturales, en promedio (es decir su factorización en primos, que se aprende con el menor número de ejemplos). Entender cómo construir el conjunto de los naturales, cuando la combinación es multiplicación, significa saber cuál es la distribución de la cantidad de ejemplos que el maestro necesita dar, para construir los naturales hasta cierto número. Es decir, hay una formulación de aprendizaje para las preguntas básicas en matemáticas - que les permitirá una solución de aprendizaje, desde el momento en que cambie el paradigma del lenguaje que está atascando el progreso en estas preguntas, debido a un marco conceptual inadecuado. Y así la filosofía puede ayudar a las matemáticas - y al aprendizaje matemático.




Filosofía del aprendizaje computacional

La siguiente etapa después de la filosofía de las ciencias de la computación es la filosofía del aprendizaje computacional. La situación del aprendizaje profundo hoy es como la situación de la computadora personal antes de Internet. Y el futuro es una red de Internet de redes de aprendizaje profundo y de clasificadores de aprendizaje automático, que están conectados entre sí en protocolo, y crean la capacidad de componerlos en construcción de aprendizaje. Es decir: conectar todo tipo de módulos de aprendizaje profundo, cada uno especializado en algo, en algún sistema grande, que realmente sabe muchas cosas sobre el mundo, como el cerebro, y que no sean solo sistemas expertos aislados que fueron entrenados según datos específicos. Una red de redes profundas así será una especie de mercado, donde se paga un poco de dinero por un poco de clasificación, o cualquier otra capacidad o acción, y se crea un ecosistema enorme de aprendizaje artificial. Y será la introducción hacia la inteligencia grande - y de ella crecerá la inteligencia artificial, y no de ningún sistema específico - no se establecerá un día desde alguna red en algún laboratorio, sino desde la-red. ¿Cuáles serán las categorías naturales de tal inteligencia? Así como en el mundo de la computación, la máquina de Turing redefinió la idea del espacio como memoria, es decir como información que ocupa lugar, y la idea del tiempo como operaciones en el cálculo, es decir como algo que toma tiempo (y de aquí - la eficiencia), así el aprendizaje profundo las redefine. ¿Qué es el espacio ahora? Algo local, como en redes convolucionales, es decir un sistema donde algo afecta a cosas cercanas a él. ¿Y qué es el tiempo? Memoria continua, como en RNN, es decir un sistema donde algo afecta a cosas lejanas de él. El mundo anterior, el mundo de la computación, redujo la importancia del espacio (porque todo está en memoria), y anuló sus dimensiones naturales (la memoria por naturaleza es unidimensional), y en cambio enfatizó la dimensión del tiempo y la velocidad precisamente. Y mientras que aquí, en el mundo del aprendizaje profundo, vemos que precisamente hay lugar para la expansión de la dimensión del tiempo, que ya no será unidimensional, porque las cosas pueden afectar desde lejos desde todo tipo de direcciones - y en más de una dimensión. Definitivamente es posible una red de aprendizaje profundo con dos dimensiones de tiempo y más, es decir que está conectada en la dimensión del tiempo a copias de sí misma en más de una dimensión, y no solo recursivamente hacia atrás, sino recursiva en dos variables/direcciones y más. Es decir, si la computación fue temporalización del espacio (todo, incluyendo dinero, equivale a tiempo), entonces el aprendizaje profundo puede ser espacialización del tiempo (todo será espacio, también los tiempos).


Filosofía del aprendizaje profundo

¿De qué está construido el aprendizaje profundo? De las dos cosas más básicas y primitivas que se aprenden en matemáticas, es decir del primer semestre: de álgebra lineal 1 y de cálculo 1. El álgebra lineal es la composición, de la que hablamos (y es la composición más simple que existe: combinación lineal). Y además existe también la derivada, que da la dirección, de acuerdo al tercer postulado nataniano (derivada es dirección y por lo tanto es la dirección más simple). Es decir: ¿qué hace realmente el aprendizaje? Reemplaza los ejemplos con direcciones. ¿Y qué hace que el aprendizaje sea profundo? Que toda esta construcción se hace dentro de un sistema. Esta es la profundidad del sistema (y el segundo postulado). Y el aprendizaje ya no está todo el tiempo cerca de la superficie del sistema, como en el lenguaje, en el diálogo del sistema con los ejemplos externos (en el fondo de la red y en su cima). Y además, cada capa es mujeres para la capa debajo de ella y hombres para la que está sobre ella, según el cuarto postulado nataniano. Es decir vemos aquí la realización en el campo de todos los postulados (e incluso el primero, si te das cuenta). Como una profecía. Y notemos también, que hay aquí dos elementos, que compiten uno con otro a lo largo de toda la historia del aprendizaje: dirección versus estructura. Aquí los vemos en la derivada del gradiente que inunda todo en difusión hacia atrás en el tiempo del aprendizaje (la dirección) versus construcción de un modelo específico (por ejemplo la arquitectura específica de la red, que se determina de antemano, pero aún más que eso todo tipo de ideas que son menos populares hoy, como crear un modelo de aprendizaje específico con priors fuertes para un problema específico, en lugar del enfoque general de red profunda para todo problema). Y todo esto es solo la encarnación contemporánea de ese mismo viejo problema de ambiente versus herencia, y de empirismo versus racionalismo, y de Aristóteles versus Platón. O de competencia libre y la mano invisible (mundo de la dirección) versus socialismo y el estado (mundo de la estructura), liberalismo versus conservadurismo, y evolución lamarckiana (en el extremo direccional) versus diseño inteligente (en el extremo estructural). A nivel matemático, la dirección es continua, y está relacionada con el mundo del análisis y la geometría, versus la composición estructural que es lingüística, y está relacionada con el mundo del álgebra y la lógica. Y el aprendizaje profundo es una victoria tremenda del enfoque de aprendizaje de la dirección a expensas de la construcción en esta dialéctica (pero aún vendrá el contramovimiento), y es paralela a la victoria del capitalismo y la democracia (dirección de la comunicación y las elecciones versus la estructura burocrática y gubernamental), o el dominio del hedonismo a expensas de la estructura en la sociedad. Porque en el aprendizaje profundo resulta que la estructura es mucho menos importante que simplemente mucho feedback y dirección (pero por supuesto que hay aquí una síntesis, porque después de todo ¿dónde hay tal jerarquía alta como en el aprendizaje profundo? Solo que resulta que los detalles de la jerarquía son menos importantes, y de hecho todo en ella se determina mediante la dirección, y así se nos crea un mecanismo de aprendizaje bastante general, que es una especie de tabla rasa empírica). Por lo tanto, para entender qué es el aprendizaje, tal vez lo que se necesita es tomar la relación entre los ejemplos requeridos para el aprendizaje versus dar la estructura requerida, es decir cómo cambia (la relación entre ellos). Cuantos más ejemplos se necesitan menos estructura, y viceversa. Y entender cómo se ve esta función, y que esta es la investigación importante, y no si la estructura es más o menos importante que los ejemplos. Por ejemplo si esta función es lineal, si es polinomial, si es exponencial, y similares, en diferentes dominios de problemas (por ejemplo si se aprenden diferentes objetos matemáticos, y también en diferentes problemas en la realidad). Es decir, lo que hay que preguntar es cuál es la relación entre la cantidad de ejemplos y la cantidad de priors. Y este es el mismo problema de varianza versus sesgo, que está en el corazón del aprendizaje automático (pero menos en el corazón del aprendizaje profundo, después de la gran victoria de la varianza contra el sesgo, con infinitos parámetros del aprendizaje profundo, que son muchos más que la cantidad de restricciones).


Filosofía de la neurociencia

¿Cuál es la infraestructura conceptual que siquiera permite una regla como la regla de Hebb (tan local, en contraste con la globalidad de las redes profundas), que tiende a la retroalimentación positiva o negativa (una característica fatalmente corrupta)? ¿Cómo es siquiera posible la regla de Hebb, como mecanismo básico de aprendizaje, que no tiene ninguna relación ni con la guía - ni con la estructura, ni con el exterior - ni con el interior? Bueno, la regla de Hebb no es solo "disparan y se conectan" (las neuronas que disparan juntas se conectan juntas - los hermanos fire&wire), sino que su verdadera formulación es que fortalezco la conexión de quien me predijo, y debilito de quien yo predije. Por lo tanto, esta regla solo tiene sentido bajo la suposición de que las neuronas son principalmente tanto transmisores de información como evaluadores cualitativos independientes, y entonces esta regla crea reputación, y busca novedad, para difundirla. Además crea capas, porque está en contra de la circularidad. Busca al primero en identificar, y por lo tanto crea competencia sobre quién será el primero en identificar, es decir: es una regla competitiva. Pero ninguna fuente única para una neurona debe superar el cincuenta por ciento, o al menos un umbral fijo, de lo contrario es una retroalimentación circular positiva corrupta (además, está claro que esta regla por sí sola no es suficiente, porque es autista, y también se necesita un neurotransmisor que dé retroalimentación externa, y probablemente otras formas de retroalimentación). Es decir, la regla de Hebb solo puede funcionar si tienes (como neurona) capacidad de evaluación independiente, y sugiere una (!). Y entonces hay competencia por ella. Por lo tanto, definitivamente tiene sentido para una red social de seres humanos, incluso más que para una red de neuronas, aparentemente. Pero de cualquier vistazo al conectoma del cerebro, o incluso de una sola red neuronal, parece que el cerebro va muy muy lejos en formas de crear desorden y diversidad y ruido y complejidad, tal vez para no permitir que la regla de Hebb converja a la trivialidad, y darle materiales lo suficientemente diversos, estocásticos, caóticos e inestables para trabajar en ellos. La regla de Hebb trata la información como contenido, y no como acción en el cálculo (como en la percepción de la red neuronal como un tipo de computadora distribuida y paralela). Es decir, cuando hay mucha redundancia (como en el cerebro, o en muchos otros sistemas de aprendizaje) y todos están en la misma línea, entonces hay que elegir el mensaje correcto, que transmites con un cambio con parámetros relativamente pequeños, es decir cuando se trata más de transmisión de información y menos de cálculo. Y en este contexto, toda la historia de la predicción de arriba hacia abajo en el cerebro (digamos: cuando cada capa superior predice la que está debajo, y así por ejemplo predigo los datos sensoriales que recibiré), está probablemente profundamente relacionada con la regla de Hebb. Porque a quien predigo es redundante que lo escuche. Y si es así, hay aquí un proceso de adivinación y convergencia y menos de cálculo. Por lo tanto, hay que reemplazar la palabra predicción con adivinación. En tal percepción, el cerebro funciona mediante cálculo desde abajo (arriba) y adivinación desde arriba (abajo), y entonces están los puntos de conflicto entre ellos, o las capas de conflicto, y quien tuvo razón (y adivinó o calculó la continuación) decide allí sobre el otro. Si cada capa superior dice lo que debería haber estado abajo, y viceversa, entonces la convergencia de este proceso permite encontrar la fuente del error, que es el lugar desde donde comienza la evaluación incorrecta a saltar, y allí hay un aumento pronunciado en el problema. Es decir, o el cálculo - que sube desde abajo - se distorsionó en este lugar y se volvió incorrecto, y entonces arrastró un error en la continuación de las capas hacia arriba, o la adivinación - que baja desde arriba - se distorsionó en este lugar y resultó incorrecta, y entonces arrastró un error en la adivinación hacia la continuación de las capas hacia abajo. Por lo tanto, una neurona real es un evaluador de contenido, y no solo evaluado. Porque decide a quién escuchar. Es decir, es evaluada específicamente por cada contenido que transmite, y evalúa específicamente cada contenido que recibe. No teme un mecanismo de retroalimentación positiva o negativa infinita, donde solo escucha a un amigo y a nadie más, porque escucha suficientes opiniones con suficiente ruido, y tal vez también hay un límite a cuánto escucha a alguien (tal vez es logarítmico por ejemplo). Es decir, vemos que cada neurona puede tener no solo retroalimentación externa y guía desde arriba, sino también formas de medición intrínsecas para la evaluación, como: ¿me predice, y se ajusta a la predicción de quien está arriba de mí ahora? El pensamiento común en el aprendizaje profundo es sobre las dos direcciones en la red como separadas, que vienen en dos etapas separadas: el cálculo (propagación hacia adelante) de abajo hacia arriba, y la retroalimentación (propagación hacia atrás) de arriba hacia abajo. Pero también se puede pensar en ellas como ondas en un sistema que avanzan en el tiempo simultáneamente, asincrónicamente y en ambas direcciones, según su intensidad, es decir a veces un cierto avance se detiene en una neurona insatisfecha, o toda una capa así, y comienza a devolver retroalimentación hacia atrás, y viceversa, y hay retornos y ecos y un mar tormentoso, hasta que converge a un cierto estado, y este es el mecanismo de cálculo real de la red (y no solo de abajo hacia arriba). Y así tanto el entrenamiento como la ejecución/predicción no son dos etapas separadas, como si la propagación hacia atrás y la propagación hacia adelante ocurrieran en paralelo. Y así es probablemente como sucede en el cerebro. Y si cada capa predice la que está antes que ella, entonces a veces se devolverá retroalimentación incluso desde la capa de entrada, de los datos, lo que no sucede actualmente en el aprendizaje profundo, y es una lástima, porque estamos perdiendo esta resonancia, y la información en la señal de propagación hacia atrás desaparece y se pierde cuando llega a la capa de entrada (no usamos esta información para comparar con la entrada real). Pero si cada unidad de procesamiento recibe guía desde arriba, y emite independientemente (y no solo como parte de la propagación hacia atrás) guía hacia abajo, entonces en el encuentro entre abajo y arriba el gradiente o la evaluación que bajan desde arriba se encuentran con lo que sube desde abajo, en el cálculo que hubo. Y si hay una falta de correspondencia entonces hay un problema. Para ambos lados. Y si no están de acuerdo sobre en qué dirección debe cambiar la señal, entonces hay que alertar la atención a la falta de correspondencia. Y dirigir hacia ella los recursos del sistema, y así se puede prestar atención a novedades, o sorpresas, o problemas. Por ejemplo, a nivel micro, si digamos que hay una neurona no aceptada, cuyos pesos hacia adelante están cerca de cero, entonces recibió retroalimentación negativa para convertirse en una función más útil e interesante. Y si recibe consistentemente retroalimentaciones fuertes contradictorias, entonces tal vez necesita dividirse en dos neuronas. Y si las conexiones de dos neuronas son demasiado similares, entonces tal vez necesitan unirse en una. Es decir, podemos diseñar la arquitectura de acuerdo con las retroalimentaciones y las faltas de correspondencia. Y a nivel macro, esto permite al sistema buscar sorpresas, y ejemplos en los que se equivocó en predecir el futuro, y esta es la curiosidad. Por ejemplo, si una capa desde arriba se equivocó en predecir la que está debajo, entonces continúan investigando ejemplos similares, hasta que llegan a una solución. Porque el pensamiento sistémico más correcto es sobre una red que ya aprendió (mucho). Y entonces continúa aprendiendo otro ejemplo, o se encuentra con un nuevo ejemplo que no se ajusta al pasado. En contraste con el pensamiento actual donde la red comienza a aprender desde el principio todos los ejemplos (pensamiento infantil). Y por lo tanto, cuando identificamos un problema, el espacio de búsqueda de los parámetros debe funcionar como una búsqueda, y no solo como una optimización - sino exploración. Y proponer más novedades - nuevas combinaciones. En el momento en que hay una evaluación independiente, donde una capa juzga a la que está debajo usando su propia medida, y no solo según la guía que recibió de la que está arriba (en la propagación hacia atrás), puedes también realizar una búsqueda, y reducir el espacio de búsqueda a lo largo del camino (es decir entre las diferentes capas, y así la búsqueda no necesitará explotar en infinitas combinaciones en fuerza bruta). La primera generación de investigación en inteligencia artificial fue la búsqueda (como paradigma algorítmico central, por ejemplo en inferencia lógica), mientras que hoy la inteligencia artificial huye de la búsqueda como del fuego, y la reemplazó con optimización (en ajuste de parámetros continuos y en estadística), pero en el futuro habrá una síntesis entre ellos. La búsqueda también tiene algo que ofrecer (y no solo explotar), si se maneja correctamente, y de hecho muchas veces en el cerebro se realiza una búsqueda, como también en la evolución, porque esta es una forma que permite innovaciones más creativas - mediante combinación y evaluación de ella. Después de todo, la filosofía misma sería muy aburrida y aduladora si solo fuera optimización frente a su función de evaluación, y el hecho de que es una búsqueda es lo que la hace difícil e interesante - y creativa, en su lucha contra su evaluación. ¿Y por qué la evolución es más rápida que la búsqueda por fuerza bruta? El éxito de la evolución proviene de la capacidad misma de composición, es decir al principio la búsqueda es con combinaciones simples, y luego, en las siguientes capas, los pasos de búsqueda crecen, con combinaciones de partes complejas en sí mismas. Y en cada etapa (es decir capa) hay una evaluación independiente de la criatura. Así que no es fuerza bruta porque los pasos anteriores en el aprendizaje influyen en los siguientes pasos, y los guían, y por lo tanto la búsqueda no es en todo el espacio de posibilidades, sino solo en un haz progresivo. Si es así, el fenómeno de la composición y las generaciones (=capas) es básico en el aprendizaje. Es decir: tanto en el aprendizaje profundo como en el cerebro como en la evolución y en la definición del aprendizaje general, tenemos múltiples componentes que son cajas negras, y hay conexiones entre ellos en construcción (que hay que caracterizar en cada caso particular: en el aprendizaje profundo combinaciones lineales con un giro de no linealidad, en la evolución - apareamiento, y así sucesivamente en otros sistemas). Hacia arriba calculan una función, con ayuda del abajo. Y hacia abajo dan una evaluación (por ejemplo mediante gradiente o tal vez elección, por ejemplo en la pareja, ¿entiendes?).


Filosofía del estudio de redes

¿Qué crea la retroalimentación? En simple, ecuaciones diferenciales parciales y ecuaciones recursivas, que son en realidad mecanismos de retroalimentación, y de ahí los fenómenos de complejidad y caos. Por lo tanto también en el cerebro, y en el aprendizaje en general, los circuitos de retroalimentación crearán fenómenos similares, que son entonces naturales para el aprendizaje, y no fallas del mismo. ¿Pero qué tipos de retroalimentación hay? Hay mecanismos alternativos a la propagación hacia atrás del descenso por gradiente (=descenso por pendiente, en optimización) en la transmisión hacia atrás de evaluación. Por ejemplo: búsqueda de simplicidad (la evaluación es según una medida de cuán simple es, como según la navaja de Occam). O búsqueda de novedad. O de variabilidad y diversidad (cierta distribución). Pero la característica más importante de la retroalimentación no es según qué es, sino cuál es el tamaño del circuito que crea, porque esta es una característica sistémica. Y aquí destaca la debilidad de la propagación hacia atrás, que crea un circuito de retroalimentación gigante, que es muy artificial en un sistema grande - y muy lento. Una alternativa más razonable y por lo tanto más común son los bucles de retroalimentación cortos (no existe ningún sistema de aprendizaje en el mundo fuera de las redes neuronales artificiales que aprenda por propagación hacia atrás). Por ejemplo en el cerebro, hay muchas conexiones que vuelven hacia atrás entre las capas de neuronas, en la dirección opuesta (que no existen en el aprendizaje profundo). Lo que falta actualmente en la comprensión del cerebro - y también en el aprendizaje profundo - es la idea de competencia, y de propagación de una idea en una población (lo que de hecho se ajusta más a la regla de Hebb). Porque en cada etapa, compiten en el cerebro varias posibilidades, varios pensamientos de continuación, y se elige uno. Es decir hay una competencia por alguna evaluación, que elige cómo continuar el aprendizaje. Es decir: la mayor importancia de la retroalimentación es precisamente en la competencia que crea (exactamente como en economía o democracia, la existencia misma de la retroalimentación es lo importante, incluso si no es ideal). Pero en un circuito de retroalimentación demasiado grande todo esto se pierde o no es eficiente, en comparación con la competencia cercana en circuitos pequeños. También en el algoritmo PageRank de Google hay hubs, que son evaluadores, y esta es de hecho su esencia - análisis del grafo de modo que parte de los vértices en la red evalúan a otros (y a su vez son evaluados por ellos). Todo esto es muy similar a las redes neuronales, y así se crea competencia entre los sitios por el ranking, y en general competencia de calidad en la red. ¿Y en la ciencia? Cada artículo cita a otros, es decir esta es la evaluación en la red, donde no hay capas sino todos están conectados con todos. Y las capas se crean según el tiempo de publicación (cada artículo evalúa a los que se publicaron antes que él). Es decir tenemos aquí capas que evalúan a las que están antes que ellas, y son evaluadas por las que están después de ellas, y así se crea la competencia, mediante un mecanismo de red muy simple. En estos dos casos no se necesita un circuito de retroalimentación externo grande desde afuera para crear evaluación y competencia, sino que la evaluación en ellos se crea desde sí mismos. No se necesita necesariamente una evaluación externa fuerte como en la evolución para crear competencia, y esta es la clave para el aprendizaje no supervisado, que es el aprendizaje dominante en el cerebro, y la gran deficiencia del aprendizaje profundo, que necesita una cantidad enorme de ejemplos (por cierto, también en la evolución la principal competencia es por la pareja, es decir por los circuitos de retroalimentación pequeños, internos a la especie, y no contra la extinción grande). Así vemos que precisamente en redes donde no hay una evaluación externa clara, por ejemplo en Facebook, en el mercado de valores, y en citas, y en artículos, aún puede haber competencia intensa. En tales redes recibes un número, como precio o likes o h-index o pagerank y ranking en Google, y la guía sobre ti. Este número no te da ninguna guía, sino solo evaluación, y tienes que interpretarlo y entender de él en qué dirección necesitas cambiar. Y esto en contraste con el gradiente que te dirige en el aprendizaje profundo, que es una dirección que se te da desde arriba. Y tal vez se puede argumentar que el dominio polinomial es lo que tiene guía medible, mientras que NP es la clase de problemas sin guía, y no derivable, sino caótica y no local. Por lo tanto hay que aprender de NP que la evaluación no es suficiente para el aprendizaje. Solo la guía. Porque NP es exactamente este circuito de retroalimentación gigante, desde afuera, que resulta que no da nada al aprendizaje adentro, que nos llevará a la solución. No se puede derivar guía de tal evaluación. ¿Es lo polinomial el lamarckiano por etapas, es decir se puede descomponer en optimización local, es decir es construcción+guía? En el cerebro todavía no se sabe cómo funciona el aprendizaje, pero en la evolución sí, y vemos que también en ella hay una característica clave: función de evaluación independiente, que por eso hay dos sexos. Es decir incluso cuando hay una evaluación externa fuerte de vida y muerte, para que el aprendizaje funcione se necesita dentro del sistema también una evaluación interna independiente, de sexo. El circuito de retroalimentación grande debe estar descompuesto en circuitos de retroalimentación pequeños y más cercanos, que no son solo derivada, en ambos sentidos, de él. También en una red cultural/política/sociedad anónima/economía hay funciones de evaluación independiente. Es decir: hay partes cuya única función es esta. Y entonces hay competencia por ella, es decir hay duplicación y redundancia y diversidad y variación y comparación entre alternativas (de lo contrario ¿por qué existe la redundancia psíquica en todos los sistemas de aprendizaje? ¿por qué hay tantas neuronas en el cerebro y genes en el genoma y organismos en la especie - y personas en el estado). Si es así, ¿cómo funciona la evaluación interna? ¿Cómo es evaluada ella misma? Bueno, simplemente hay unidades de evaluación independientes dentro del sistema, que guían independientemente, y no solo un circuito general grande de retroalimentación. En general, la retroalimentación general al sistema es rara y costosa, y por lo tanto se depende de funciones de evaluación secundarias. Y simplemente también se aprenden las funciones de evaluación. ¿Y qué pasa en NP? Las evaluaciones secundarias no tienen éxito. De hecho, toda la idea del aprendizaje por refuerzo desde fuera del sistema como algo que crea el aprendizaje del sistema (por ejemplo el conductismo) es un error conceptual, cuyo origen está en una imagen filosófica simplista del aprendizaje. Nunca tenemos retroalimentación final, toda la cuenta aún no ha terminado.


Filosofía de las redes neuronales

¿Cómo ayudan aún más las evaluaciones independientes, dentro del sistema, en contraste con la evaluación externa, que viene desde fuera del sistema para enseñarle? Porque también hay que proteger lo que aprendiste antes de un nuevo aprendizaje que lo borra. Y la evaluación interna protege el aprendizaje que ella condujo de ser lavado y erosionado por guías externas que lo arrasan todo (como en la propagación hacia atrás). Así se puede hacer que la nueva retroalimentación llegue solo a algo nuevo, y se canalice hacia su dirección, y no hacia la dirección de todo lo viejo, y agregue - y no borre. Lo que permite la preservación de la memoria es precisamente que no hay aprendizaje hacia atrás. Por ejemplo que no es lamarckiano, sino aprendizaje de ADN, es decir digital y no solo analógico continuo (que todo se erosiona mediante derivada y convergencia en optimización). Y esto también permite la combinación. Cuando las evaluaciones son independientes, el aprendizaje va hacia atrás solo una capa cada vez. Allí ocurre la magia, por ejemplo de la complejidad, simplemente mediante otra capa. También en la evolución - siempre es una generación. La propagación hacia atrás (back-propagation) es la raíz del mal, que convirtió todo el campo del aprendizaje profundo en fuerza bruta, caja negra y por lo tanto en ingeniería y no en ciencia. Todos los fenómenos problemáticos provienen de él. Y no existe ningún sistema natural que aprenda así. El olvido catastrófico (el fenómeno donde una red profunda olvida lo que aprendió si ahora le das ejemplos de otro tipo) y la incapacidad de conectar bloques de construcción de manera buena en el aprendizaje profundo se evitarían si hubiéramos elegido un modelo como el que se presentó aquí al principio, de maestro y de construcción. El olvido catastrófico es en realidad porque no hay memoria en absoluto, sino solo acción o aprendizaje. Por lo tanto se necesita memoria que sea resistente al aprendizaje, es decir: casos donde la red decide que aprendió algo útil, o cierto concepto, y lo guarda separado del cambio continuo (o ralentiza mucho respecto a él la capacidad de cambio). Por lo tanto se necesita una forma de fortalecer lo que hiciste y no solo no cambiarlo, sino que haya un parámetro de confianza para cada parámetro, que se fortalece cada vez que tuviste éxito (es decir cuando casi no hay derivada de cambio para la guía del parámetro, que también esta es información valiosa, que hoy se pierde más o menos, aunque afecta parcialmente en algoritmos de optimización de descenso por gradiente, por ejemplo en el momento). Recordar es la capacidad de no aprender. Para aprender algo cualquiera que perdure se necesita la capacidad de no aprender, y no ser influenciado por toda nueva información como una veleta de guías. Cualquier cambio en el mecanismo de propagación hacia atrás es mucho más fundamental que otros cambios en el aprendizaje profundo, porque este es el método, el mecanismo de aprendizaje. Y allí se puede corregirlo. Y el papel de la filosofía es analizar este análisis conceptual profundo (lo que casi no hace hoy, y por lo tanto nadie paga a los filósofos, a pesar del enorme valor que pueden proporcionar).


La filosofía del aprendizaje profundo: resumen

Por lo tanto, lo que se necesita es un modelo donde todo lo que baja (las evaluaciones) está conectado en una red de evaluación profunda, y cada capa en ella tiene salidas y entradas hacia lo que sucede en la red profunda regular, es decir a la capa paralela en la red que calcula, que sube. La entrada a la red de evaluación desde la red que calcula es la salida de una capa de la red que calcula, que se transmite a la red de evaluación - para su evaluación. Y la salida de la red evaluadora hacia la red que calcula es la salida de su evaluación - que es guía. Sí, es completamente simétrico desde ambas direcciones. Y por lo tanto mucho más general. Una red que sube y frente a ella una red paralela completamente que baja. Y en el caso particular que ambas tienen exactamente la misma estructura, entonces de hecho cada neurona tiene pesos dobles, hacia abajo y hacia arriba, para su actualización. Es decir se puede pensar en esto como una red (de acción doble), pero tal vez es mejor dar a la red evaluadora independencia en arquitectura, es decir dos redes que hacen control una sobre la otra. ¿Y qué significa todo esto para NP? La definición del aprendizaje aquí es como descomposición en capas de evaluador y evaluados, maestro y alumnos. Y la pregunta es si existe tal descomposición, o no, para un problema, donde todo algoritmo polinomial es tal descomposición. Es decir, esta es una definición diferente para el aprendizaje que la que vimos en la filosofía de la ciencia de la computación, y es posible que sea más adecuada para tratar el problema fundamental de estas ciencias. Y yo, ya pasé la etapa en mi vida donde soy capaz de tomar estos pensamientos y convertirlos en formales - pero tal vez tú serás capaz.
Cultura y literatura