학습 과학의 발전을 위한 프로그램: 계산 학습, 기계 학습, 신경 과학

정보 과학의 철학에 관한 서신, 학습 과학으로의 전환을 향하여: 수학 철학, 컴퓨터 과학 철학, 컴퓨터 학습 철학, 신경 과학 철학

저자: 수학자 (더 이상은 아닐)

학생에게 보내는 편지: 코드와 아케다 [성서의 이삭 번제] - 모든 것이 연결되어 있다 (학습과 관련하여) (출처)

수학의 학습적 철학

당신은 수학 철학이 흥미롭지 않다고 생각하지만, 사실 이것이야말로 가장 흥미로운 것입니다. 학습을 수학의 기초로 삼았어야 했습니다. 증명을 쓰는 것이 아니라 증명을 학습하는 것이 중요합니다. 왜냐하면 수학적 구성은 본질적으로 논리적 구성이 아니라(이는 단지 그것의 언어적 표면일 뿐입니다) 학습적 구성이기 때문입니다. 신경과학의 중심적 문제는 뇌를 하나의 주체로 생각하는 것입니다. 대신 뇌 안에서 경쟁이 있다는 것을 이해해야 합니다 - 생각들 사이의, 모듈들 사이의(예를 들어 주의력과 결정에 관한), 다양한 기억들 사이의, 뉴런들 사이의, 그리고 이 문장의 다양한 연속들 사이의 경쟁입니다(그리고 이 경쟁은 경제적 또는 정치적 경쟁과 유사하며, 민주주의나 자본주의 또는 중국의 능력주의와 같은 학습 시스템을 구축하고, 이것이 그들의 승리의 근원입니다). 마찬가지로 수학의 중심적 문제는 그것이 자신의 다양한 주체들, 즉 수학을 학습하는 수학자들을 개념화하지 않는다는 것이며, 수학 아래에 있는 학습을 전혀 개념화하지 않는다는 것입니다(과거에 수학 아래의 논리를 개념화하지 않았던 것처럼, 그리고 나서 프레게가 논리를 수학의 기초로 만들었듯이, 논리 아래에 있는 것 - 그것을 작동시키고, 이후에 수학의 기초가 될 것 - 그것이 바로 수학적 학습입니다). 더욱이 - 학습은 수학에서 모든 것이 그 위에 세워지는 기본 개념들을 정의하는 도구가 되어야 합니다: 극한, 군, 위상, 공간, 증명, 집합, 소수, 확률, 함수, 연속 등. 그래서 수학에 대한 학습적 재구성, 공리화, 그리고 새로운 해석이 필요합니다(양자역학의 가능한 학습적 해석처럼, 다른 해석들 중에서). 수학의 조합과 구성 특성 - 특히 대수학에서 - 은 학습성에서 비롯되며, 이를 기반으로 해야 합니다. 예를 들어 당신이 이미 a, b를 블랙박스로 하는 방법을 배웠다고 가정해봅시다. 이 함수를 가지고 있다는 것은 무엇을 의미할까요? 예를 들어 증명을 안다는 것은 무엇을 의미할까요? 이것을 사용해서 어떻게 c에 도달하는 것을 배우나요? 단순히 함수가 있다고 말할 수 없는 단계가 올 것입니다. 하지만 브라우어의 직관주의나 형식주의의 공리적-계산적 구성과는 달리, 당신이 제공해야 할 구성은 학습적입니다: 어떻게 그 함수를 배웠는지입니다. 그리고 설령 그 함수가 이미 당신 안에 존재한다 하더라도(예를 들어 당신 뇌의 신경학에서), 블랙박스로서, 그것을 안다는 것은 그것을 사용하는 것을 의미하지 않습니다. 즉, 입력에 대한 그것의 답을 줄 수 있는 능력이 아니라, 아는 것의 의미는 그것을 통해 학습할 수 있는 능력입니다. 다시 말해 이 블랙박스(당신이 이해하지 못하는)로부터 적절한 학습의 연속을 구성하는 것입니다. 증명을 아는 것이 그것을 인용하고 가정에서 결론에 도달하는 능력이 아니라(증명 끝), 그것으로부터 추가적인 증명들을 구성할 수 있는 능력, 즉 그것을 통해 계속 학습할 수 있는 능력인 것처럼 말입니다. 그리고 증명을 이해한다는 것은 그 안에서 무언가를 이해하는 것이 아니라(예를 들어 그 연속성 안에서), 그것으로부터 추가적인 증명들을 구축하는 방법을 이해하는 것입니다(비트겐슈타인처럼 단순히 기존 시스템에서 "사용"하는 것이 아니라, 그것으로부터 시스템의 연속을 구축하고 시스템을 발전시키는 것, 마치 화자가 아닌 시인이 언어를 사용하는 것처럼, 즉 "사용자"가 아닌 프로그래머가 컴퓨터를 사용하는 것처럼). 그리고 여기서 우리는 예를 들어 신경망과 유전 알고리즘 사이의 유사성에 주목합니다. 뉴런에서 구성은 주로 숫자들의 연결과 조합입니다(즉, 선형 조합 - 가장 단순한 조합 - 의 함수들, 그 위에 최소한의 필요한 비선형성만 있음), 반면 진화에서 구성은 부분들의 연결과 조합입니다(실제로, 이는 두 문장 - 두 게놈의 언어적 조합으로, 일부 단어는 첫 번째에서 오고 일부는 두 번째에서 옵니다. 그리고 마지막으로 수렴 후에는 - 문장들이 매우 비슷해지고 그들 사이에 약간의 변형만 있어서, 문장이 여전히 의미가 있습니다. "정원사가 곡물을 정원에서 길렀다"가 "정원사가 밀을 정원에서 길렀다"와 교배합니다. 그리고 그들의 자손은 "정원사가 곡물을 정원에서 길렀다"입니다). 따라서 두 구성 및 건설 메커니즘 사이의 구체적인 차이를 넘어서서, 즉 하나는 양적 크기의 조합이고 다른 하나는 텍스트-언어적 조합이라는 차이를 넘어서서, 뉴런 학습과 진화 사이에는 깊은 유사성이 있습니다: 세대는 층입니다. 기본적인 학습 구성요소들은 각 단계에서 매우 많으며, 또한 학습을 만들기 위해 서로 위에 깊게(즉, 매우 많이) 쌓입니다. 진화는 본질적으로 심층 학습이며, 이 자연스러운 유사성을 부인할 수 없습니다. 즉, 우리는 자연에서 구성이 학습에 기본적이라는 것을 봅니다 - 비록 세상에는 다른 구성 기술들이 있을 수 있지만(덧셈, 곱셈, 문자열 연결, 다른 코드 섹션을 함수로 호출하는 것 등) - 그리고 이는 논리적이고 수학적인 구성에서도 마찬가지입니다. 논리에서도 조합으로부터 생성되는 많은 구성 층이 있기 때문입니다(구성에는 두 가지 차원이 있습니다. 이전의 두 가지 이상을 결합하기 때문에 - 수평적 차원 - 그것들로부터 새로운 것을 만들어내기 때문입니다 - 수직적 차원. 즉, 구성은 아래로의 다중성과 옆의 가능성들의 다중성 모두에서 생성됩니다. 벽돌 벽처럼). 그리고 수학을 학습 위에서 새롭게 정의하는 프로젝트로 돌아가면, 우리는 이 프로그램(랑글랜즈 프로그램에 비유할 수 있는 수학 기초의 학습적 프로그램)이 본질적으로 구성적인 대수학뿐만 아니라 해석학에도 적합하다는 것을 알 수 있습니다. 실제로, 대수학에서 구성은 기본적이며, 바로 그렇기 때문에 그 안의 기본적인 구성 질문들은 학습적 관점에서 이득을 볼 것입니다. 예를 들어 소수란 무엇입니까? 숫자를 구성하는 두 가지 방법의 충돌입니다: 하나는 덧셈으로 - 다른 하나는 곱셈으로. 이것이 수수께끼의 근원이며(리만 가설을 비유적으로), 그 해결은 새로운 개념화를 통해 올 것입니다: 그것들을 구성하는 것을 배우는 것. 소수를 배우는 것 - 이것이 리만 가설로 가는 왕도입니다. 그리고 이렇게 군을 구성하는 것을 배울 수 있습니다. 또는 집합을 배울 수 있습니다(또는 그래프, 또는 게임, 또는 행렬). 그리고 해석학에서, 극한이란 무엇을 의미합니까? 측정을 통해 접근한다는 것 - 이것이 아는 것을 의미합니다. 그리고 위상은 극한의 일반화입니다. 극한은 학습 메커니즘이며, 그것이 성공할 때, 학습이 가능할 때(즉, 접근할수록 무엇에 접근하는지 배울 수 있을 때), 그것은 연속입니다. 그리고 학습할 수 없을 때 - 그것은 불연속입니다. 그리고 이 학습 메커니즘 자체는 연속의 위상에서 나옵니다. 즉, 위상학에서 학습은 극한 정의의 기초가 아닌 더 추상적인 일반화이며, 극한은 그것의 특별한 예입니다. 학습 메커니즘 자체(연속의)를 보고 그것으로부터 정의를 시작할 때 - 이것이 위상학입니다(필터나 열린/닫힌 집합을 통한 정의, 또는 다른 현대적 제안들을 대신하여). 그리고 해석학에서, 우리는 방법론의 아이디어를 통해 도함수를 정의하거나, 도함수의 아이디어의 일반화로서 방법론을 정의할 수 있습니다. 이것이 학습의 학습입니다.

컴퓨터 과학의 학습적 철학

같은 방식으로, 학습적 기초 위에 분야를 구축하는 유사한 과정을 컴퓨터 과학에서도 할 수 있습니다(그리고 이를 통해 마침내 컴퓨터 과학 철학이라는 분야를 진지하게 설립할 수 있습니다). 계산이란 무엇입니까: 함수가 어떻게 거기에 도달했는가? (당신은 더 이상 단순히 정의할 수 없고 그것은 구성적이어야만 합니다 - 계산 가능). 그렇다면, 학습이란 무엇입니까: 계산이 어떻게 거기에 도달했는가? (당신은 어떻게 알고리즘을 구축했는지, 즉 어떻게 그것을 배웠는지 설명해야 합니다. 이전에 함수를 어떻게 구축했는지 설명해야 했던 것처럼. 이것은 구성성의 구성성입니다). 그렇다면, 함수로 돌아가면, 필요한 것은: 함수를 계산하는 것을 배우는 것입니다. 증명은 구성입니다. 그리고 학습은 어떻게 구성하는지입니다. 구성 자체를 구성하는 것. 따라서 다음 대수적 단계는 학습에서의 덧셈과 곱셈이 될 것이며, 이는 덧셈과 곱셈의 일반화가 될 것이고, 따라서 학습을 통해 우리는 알고리즘의 덧셈과 곱셈을 정의할 수 있을 것입니다. 그리고 이것들은 곱셈(다항식의 경우 루프에서의 호출)과 덧셈(알고리즘 후 알고리즘 실행)의 일반화가 될 것이며, 학습적 구성에서 그렇게 될 것입니다. 그리고 재귀는 거듭제곱의 일반화가 될 것입니다. 그리고 조건문은 일종의 덧셈입니다. 튜링의 계산 세계에서, 무한과 점근적인 것은 해석학이었고, 연산들은 대수학이었습니다. 그리고 이제 우리는 무한을 더하고 싶은 문제에 직면해 있습니다. 즉, 극한을 향해 학습하는 시스템들을 더하는 것입니다. 이는 무한급수의 덧셈이라는 문제와 매우 유사한 역사적 문제이며, 이는 미적분학의 근원에 있었습니다. 학습 구성요소들은 항상 최적값에 접근하고 있으며, 이것이 연속적인 부분, 최적화의 부분입니다. 그리고 다른 한편으로 그들은 대수적으로 서로와 함께/위에 구성되어 있으며, 이것이 이산적인 부분, 검색과 변이의 부분, 즉 계산적으로 비싼 부분입니다. 이것을 일반적으로 하는 방법이 없다면 - 조합이 있습니다. 즉, 이것은 무차별 대입 검색입니다. 따라서 우리는 지수성이 본질적으로 무차별 대입과 문제를 이해하고 해결할 수 없음의 표현이며, 단지 그것을 공식화할 수만 있다는 것을 이해해야 합니다. 그것의 의미는: 해결하는 방법을 모른다는 것. 즉: 우리가 수학에서 알고 있는 모든 기본적인 대수적 연산들 아래에는, 덧셈과 곱셈과 거듭제곱과 같은, 더 깊은 무언가가 있으며, 그것은 계산적이고, 심지어 (그 아래) 학습적입니다. 그리고 그것은 현재 단순히 실행 시간의 함수로서 외부적으로 나타나고 있을 뿐입니다. 거듭제곱은 본질적으로 모든 가능성 공간에서의 검색입니다. 이것은 언어이지 학습이 아닙니다. 언어는 모든 가능한 조합이고, 학습은 가능성들의 수렴이며, 따라서 특정한 해결책을 가능하게 합니다. 특정한 문장을. 세상의 어떤 문장도 결코 언어에 의해 쓰이지 않았습니다 - 그들은 모두 학습에 의해 쓰입니다.

알고리즘의 철학

함수나 알고리즘을 배웠나요? 해석학의 극한과 비슷하다는 것을 주목하세요 - 거기에 함수가 있습니다(그것이 극한입니다). 그리고 엡실론과 델타 대신에, 여기에는 교사와 학생 사이의 상호작용이 있습니다. 학생은 극한을 향해 나아가고(그것이 그의 지평선입니다), 교사는 극한에서 측정자의 위치에 서 있습니다. 예를 들어 특정 지점에서 함수의 결과에 얼마나 가까이 왔는지 묻습니다. 즉, 교사의 측면, 성공을 측정하는 측면, 당신의 수렴을 판단하는 측면은 NP의 기준과 같습니다. 그리고 NP의 문제는 무엇입니까? 그것은 해석학의 연속 극한과 정확히 반대입니다. 왜냐하면 이러한 문제들에서는 성공의 부분적 측정이 목표 달성에 전혀 도움이 되지 않고, 학습을 돕지 않기 때문입니다. 즉, 당신은 학생으로서 성공할 수 없습니다. 목표에 도달할 수 있게 하는 길의 지침이 없습니다. 학습은 할 수 있는 것들로부터 할 수 없는 것을 구축하는 과정입니다. 그리고 이 모든 것은 평가 기준에 대해서입니다. 그리고 만약 평가가 외부적이 아닌 내부적 기준이라면, 그것이 바로 방법 - 즉 방법론입니다. 하지만 만약 전혀 내부적 기준이 없고 오직 외부적 기준만 있다면? 그러면 당신은 NP에 있는 것입니다. 알고리즘을 배울 때, 그것을 예시로부터의 학습 또는 시연으로부터의 학습으로 정의하는 것이 맞습니까? 즉, 무엇을 학습하는 것인지 또는 어떻게 학습하는 것인지로? 당신은 특정 경우에 배우는 함수의 입력과 출력 값만 받는 것입니까, 아니면 특정 입력-출력 경우에서 함수의 구성적 구축을 받는 것입니까? 답은 둘 다여야 합니다. 왜냐하면 학습은 정확히 이전 함수들로부터 구축된 함수의 분해이며, 이것이 바로 시연이지만, 각 단계에서 어떤 조합을 만들지 선택하는 것은 예시에 달려있기 때문입니다(증명이 예시입니까 아니면 시연입니까?). 그렇다면, NP는 검사하기는 쉽지만 - 학습하기는 어려운(즉, 가르칠 수 없는 - 교사가 될 수 없는) 문제들입니다. 그리고 이는 소수 문제에서도 정확히 마찬가지입니다. 질문은 당신이 얼마나 그것들을 배울 수 없는지, 얼마나 그것들이 예측 불가능한지입니다(확률, 이것도 학습을 통해 새롭게 정의할 수 있습니다). 이것이 리만 가설의 본질입니다(그리고 따라서 일방향 함수로서의 소수 인수분해 문제와 깊은 관련이 있을 것으로 예상됩니다). 소수에서의 학습이란 무엇입니까? 자연수 수열에서 도달한 각 소수에서, 당신이 이미 알고 있는 것은 그 이전의 모든 소수들로부터 곱셈을 통해 수를 구축하는 것입니다. 즉 그것(다음 소수)은 당신이 배우지 않았고 배워야 하는 것이며, 깊은 질문은 당신의 학습 능력이 본질적으로 얼마나 제한되어 있는가 입니다. 만약 학습적 구성이 이전 수들의 곱셈을 통한 수의 구성이라면 말입니다. 즉: 수학에서 가장 중요한 두 가설에는 그들의 본질을 건드리는 학습적 공식화가 존재합니다 - 그리고 이것이 우리가 언어적 사고, 즉 매우 원시적이고 조합적인 종류의 구성(자연수와 알고리즘 모두의)에 부딪히지 않았다면 그들의 해결로 가는 길이었어야 했습니다. 둘 다에서 우리는 특정 현상이 학습하기 어렵다는 것을 증명해야 합니다 - 즉 무엇을 배울 수 없는지 찾아야 합니다. 수학의 역사에서 우리는 어떻게 접근해야 할지 전혀 몰랐던 기본적인 가설들을 해결했습니다(무리수의 존재, 원의 정사각형화, 5차 방정식, 괴델의 정리 등) 항상 이러한 새로운 구성을 통해서였습니다. 이는 현상을 포착하는데 성공했고 - 그 후에 그것을 통해 무엇을 구성할 수 없는지 증명했습니다. 이 모든 것들이 무엇을 할 수 없는지에 대한 문제들이었다는 것에 주목하세요(피타고라스 학파에서 무리수의 존재는 자연수를 통해 비율로 그것을 구성할 수 없다는 것이었습니다. 비록 문제가 긍정적인 형태로 표현되었지만), 왜냐하면 수학에서 더 깊은 문제들은 항상 불가능성의 문제들이기 때문입니다. 정확히 수학이 구성이기 때문에 - 그것은 무엇을 구성할 수 없는지 보여줘야 할 때 깨진 물동이 앞에 서게 됩니다(그리고 무엇을 할 수 있는지는 덜 중요합니다 - 왜냐하면 그것은 단순히 구성하면 되기 때문입니다). 따라서 오늘날의 두 가지 주요한 불가능성 문제들, NP와 리만을 진전시키기 위해서는, 학습의 수학적 정의와 그로부터 나오는 구성을 만들어야 합니다 - 그리고 나서 그러한 구성이 불가능하다는 것을 증명해야 합니다. 왜냐하면 그것을 배울 수 없기 때문입니다(다른 말로 하면: 학습은 그것이 배우는 수학적 구조를 표현할 수 있고 표현해야 하며, 배울 수 없는 것 때문에 그것에 제한을 가해야 합니다 - 이는 수학적 학습 이론에서 도출될 것입니다 - 그리고 이를 통해 그것의 가능성의 한계를 증명해야 합니다). 그리고 NP 대 P 문제에 관해서, 우리는 배우는 것이, 일반적인 의미에서, 필연적으로 어렵고, 비효율적이며, 다항식적이지 않다는 것에 주목해야 합니다. 그리고 사실 아마도 증명하기에 충분한 것은 배우는 것이 어려운 문제라는 것입니다. 왜냐하면 우리가 올바르게 배웠는지 확인하기는 쉽기 때문입니다. 예시들에 따라서. 이것 자체가 NP 문제입니다. 즉, 만약 효율적인 일반 학습 알고리즘이 있다면 - 모순에 도달해야 합니다(이러한 부조리로의 유도는 만약 학습 문제를 해결할 수 있다면, 모든 것을 쉽게 해결할 수 있다는 것입니다. 왜냐하면 학습은 먼저 해결 알고리즘을 배울 수 있고, 그리고 이러한 상황에서는 학습 문제 자체를 해결하는 것도 배울 수 있기 때문입니다. 그래서 어떤 최소한의 학습 알고리즘에 도달할 때까지 계속됩니다. 하지만 그것도 배워집니다. 게다가, 이러한 상황에서는, NP 문제를 해결하는 P의 알고리즘에 대한 최소 다항식 지수가 있고, 그러면 구성적 학습의 특성들 때문에, 그것 아래의 알고리즘도, 즉 새로운 것이 그것을 통해 구축되고 더 낮은 다항식 지수를 가진 것도, NP 문제를 해결한다는 것을 보여줘야 합니다. 또는, 해결책을 구성하는 블록들 사이에서 정보를 나누고, 부조리함으로 귀납법을 통해 내려가야 합니다. NP 문제의 해결책은 모든 정보에 의존하고, 거기에는 분할 정복이 없다는 아이디어의 공식화를 통해서, 적어도 학습적 구성에서는 말입니다. 다항식성 자체는 학습이 구성적이라는 사실에서 나옵니다. 그리고 두 가지 기본적인 구성들은 알고리즘들의 결합과, 루프에서의 호출입니다. 즉 덧셈과 곱셈이고, 따라서 P에서의 다항식이 나옵니다. 즉 효율성과 해결의 용이성의 정의가 정확히 이것인 이유에 대한 설명입니다). 수학에서 기본적인 것들이 항상 어떻게든 이산적이고 무한한 과정이라는 것에 주목하세요: 소수들, 극한, 계산, 논리... 그리고 학습에서도 그럴 것입니다. 사실, 학습은 그것들 아래에 있기 때문에 이 현상의 원인입니다. 어떤 경우든, 이 공통된 특성으로부터, 그것들을 다루고 새로운 수학적 패러다임으로 돌파할 수 있는 능력이 나옵니다. 이는 언어를 넘어서는 것입니다(이것이 현재의 수학적 패러다임입니다). 그리고 나서 우리는 NP 문제가 실제로 얼마나 학습 문제인지 주목하게 됩니다(이는 잘못되게 언어를 통해 개념화되었고, 따라서 그것에 적합한 언어가 없는 것이 되었거나, 심지어 그 해결책을 파악하기 시작할 수도 없는 것이 되었습니다). 그러면 우리는 왜 학습을 통한 개념화가 그것의 자연스러운 해결 방향이라는 것을 이해하지 못했는지 이해하지 못할 것입니다. 왜냐하면 학습적 관점을 통해, 우리는 NP가 진화와 유사하다는 것도 보기 때문입니다. 여기서 학습은 메커니즘입니다(교배와 돌연변이)가 생존과 적합성 시험과 맞서 싸우는데, 생명체를 만들고 그것에서 혁신하기는 매우 어렵지만, 그것이 생존하는지 아닌지 확인하기는 매우 쉽습니다. 생물학은 항상 그것의 노력을 쉽게 판단하는 잔인한 자연에 대해 어려운 학습 위치에 있습니다. 그리고 여기서, 학습을 향한 길에서, 우리는 아름다움이 안내에서 역할을 한다는 것을 봅니다. 생물학이 누가 더 적합하고 덜 적합한지 지름길을 통해 추측할 수 있도록 말입니다. 그리고 수학에서도 마찬가지입니다. 증명의 어려운 기준은 아름다움의 부드러운 기준과 함께 갑니다. 이는 수학자들이 수학을 하고 수학적 학습에서 진보할 수 있게 해줍니다. 비록 이것이 원칙적으로 어려운 문제임에도 불구하고 말입니다. 그리고 우리의 사고도 아름다운 움직임에 의존합니다. 그리고 이렇게 우리는 철학도 판단합니다.

복잡성 이론의 철학

평가는 어떻게 수행됩니까: 학습의 정의의 일부로서 많은 평가 계층이 있나요, 아니면 NP에서처럼 끝에 하나만 있나요? 거기서는 평가 계층으로 분해할 수 없습니다. 음, 두 가지 자연스러운 학습의 예시가 학습이 무엇인지 이해하는 데 도움이 됩니다 - 뇌와 진화 - 그리고 이들에는 무한한 평가 계층이 있으며, 실제로 각 계층(또는 세대)에서 이전 것을 평가합니다(따라서 여성들은 진화에서 숨겨진 계층입니다 - 네트워크의 - 즉 각 세대를 심층 네트워크로 만드는 것입니다. 입력과 출력 사이의 내부 평가 계층으로서, 즉 자녀들입니다). 이와 같이, 같은 방식으로, 극한과 자연수는 우리가 연속과 이산 영역에서 수학의 일반화된 학습 개념이 무엇인지 이해하는 데 도움이 됩니다(그리고 뇌의 학습은 연속적이고, 진화의 학습은 이산적입니다). 하지만 이 추상화 자체를 넘어서서, 이는 수학의 모든 부분에 공통된 깊은 내용을 반영합니다(수학의 내용으로서의 학습). 우리는 또한 수학의 형태로서의 학습을 찾을 수 있습니다. 수학 자체 아래에 무엇이 있는가: 어떻게 수학을 배우는가. 예를 들어: 수학자를 정의하는 것. 현재, 학습 알고리즘은 다항식이어야 한다고 받아들여집니다. 하지만 학습 알고리즘에 대한 다항식성 제한은 일반적인 경우(수학자)에서는 맞지 않습니다. 따라서 우리는 인간으로서, 뇌로서, 우리가 효율적인 알고리즘을 가지고 있는 많은 일들을 하지만, 일반적인 효율적 학습은 없고, 있을 수도 없습니다. 일반적으로, 학습은 이전에 배운 것들을 사용하여 매우 제한된 경우에만 효율적입니다. 그래서 우리는 학습이 효율적인 과정이라는 환상을 가지고 있습니다. 우리의 대부분의 학습이 그렇기 때문입니다. 하지만 그러한 특별한 학습을 특징짓는 것은 그것이 지식의 학습이라는 것입니다. 따라서 우리 세계의 대부분의 학습은 지식의 학습입니다. 새로운 행동과 알고리즘의 학습은 항상 비효율적이기 때문입니다. 그렇다면, 지식이란 무엇입니까? 효율적인 학습 알고리즘이 있을 때입니다. 이것이 그것의 정의입니다. 우리가 배우는 거의 모든 것이 다른 사람들이 할 줄 아는 것들이라는 점에 주목하세요. 즉 우리는 준비된 함수들을 사용하고, 그것들로부터 구축하며, 우리의 학습을 준비된 함수들로 분해할 수 있습니다. 따라서, 학습을 그것을 만든 계층들의 구축으로 분해할 때, 문제를 하위 문제들로 분해하는 모든 가능한 분해들의 공간 자체의 구조에 대해 생각해야 합니다. 하지만, 교사로부터의 모든 학습 정의는 "시스템 내부" 문제를 극복해야 합니다. 즉 도움이 외부에서 학생을 프로그래밍하고 그들 사이의 속임수와 공모가 되지 않도록 해야 합니다. 하지만 분해가 최대 분해라면, 즉 너무 작은 조각들로 나눈다면, 그것은 정확히 프로그래밍과 같습니다. 이상적인 분해를 특징지을 수 있을까요? 프로그래밍과 동등한 완전한 부스러기로의 분해(최대 분해)와 NP 문제(최소 분해, 거기서는 끝에만 시험관이 있고 중간에 평가가 없습니다) 사이의 중간에 있는 것으로서 말입니다? 교사가 없다면, 진화처럼 이전 알고리즘들을 기반으로 하고 이전 증명들을 기반으로 하는 수학처럼 발전이 있습니다. 그러면 문제를 하위 문제들로 나누는 것이 자연스럽습니다. 누군가가 그것을 나누는 것이 아니기 때문입니다. 최대 분해는 알고리즘입니다, 쓰여진 코드로서, 그리고 최소는 문제 자체입니다, 평가자로서 - 그리고 중간에 학습은 그것들을 연결하는 것입니다. 즉 이 문제에서 알고리즘으로의 이행이 바로 학습 과정입니다. 즉: 더 많은 분할을 추가하는 것(위에서 아래로일 때, 교사의 관점에서) 또는 더 많은 구축 결합을 추가하는 것(아래에서 위로일 때, 학생의 관점에서), 그리고 학생만 있고 교사가 없을 때 이것이 발전입니다, 이는 자연스럽습니다. 다항식적 해결책은 이것을 더 단순한 하위 문제들로 분해할 수 있다는 것을 의미합니다, 즉 배울 수 있다는 것입니다. 따라서 배울 수 있는 것이 다항식적인 것을 특징짓고, 따라서 학습은 다항식적인 것의 한계를 이해하는 데 적합한 구축입니다(즉 그것을 NP와 구분하는 것). 왜냐하면 학습은 선형적인 것으로부터 다항식적인 것의 구축이기 때문입니다. 즉 단순히 모든 입력을 읽을 수 있게 하는 최소한으로부터, 따라서 다항식들은 자연스러운 집합입니다. 따라서 우리는 학습 가능한 최소 분해를 찾아야 합니다. 예를 들어 선형적 하위 문제들로의 최소 분해입니다. 최대 분해는 흥미롭지 않습니다. 그것은 코드 작성과 동일하기 때문입니다(그리고 선형적인 것은 물론 알고리즘적 영역에서 가장 기본적인 학습 블록들의 한 예일 뿐입니다. 그리고 예를 들어, 수론 분야에서는 곱셈에서의 인수분해일 수 있습니다. 또는 수학의 다른 문제들을 정의하는 다른 제한된 함수일 수 있습니다). 따라서, 우리의 학습 정의에서, 우리는 이상적인 예시 선택을 가정할 수 있습니다(교사에 의한 학습을 위해), 마치 우리가 최소 분해를 가정하는 것처럼. 배우는 것 - 그리고 가르치는 것도 - 계산적으로 제한될 필요는 없고, 구축적으로 제한됩니다. 그리고 이전 함수들을 사용한 구축의 이 모든 구조가 인간의 사고(예를 들어 논리와 언어와 계산과 인식으로부터)와 훨씬 더 비슷하다는 점에도 주목하세요. 우리는 우리가 할 줄 아는 것들을 어떻게 하는지 모르지만, 그것들을 가지고 일을 할 줄 압니다. 그것들을 통해 배웁니다. 하지만 우리는 어떻게 배웠는지 모릅니다, 그것은 블랙박스입니다. 그리고 우리가 학습에서 조합한 모든 함수들은 우리에게 블랙박스일 수 있습니다. 즉: 여기에는 학습의 두 부분이 있습니다. 한 부분은 배우고자 하는 구조를 정의하고 특징짓는 것입니다 - 또는 문제에 대해 하고자 하는 분해 - 이는 함수들에 대한 제한입니다: 기본 함수들이 무엇이고 그것들의 허용된 결합이 무엇인지. 그리고 여기에는 다른 부분이 있습니다. 모든 가능성 중에서 정확히 이 구축을 만드는 정보가 무엇인지 묻는 것 - 이것이 예시들입니다. 교사와 학생 사이의 공모를 막기 위해서는 구축이 특정 학습 알고리즘에서 이루어져야 하나요, 학습자의 모든 가능한 알고리즘에서가 아니라(예시들 안에 해결책을 코딩할 수 없도록)? 오캄의 면도날을 사용하여 예시들에 맞는 최소 길이의 조합으로, 또는 아마도 다른 단순한 탐색 알고리즘으로, 그러한 보편적(비효율적) 알고리즘을 선택할 수 있습니다. 그러면 문제(학습된 함수)를 하위 문제들(하위 함수들)로 분해하는 트리가 만들어집니다. 각 가지 분기에서 올바른 결합(올바른 구축)을 만들기 위해 필요한 예시들의 수와 함께(가지의 수는 그 위의 가지를 만드는 하위 함수들의 수와 같습니다). 그러면 아마도 분해의 차원(자세한 하위 문제들로의 분해처럼)과 예시들의 수 사이에 트레이드오프가 있을 것입니다. 그러면 트리는 NP 문제에서 무한대로 자랄 수 있습니다. 또는 구축하는 하위 블록들이 해결책을 단지 근사할 때(소수들처럼, 그들은 큰 소수들만 근사합니다. 모든 자연수를 펼칠 수 없기 때문입니다. 무한한 소수들이 있기 때문입니다. 그러면 소수들의 수에 비해 근사가 얼마나 완전하고 좋은지 평가할 수 있습니다 - 이것이 리만 문제입니다). 그러면 이것을 사용하여 구축의 불가능성 문제들을 표현할 수 있습니다. 만약 당신이 교사의 최소 노력과 최소 예시들을 요구한다면, 그러면 당신이 이미 배운 것들이 있다면, 당신은 다음 것을 배우기 위한 최고의 최소 예시들을 요구합니다. 그리고 이것 자체가 학습 과정에서 다음 것의 복잡성을 줄입니다. 예를 들어 규칙을 가르치고, 그 다음 추가 학습에서 예외를 가르치는 것이 더 좋기 때문입니다. 따라서 우리에게 완벽한 학생과 완벽한 교사가 있다면, 완벽한 학습이 어떻게 보이는지 물어볼 것입니다. 예를 들어, 교사는 어떻게 예시가 예외라는 것을 표시합니까? (규칙이 있기 위해서, 규칙의 한 예시와 반대되는 한 예시만 있는 것이 아니라 - 만약 그것들이 동시에 주어진다면, 즉 연속적 분해 없이 - 이는 실제로 규칙을 분해할 수 있습니다. 예시들 중 어느 것이 규칙이고 어느 것이 예외인지 어떻게 알 수 있겠습니까)? 음, 그는 하지 않습니다. 그는 단순히 먼저 규칙을 가르칩니다. 그리고 나서 그 후에, 다음 구축 계층에서, 규칙이 배워진 후에, 그는 예외를 가르칩니다. 그러면 학습자가 할 수 있는 가장 짧은 것은, 이미 규칙인 함수를 가지고 있다고 가정하면, 그가 이미 배웠다면, 단순히 하나의 예외를 추가하는 것입니다(특정 경우들에서). 그리고 이렇게 분해는 예시들의 수를 절약할 수 있습니다. 그리고 분해의 정보는 특정 경우들에서, 심지어 가르치는 것에 있는 것보다 더 적은 정보로 학습을 가능하게 할 수 있습니다(왜냐하면 학습 자료의 순서 자체에서 교사가 주는 분해의 정보는 계산되지 않기 때문입니다). 이것이 학습적 구조주의입니다.

계산적 학습의 철학

그렇다면, 당신은 함수들/알고리즘들/오라클들의 목록이 있고 그것들의 제한된 조합인 함수가 있으며, 당신은 최고로 선택된 예시들로부터 그것들을 배웁니다. 당신에게 계산적 제한이 없을 때. 그리고 교사에게도 없습니다. 그리고 질문은 문제를 하위 함수들/알고리즘들로 분해하면서 가능한 최소 예시들이 무엇인가 입니다. 당신이 오캄의 면도날에 따라 배울 때(예를 들어 알고리즘의 복잡성, 그것의 길이, 또는 다른 단순성 기준에 따라). 만약 분해가 무료로 온다면 전체 예시 수를 보고, 그러면 분해는 최대가 됩니다. 즉 학습은 가능한 한 가장 점진적입니다. 대안적으로, 예시들과 분해 사이의 관계를 볼 수 있습니다(필요한 예시들의 수와 주어진 분해의 하위 문제들의 수 사이의 관계). 이는 물론 역관계입니다. 또는 같은 문제의 다른 분해 트리들의 다른 위상들을 검토할 수 있습니다(얼마나 많은 본질적으로 다른 방식으로 같은 문제를 분해할 수 있나요?). 우리의 목표는 문제를 비자명한 방식으로 문제들로 분해하는 방식으로 학습 트리를 구축하는 것입니다. 왜냐하면 만약 우리가 최소 분해를 본다면, 분해가 비싸고 예시들이 무료일 때, 우리는 자명한 분해를 얻을 것입니다. 즉 분해가 없고, 우리는 원래 문제로 돌아갑니다. 거기에는 단지 시험과 예시들만 있고, 이는 NP와 비슷합니다. 따라서, 우리는 또한 이러한 모든 가능한 분해들을 볼 수 있습니다. 아마도 특정 함수들에서 무한히 많은 것들, 그리고 그것들이 어떻게 서로로부터 파생되는지, 그리고 그러한 트리들의 숲의 특성이 무엇인지 볼 수 있습니다. 그리고 나서 분해들의 수와 예시들의 수 사이의 특정 관계에 있는, 분해의 표준 형태를 찾을 수 있습니다. 결국 흥미로운 것은 예시들이나 그것들의 수가 아니라 트리 구조들입니다 - 알고리즘을 하위 알고리즘들로 분해하는 것이 무엇인가. 또는 문제를 하위 문제들로. 또는 정리를 가능한 모든 증명들로 분해하는 것(그리고 수학 전체 자체에 대해서도 증명들의 그래프로 생각할 수 있고, 그것을 그래프로서 연구할 수 있으며, 아마도 이 그래프의 구조와 수학적 구조들 사이의 연결을 찾을 수 있습니다). 그리고 만약 교사가 주는 분해가 충분히 작은 하위 문제들로 자세히 분해한다면, 아마도 학습을 위한 효율적인 알고리즘이 있을 것입니다(즉 예시들에 따른 구축 조합을 찾는 것). 그리고 아마도 단순한 나이브 탐색조차 효율적일 것입니다. 정말로 찾기 어려운 것은 분해이기 때문입니다. 하지만 만약 분해가 최소 예시 수에서 나온다면(즉 최소 예시 수가 반드시 최대 분해를 필요로 하는 것은 아니다) 이는 그것에 힘을 줍니다(이중적 의미로). 그리고 여기서 우리는 구축에서 허용되는 것을 제한할 때 다른 구축 문제들을 만드는, 하위 함수들의 다양한 결합 함수들에 대해 생각하기 시작할 수 있습니다. 예를 들어: 교사가 준 예시를 줄 함수들의 선형 조합만, 또는 증명 예시처럼 증명할 증명 시스템, 또는 군을 배우는 것. 이것도 단순한 함수입니다(덧셈). 그리고 만약 그것을 하위 문제들로 분해한다면 그것의 모든 원소들의 조합보다 더 적은 예시들로 배울 수 있습니다. 그리고 아마도 심지어 그것에 있는 것보다 더 적은 정보가 예시들에 있을 것입니다(왜냐하면 앞서 말했듯이 나머지 정보는 분해에 숨겨질 것이기 때문입니다). 그러면 우리는 군에 얼마나 많은 예시적 정보가 있는지, 또는 다른 수학적 구조에 얼마나 많은지 물을 수 있고, 이것이 학습적 정보의 정의가 될 수 있습니다(언어적 정보와 대조적으로). 왜냐하면 예시들로부터의 일반화는 이미 있는 것을 기반으로 하지 않으면 정당화되지 않기 때문입니다(당신이 이미 배운 함수들, 즉 교사가 문제를 하위 문제들로 분해할 때 처음에 당신에게 보여준 더 단순한 함수들. 이것으로부터 당신은 더 복잡한 것을 배웁니다. 아기의 학습이나 진화의 발전처럼 - 이것이 학습의 기본 특성입니다). 즉 이미 배운 것을 사용하라는 일종의 힌트가 있습니다. 당신이 이미 아는 것이 당신의 사전 지식입니다. 그리고 연속 함수에서 이것은 극단적입니다(왜냐하면 당신은 불필요하게 그것을 복잡하게 만들면 안 됩니다. 그렇지 않으면 단순한 함수들조차 절대 배우지 못할 것이고, 당신은 오캄의 면도날 때문에 먼저 단순성에 매여 있습니다). 따라서 당신이 아는 것으로부터의 최소 조합이 필요합니다 - 교사가 준 새로운 예시를 생성하는. 그리고 만약 당신이 단순성에 매여 있다면 이것은 속임수에 면역이 됩니다. 왜냐하면 만약 공모가 있다면(예를 들어 만약 교사가 예시 안에 학생에게 필요한 가중치를 코딩한다면), 그러면 이것은 오캄의 면도날 조건을 만족하지 않습니다. 알고리즘은 가장 단순한 것을 주지 않기 때문에 거부됩니다. 학생은 임의의 조합을 선택할 수 없고 가장 단순하고 최소인 것을 선택해야 합니다. 단순성에 대한 내부 기준이 있고, 이는 평가하는 쪽, 여성적인 쪽을 채웁니다(평가의 중간 계층들). 그리고 또한 조합 함수가 있습니다(이는 특정 종류의 수학적 구조의 각 학습에서 다릅니다. 예를 들어: 그래프 학습, 군 학습, 연속 함수 학습 - 다항식 근사나 대안적으로 푸리에 변환 등으로 구축할 수 있는, 알고리즘 학습, 증명 학습, 게임 학습, 위상 학습, 언어 학습 등). 그리고 겉보기에 절약되는 정보 - 계산되지 않는 - 는 구조적입니다. 즉: 구조적 분할(분해)에서 나오는 것이고, 따라서 만약 배우는 것에 전혀 구조가 없고 단지 잡음만 있다면 학습은 모든 정보의 전달이어야 할 것입니다. 즉 이것은 학습이 아니라 언어적 정보의 전달입니다.

기계 학습의 철학

여기서 기본적인 질문은, 수학의 모든 역사에서 반복되어 온 것인데: 함수는 어떻게 생성되는가? 아마도 그것은 자연에서 물리적으로 생성될 수 있고(존재론), 아마도 그것은 기하학적으로 생성될 수 있으며(시각), 아마도 그것은 인식될 수 있고(이성), 아마도 그것은 정의될 수 있으며(논리), 아마도 그것은 계산될 수 있고, 아마도 그것은 학습될 수 있습니다. 즉: 하위 함수들로부터 구축됩니다. 그리고 여기서, 함수 정의의 부분들로부터, 오늘날 컴퓨터 학습에서 모든 주요 학습 연구 분야가 나옵니다. 학습에서 함수의 출처(수학적 용어로 도메인)가 없을 때 이것은 강화 학습입니다(그리고 단순성은 가장 단순한 함수를 생성할 가장 단순한 출처를 찾습니다). 그리고 함수의 범위가 없을 때 이것은 비지도 학습입니다(그리고 단순성은 가장 단순한 함수를 생성할 가장 단순한 범위를 찾습니다). 그리고 함수의 단순성이 하위 함수들의 구축(얼마나 복잡한지)뿐만 아니라 예시들 자체로부터의 구축으로도 간주될 때 이것은 통계적 학습입니다(예시들로부터의 거리가 단순성 계산의 일부입니다). 학습의 정의는 학습되는 수학적 객체를 분석하고 그것의 내부 구조를 찾는 것을 목표로 합니다. 그것의 목표는 계층(하위 문제들로의 분해)과 예시들을 통해 그것을 구축하는 것입니다. 즉: 두 가지 유형의 구조적 정보를 통해, 두 가지 구조를 결합할 수 있게 합니다: 위에서 아래로(수직적), 그리고 옆에서(수평적) - 다른 예시들은 각 단계에서, 아래 층으로부터의 다른 병렬 조합 가능성입니다. 따라서 수학에서 모든 것은 구조의 부재와 과잉 구조 사이를 움직입니다. 너무 많은 자유도와 너무 적은 자유도. 따라서 그것의 경계는 한편으로는 의미 있는 것을 말할 수 없을 정도의 극단적인 무작위성과 복잡성이고, 다른 한편으로는 너무 단순하고 사소하며 정보와 풍부함이 부족한 구조입니다. 따라서 항상 그 안에서 프랙탈 경계를 찾아야 합니다 - 거기에 아름다움이 있습니다. 그리고 거기에 수학적 관심도 있습니다. 왜냐하면 거기에 무작위적이고 불투명한 정보(해독할 수 없다는 의미에서), 또는 사소하고 불투명한 정보(해독할 것이 없다는 의미에서, 왜냐하면 그것은 밀폐되어 있기 때문에)와는 대조적으로, 가장 많은 학습적 정보가 있기 때문입니다. 그리고 왜 이것들이 수학의 기본 특성일까요? 왜냐하면 모든 것이 학습되고, 학습성은 구조성의 뿌리이며, 또한 구조성의 복잡성의 뿌리이기 때문입니다. 왜냐하면 이것은 결코 일차원적 구조가 아니라 항상 이차원적 구조이기 때문입니다(이것이 그것을 구축으로 만듭니다), 마치 우리가 숫자에서 가지고 있는 것처럼(덧셈과 곱셈). 그리고 주목해보면, 위에서 정의된 학습에서의 단순성은 온라인이며, 단순한 오캄의 면도날처럼 전체를 대상으로 하지 않습니다(MDL, 솔로모노프, 또는 콜모고로프 복잡성에서). 즉: 우리는 첫 번째 예시 후에 가장 단순한 가설을 찾고, 그런 다음 그것(이 가설)을 아래에 있는 또 다른 준비된 함수로 취하고, 다음 예시를 추가한 다음, 이전 가설을 비용이 없는 것으로, 즉 단순한 것으로 고려하면서 가장 좋고 단순한 가설을 찾습니다. 즉: 첫 번째 단계에서 이미 학습된 함수는 더 이상 복잡성과 단순성 계산에서 계산되지 않습니다. 그리고 아마도 단순성 함수의 보편적이고 단순한 정의가 가능할 수도 있습니다 - 단순히 조합의 수로서. 즉 단순성은 단지 조합의 아이디어의 산물일 뿐이며, 독립적인 기준과 평가가 아닙니다.

수학의 철학: 요약

이 모든 것을 통해, 우리는 학습을 통해 유한과 무한의 차이를 학습된 것과 학습되지 않은 것의 차이로 새롭게 특징지을 수 있으며, 이는 이 두 범주 사이에 더 정확한 구분을 만듭니다. 대수적 구조, 유한한 것은 항상 결국에는 학습됩니다. 반면에 무한한, 연속적인 구조의 범주는 오직 극한에서만 전체적으로 학습될 수 있으며, 즉 그것은 유한하게 학습되지 않습니다. 무한성은 옆으로 향할 수 있고(각 단계의 예시들의 집합에서), 또는 위로(조합에서) 또는 아래로(시작하는 기본 함수들의 집합에서) 수직적일 수 있습니다. 그리고 이러한 관점에서, 연속성과 단순성은 관련이 있습니다. 모든 것은 유한하지만 근사될 수 있습니다. 즉: 극한은 계산될 필요가 없고, 대신 학습될 수 있으며, 거리를 줄일 수 있습니다. 그리고 만약 단순성 측정 함수에 근사를 추가한다면(이산성에서 요구되는 정확성과 대조적으로, 예시들을 재현해야만 할 때 - 이것이 실제로 이산성의 정의입니다), 그러면 도함수의 아이디어는 함수에 대한 선형 근사입니다(즉 선형 구축만이 허용된다면), 그리고 계속됩니다(더 높은 도함수들에서, 이들은 학습에서 더 높은 층들이며, 급수까지). 그리고 연속성은 영차 도함수입니다 - 상수. 즉, 무한소 계산에서 단순성이란 무엇입니까? 조합이 아닌 예시들에 대한 단순성입니다(또는 선형 회귀에서처럼 조합에 대해서도). 그리고 적분은 역문제, 교사의 문제입니다: 어떻게 학생의 평가 - 그의 근사 - 가 특정 함수처럼 보이게 만드는 함수를 찾을 수 있을까요. 그리고 이산적인 세계에서, 예시들에 의해 정확하게 통제되는, 우리는 끝까지 배울 수 없는 것들에서 무한한 문제들을 발견합니다, 소수들처럼(구축에서 허용되는 조합이 곱셈일 때). 그리고 그러면 예를 들어 자연수의 조합 트리가 얼마나 복잡한지 평균적으로 물을 수 있습니다(즉 그들의 소인수분해, 가장 적은 예시들로 배워지는). 자연수 집합을 구축하는 방법을 이해하는 것은, 조합이 곱셈일 때, 교사가 특정 수까지의 자연수를 구축하기 위해 주어야 하는 예시들의 양의 분포가 무엇인지 아는 것을 의미합니다. 즉, 수학의 기본 질문들에 대한 학습적 공식화가 있습니다 - 이는 이 질문들에서의 진전을 막고 있는 부적절한 개념적 프레임워크 때문에, 언어 패러다임이 바뀌는 순간 그들에게 학습적 해결책을 가능하게 할 것입니다. 그리고 이렇게 철학은 수학을 - 그리고 수학적 학습을 - 도울 수 있습니다.

컴퓨터 학습의 철학

컴퓨터 과학의 철학 다음 단계는 컴퓨터 학습의 철학입니다. 오늘날 딥러닝의 상태는 인터넷 이전의 개인용 컴퓨터의 상태와 같습니다. 그리고 미래는 딥러닝 네트워크들과 기계 학습 분류기들의 인터넷 네트워크이며, 이들은 프로토콜로 서로 연결되어 있고 학습적 구축에서 그들을 조합하는 능력을 만듭니다. 즉: 각각이 무언가에 특화된 여러 딥러닝 모듈들을 큰 시스템으로 연결하는 것입니다. 이 시스템은 뇌처럼 세상에 대해 많은 것을 실제로 알고 있으며, 특정 데이터로 훈련된 고립된 전문가 시스템들만이 아닐 것입니다. 이러한 딥 네트워크들의 네트워크는 일종의 시장이 될 것이며, 거기서는 약간의 분류나 다른 능력이나 행동에 대해 약간의 돈을 지불하고, 거대한 인공 학습 생태계가 만들어집니다. 그리고 그것은 큰 지능을 향한 서막이 될 것입니다 - 그리고 그로부터 인공 지능이 성장할 것이며, 어떤 특정 시스템으로부터가 아닙니다 - 그것은 어느 날 어떤 실험실의 어떤 네트워크에서 결정되지 않을 것이며, 대신 네트워크로부터 나올 것입니다. 이러한 지능의 자연스러운 범주들은 무엇일까요? 계산의 세계에서 튜링 기계가 공간의 개념을 메모리로, 즉 공간을 차지하는 정보로 새롭게 정의했고, 시간의 개념을 계산의 작업들로, 즉 시간이 걸리는 것으로 정의했듯이(그리고 여기서 - 효율성), 딥러닝은 이것들을 새롭게 정의합니다. 이제 공간이란 무엇입니까? 컨볼루션 네트워크에서처럼 로컬한 것, 즉 어떤 것이 그것에 가까운 것들에 영향을 미치는 시스템입니다. 그리고 시간이란 무엇입니까? RNN에서처럼 지속되는 기억, 즉 어떤 것이 그것으로부터 멀리 있는 것들에 영향을 미치는 시스템입니다. 이전 세계, 계산의 세계는 공간의 중요성을 낮췄고(모든 것이 메모리에 있기 때문에), 그것의 자연적 차원들을 무효화했으며(메모리는 본질적으로 일차원적입니다), 반면에 시간의 차원과 속도를 강조했습니다. 그리고 여기, 딥러닝의 세계에서, 우리는 시간의 차원이 더 이상 일차원적이지 않을 수 있다는 것을 봅니다. 왜냐하면 것들이 여러 방향에서 멀리서 영향을 미칠 수 있기 때문입니다 - 그리고 한 차원 이상에서. 두 개 이상의 시간 차원을 가진 딥러닝 네트워크가 확실히 가능합니다, 즉 시간 차원에서 한 방향으로만 뒤로 재귀적이지 않고, 두 개 이상의 변수/방향에서 재귀적인 자신의 복사본들에 연결된 네트워크입니다. 즉, 만약 계산이 공간의 시간화였다면(모든 것이, 돈을 포함해서, 시간과 동등합니다), 딥러닝은 시간의 공간화가 될 수 있습니다(모든 것이 공간이 될 것이며, 시간들도 마찬가지입니다).

딥러닝의 철학

딥러닝은 무엇으로 구성되어 있습니까? 수학에서 배우는 가장 기본적이고 원시적인 두 가지, 즉 1학기에서 배우는 것들입니다: 선형대수학 1과 미적분학 1. 선형대수학은 우리가 이야기했던 조합입니다(그리고 그것은 존재하는 가장 단순한 조합입니다: 선형 조합). 그리고 또한 도함수가 있는데, 이는 방향을 제공하며, 세 번째 나타니야후 공리에 따릅니다(도함수는 방향이므로 가장 단순한 방향입니다). 즉: 학습은 실제로 무엇을 합니까? 예시들을 방향들로 대체합니다. 그리고 무엇이 학습을 깊게 만듭니까? 이 모든 구축이 시스템 내에서 이루어진다는 것입니다. 이것이 시스템의 깊이입니다(그리고 두 번째 공리). 그리고 학습은 더 이상 항상 시스템의 표면 근처에 있지 않습니다, 언어에서처럼, 시스템과 외부 예시들 사이의 대화에서(네트워크의 바닥과 꼭대기에서). 그리고 추가로, 각 층은 그 아래 층에 대해서는 여성이고 위 층에 대해서는 남성입니다, 네 번째 나타니야후 공리에 따라. 즉 우리는 여기서 모든 공리들의 현장에서의 실현을 봅니다(당신이 주목한다면 첫 번째도). 정말로 예언과 같습니다. 그리고 또한 주목해보면, 여기에는 학습의 역사 전체를 통해 서로 경쟁해온 두 가지 요소가 있습니다: 방향 대 구조. 여기서 우리는 그것들을 학습 시간 동안 뒤로 모든 것을 확산시키는 그래디언트 도함수에서(방향) 대 특정 모델의 구축에서(예를 들어 네트워크의 특정 아키텍처, 미리 정해지는, 하지만 더욱이 오늘날 덜 인기 있는 여러 아이디어들, 예를 들어 모든 문제에 대한 딥 네트워크의 일반적 접근 대신 특정 문제에 대한 강한 사전 지식을 가진 특정 학습 모델 만들기) 봅니다. 그리고 이 모든 것은 환경 대 유전, 경험주의 대 합리주의, 아리스토텔레스 대 플라톤이라는 오래된 문제의 우리 시대의 화신일 뿐입니다. 또는 자유 경쟁과 보이지 않는 손(방향의 세계) 대 사회주의와 국가(구조의 세계), 자유주의 대 보수주의, 그리고 라마르크식 진화(방향적 극단에서) 대 지적 설계(구조적 극단에서). 수학적 수준에서, 방향은 연속적이며, 해석학과 기하학의 세계와 관련이 있고, 반면에 구조적 조합은 언어적이며, 대수학과 논리학의 세계와 관련이 있습니다. 그리고 딥러닝은 이 변증법에서 구축에 대한 방향의 학습적 접근의 엄청난 승리입니다(하지만 반동이 올 것입니다), 그리고 그것은 자본주의와 민주주의의 승리와 평행을 이룹니다(커뮤니케이션과 선거의 방향 대 관료적이고 통치적 구조), 또는 사회에서 구조를 희생하면서 쾌락주의가 지배하는 것. 왜냐하면 딥러닝에서는 구조가 단순히 많은 피드백과 방향보다 훨씬 덜 중요하다는 것이 밝혀졌기 때문입니다(하지만 물론 여기에는 종합이 있습니다. 왜냐하면 딥러닝만큼 높은 계층구조가 어디 있습니까? 단지 계층구조의 세부사항이 덜 중요하다는 것이 밝혀졌을 뿐이며, 실제로 그 안의 모든 것이 방향을 통해 결정되어, 꽤 일반적인 학습 메커니즘이 만들어졌습니다. 이는 일종의 경험적 백지 상태입니다). 따라서, 학습이 무엇인지 이해하기 위해서는, 아마도 필요한 것은 학습에 필요한 예시들과 필요한 구조 제공 사이의 관계를 취하는 것입니다, 즉 그것이 어떻게 변하는지(그들 사이의 관계). 더 많은 예시가 필요할수록 더 적은 구조가 필요하고, 반대도 마찬가지입니다. 그리고 이 함수가 어떻게 생겼는지 이해하는 것, 그리고 이것이 중요한 연구라는 것을 이해하는 것이지, 구조가 예시들보다 더 중요한지 덜 중요한지가 아닙니다. 예를 들어 이 함수가 선형인지, 다항식인지, 지수함수인지 등을 알아내는 것입니다, 다른 문제 영역들에서(예를 들어 다른 수학적 객체들을 학습할 때, 그리고 또한 현실의 다른 문제들에서). 즉, 물어야 할 것은 예시들의 양과 사전 지식의 양 사이의 관계가 무엇인가 입니다. 그리고 이것은 기계 학습의 핵심에 있는 분산 대 편향의 동일한 문제입니다(하지만 딥러닝의 핵심에는 덜 있습니다, 분산이 편향에 대해 큰 승리를 거둔 후, 딥러닝의 무수한 파라미터들과 함께, 이는 제약조건들의 수보다 훨씬 많습니다).

뇌과학의 철학

헵의 규칙과 같은 규칙(딥 네트워크들의 전역성에 비해 매우 지역적이며, 긍정적이거나 부정적인 자기 피드백으로 기울어지는)을 가능하게 하는 개념적 기반은 무엇입니까? 헵의 규칙이 기본적인 학습 메커니즘으로서 어떻게 가능할까요, 방향들과도 - 구조와도 관련이 없고, 외부와도 - 내부와도 관련이 없는? 음, 헵의 규칙은 단지 "발사하고 연결된다"(함께 발사하는 뉴런들이 함께 연결됩니다 - fire&wire 형제들)가 아니라, 그것의 진정한 공식화는 내가 나를 예측한 사람으로부터의 연결을 강화하고, 내가 예측한 사람으로부터의 연결을 약화시킨다는 것입니다. 따라서, 이 규칙은 뉴런들이 주로 정보 전달자이면서도 독립적인 질적 평가자라는 가정 하에서만 합리적이며, 그러면 이 규칙은 평판을 만들고, 그것을 퍼뜨리기 위해 새로움을 찾습니다. 또한 그것은 순환성에 반대하기 때문에 층들을 만듭니다. 그것은 식별하는 첫 번째를 찾으므로, 누가 첫 번째로 식별할 것인지에 대한 경쟁을 만듭니다, 즉: 그것은 경쟁적인 규칙입니다. 하지만 뉴런에 대한 어떤 한 소스도 50퍼센트를, 또는 적어도 고정된 임계값을 넘어서는 안 됩니다, 그렇지 않으면 그것은 타락한 긍정적 순환 피드백입니다(추가로, 물론 이 규칙만으로는 충분하지 않습니다, 왜냐하면 그것은 자폐적이며, 외부 피드백을 제공하는 신경전달물질도 필요하고, 아마도 다른 형태의 피드백도 필요합니다). 즉, 헵의 규칙은 당신이(뉴런으로서) 독립적인 평가 능력을 가지고 있고 그것을 암시한다면(!) 작동할 수 있습니다. 그리고 그러면 그것에 대한 경쟁이 있습니다. 따라서 그것은 표면적으로는 뉴런 네트워크보다 인간의 사회적 네트워크에 더 합리적입니다. 하지만 뇌의 연결체, 또는 심지어 단일 뉴런 네트워크의 어떤 빠른 관찰에서도, 뇌가 무질서와 다양성과 잡음과 복잡성을 만드는 방법들에서 매우 매우 멀리 나아가는 것처럼 보입니다, 아마도 헵의 규칙이 사소성으로 수렴하는 것을 막고, 그것이 작업할 수 있는 충분히 다양하고, 확률적이고, 혼돈적이고 불안정한 재료들을 제공하기 위해서일 것입니다. 헵의 규칙은 정보를 내용으로 취급하며, 계산의 작업으로 취급하지 않습니다(뉴런 네트워크를 일종의 분산되고 병렬적인 컴퓨터로 보는 관점처럼). 즉, 많은 중복성이 있을 때(뇌에서처럼, 또는 다른 많은 학습 시스템들에서), 그리고 모두가 같은 선상에 있을 때, 당신이 앞으로 전달하는 올바른 메시지를 선택해야 합니다, 상대적으로 작은 파라미터들의 변화와 함께, 즉 이것이 더 많은 정보 전달에 관한 것이고 계산에 관한 것이 덜할 때. 그리고 이 맥락에서, 뇌에서 위에서 아래로의 예측의 전체 이야기는(예를 들어: 각 상위 층이 그 아래 층을 예측할 때, 그리고 이렇게 예를 들어 내가 받게 될 감각 데이터를 예측합니다) 아마도 헵의 규칙과 깊은 관련이 있습니다. 왜냐하면 내가 예측하는 사람의 말을 듣는 것은 정말 중복적이기 때문입니다. 그리고 만약 그렇다면, 여기에는 계산보다는 추측과 수렴의 과정이 있습니다. 따라서 예측이라는 단어를 추측으로 대체해야 합니다. 이러한 관점에서, 뇌는 아래에서(위로)의 계산과 위에서(아래로)의 추측을 통해 작동하며, 그리고 그들 사이의 충돌 지점들이 있습니다, 또는 충돌 층들이 있으며, 누가 옳았는지(그리고 계속을 예측하거나 계산했는지)가 거기서 다른 것을 결정합니다. 만약 각 상위 층이 아래에 있어야 할 것을 말하고, 그 반대도 마찬가지라면, 이 과정의 수렴은 오류의 근원을 찾을 수 있게 해주며, 이는 잘못된 평가가 튀어오르기 시작하는 지점이며, 거기서 문제가 급격히 증가합니다. 즉, 아래에서 올라오는 계산이 이 지점에서 잘못되어 부정확해졌고, 그 다음 위 층들로 오류를 전파했거나, 또는 위에서 내려오는 추측이 이 지점에서 잘못되어 부정확한 것으로 판명되었고, 그 다음 아래 층들로의 추측에서 오류를 전파했습니다. 따라서, 진정한 뉴런은 내용 평가자이며, 단순히 평가받는 것만이 아닙니다. 왜냐하면 그것은 누구의 말을 들을지 결정하기 때문입니다. 즉 그것은 전달하는 모든 내용에 대해 특별히 평가받고, 받는 모든 내용을 특별히 평가합니다. 그것은 무한한 긍정적이거나 부정적인 피드백 메커니즘을 두려워하지 않습니다, 거기서 그것은 한 친구의 말만 듣고 다른 누구의 말도 듣지 않는데, 왜냐하면 그것은 충분한 잡음이 있는 충분한 의견들을 듣고, 아마도 누군가의 말을 얼마나 들을지에 대한 제한도 있기 때문입니다(아마도 예를 들어 로그함수적일 수 있습니다). 즉 우리는 각 뉴런이 외부 피드백과 위로부터의 지도뿐만 아니라 평가를 위한 본질적인 측정 방법들도 가질 수 있다는 것을 봅니다, 예를 들어: 그가 나를 예측하는지, 그리고 그가 현재 내 위에 있는 사람의 예측에 맞는지. 딥러닝에서의 일반적인 사고는 네트워크의 두 방향을 분리된 것으로 보는 것입니다, 두 개의 분리된 단계로 오는: 아래에서 위로의 계산(전방 전파)과 위에서 아래로의 피드백(후방 전파). 하지만 우리는 그것들을 시스템에서 동시에, 비동기적으로 그리고 양방향으로 그들의 강도에 따라 시간에 따라 진행되는 파도로도 생각할 수 있습니다, 즉 때로는 특정 진행이 불만족스러운 뉴런에서, 또는 그러한 전체 층에서 멈추고, 뒤로 피드백을 보내기 시작하며, 그 반대도 마찬가지이고, 반사와 메아리와 거친 바다가 있으며, 그것이 특정 상태로 수렴할 때까지, 그리고 이것이 네트워크의 진정한 계산 메커니즘입니다(단순히 아래에서 위로만이 아닙니다). 그리고 이렇게 훈련과 실행/예측은 두 개의 분리된 단계가 아닙니다, 마치 후방 전파와 전방 전파가 병렬로 일어나는 것처럼. 그리고 이것이 아마도 뇌에서 일어나는 방식일 것입니다. 그리고 만약 각 층이 그 이전 층을 예측한다면, 때로는 심지어 입력 층에서도, 데이터로부터도 피드백이 반환될 것입니다, 이는 현재 딥러닝에서는 일어나지 않으며, 이는 유감스럽습니다, 왜냐하면 우리는 이 반향을 놓치고 있고, 후방 전파 신호의 정보는 입력 층에 도달할 때 사라지고 손실됩니다(우리는 이 정보를 실제 입력과 비교하는 데 사용하지 않습니다). 하지만 만약 모든 처리 단위가 위로부터 지도를 받고, 독립적으로(단순히 후방 전파의 일부로서가 아니라) 아래로 지도를 출력한다면, 아래와 위 사이의 만남에서 위에서 내려오는 그래디언트나 평가는 아래에서 올라오는 것과 만나게 됩니다, 계산에서 있었던 것과. 그리고 만약 불일치가 있다면 문제가 있습니다. 양쪽 모두에게. 그리고 만약 그들이 신호가 어느 방향으로 변해야 하는지에 대해 동의하지 않는다면, 불일치에 주의를 기울여야 합니다. 그리고 시스템의 자원들을 그것으로 향하게 하고, 이렇게 혁신이나, 놀라움이나, 문제들에 주목할 수 있습니다. 예를 들어, 미시적 수준에서, 만약 받아들여지지 않는 뉴런이 있다고 말한다면, 그로부터의 가중치들이 거의 0에 가깝다면, 그것은 더 유용하고 흥미로운 기능이 되라는 부정적인 피드백을 받은 것입니다. 그리고 만약 그것이 일관되게 강한 모순되는 피드백을 받는다면, 아마도 그것은 두 개의 뉴런으로 분할되어야 할 것입니다. 그리고 만약 두 뉴런의 연결이 너무 비슷하다면, 아마도 그들은 하나로 통합되어야 할 것입니다. 즉 우리는 피드백과 불일치에 따라 아키텍처를 설계할 수 있습니다. 그리고 거시적 수준에서는, 이것은 시스템이 놀라움을 찾고, 미래 예측에서 실수한 예들을 찾을 수 있게 해주며, 이것이 호기심입니다. 예를 들어, 만약 위층이 그 아래층을 예측하는 데 실패했다면, 해결책에 도달할 때까지 비슷한 예들을 계속 연구합니다. 왜냐하면 더 올바른 시스템적 사고는 이미 학습한(많이) 네트워크에 대한 것이기 때문입니다. 그리고 그러면 그것은 또 다른 예를 더 학습하거나, 과거에 맞지 않는 새로운 예를 만납니다. 오늘날의 사고방식과는 대조적으로 네트워크가 모든 예들을 처음부터 학습하기 시작합니다(유아적 사고). 그리고 따라서, 문제를 식별했을 때, 파라미터 검색 공간은 단순한 최적화가 아닌 검색처럼 작동해야 합니다 - 탐색입니다. 그리고 더 많은 혁신을 제안합니다 - 새로운 조합들. 독립적인 평가가 있을 때, 거기서 층이 자신만의 측정 기준으로 그 아래층을 판단하며, 단순히 위층에서 받은 지도(후방 전파에서)에 따라서만이 아닙니다, 당신은 또한 검색을 수행할 수 있고, 전체 경로를 따라 검색 공간을 줄일 수 있습니다(즉 다른 층들 사이에서, 그래서 검색이 무차별 대입으로 무한한 조합으로 폭발할 필요가 없습니다). 인공지능 연구의 첫 번째 세대는 검색이었습니다(중심적인 알고리즘적 패러다임으로서, 예를 들어 논리적 추론에서), 반면에 오늘날 인공지능은 검색을 불처럼 피하고, 그것을 최적화로 대체했습니다(연속적인 파라미터들의 조정과 통계에서), 하지만 미래에는 그들 사이의 종합이 있을 것입니다. 검색도 제공할 것이 있습니다(단순히 폭발하는 것만이 아니라), 만약 그것을 올바르게 관리한다면, 그리고 실제로 뇌에서는 많은 경우에 검색이 수행되며, 진화에서도 마찬가지입니다, 왜냐하면 이것은 더 창의적인 혁신을 가능하게 하는 방법이기 때문입니다 - 조합과 그것의 평가를 통해. 철학 자체도 만약 그것이 단순히 그것의 평가 함수에 대한 최적화였다면 매우 지루하고 아첨적이었을 것이며, 그것이 검색이라는 사실이 그것을 어렵고 흥미롭게 만드는 것입니다 - 그리고 창의적이게, 그것의 평가와의 투쟁에서. 그리고 왜 진화는 무차별 대입 검색보다 빠른가? 진화의 성공은 조합 능력 자체에서 나옵니다, 즉 처음에는 검색이 단순한 조합들로 이루어지고, 그 다음에, 다음 층들에서, 검색 단계들이 커지며, 그 자체로 복잡한 부분들의 조합들과 함께. 그리고 각 단계에서(즉 층에서) 생물체의 독립적인 평가가 있습니다. 그래서 이것은 무차별 대입이 아닙니다 왜냐하면 학습의 이전 단계들이 다음 단계들에 영향을 미치고, 그들을 안내하기 때문이며, 따라서 검색은 모든 가능성의 공간에서 이루어지는 것이 아니라, 단지 진행하는 빔에서만 이루어집니다. 그렇다면, 조합과 세대(=층들)의 현상은 학습에서 기본적입니다. 즉: 딥러닝에서도 뇌에서도 진화에서도 일반적인 학습의 정의에서도, 우리는 블랙박스인 많은 구성 요소들을 가지고 있으며, 그들 사이에 구축 중인 연결들이 있습니다(이를 각 특정 경우에서 특성화해야 합니다: 딥러닝에서는 비선형성의 트위스트가 있는 선형 조합들, 진화에서는 - 교배, 그리고 다른 시스템들에서도 계속). 위로 향해서는 그들은 아래를 사용하여 함수를 계산합니다. 그리고 아래로 향해서는 그들은 평가를 제공합니다(예를 들어 그래디언트를 통해 또는 아마도 선택을, 예를 들어 짝에서, 이해하나요?).

네트워크 연구의 철학

피드백이 무엇을 만드나요? 간단히 말해서, 편미분 방정식들과 재귀 방정식들, 이것들은 실제로 피드백 메커니즘들이며, 따라서 복잡성과 혼돈의 현상들입니다. 따라서 뇌에서도, 그리고 일반적으로 학습에서도, 피드백 순환은 비슷한 현상들을 만들 것이며, 이것들은 그러면 학습에 자연스러운 것이지, 그것의 결함이 아닙니다. 하지만 어떤 종류의 피드백이 있나요? 그래디언트 디센트의 후방 전파(=최적화에서 경사 하강)에 대한 대안적인 메커니즘들이 평가의 후방 전달에 있습니다. 예를 들어: 단순성에 대한 추구(평가는 오캄의 면도날처럼 얼마나 단순한지에 따른 측정입니다). 또는 혁신에 대한 추구. 또는 가변성과 다양성에 대한(특정 분포). 하지만 피드백의 가장 중요한 특성은 그것이 무엇에 따른 것이 아니라, 그것이 만드는 순환의 크기입니다, 왜냐하면 이것이 시스템적 특성이기 때문입니다. 그리고 여기서 후방 전파의 약점이 두드러지는데, 이는 매우 큰 피드백 순환을 만들며, 이는 큰 시스템에서 매우 인위적입니다 - 그리고 매우 느립니다. 더 합리적이고 따라서 더 일반적인 대안은 짧은 피드백 루프입니다(인공 신경망 외부의 세상에는 후방 전파로 학습하는 학습 시스템이 존재하지 않습니다). 예를 들어 뇌에서는, 신경층들 사이에 많은 역방향 연결들이 있습니다, 반대 방향으로(딥러닝에는 존재하지 않는). 현재 뇌의 이해에서 - 그리고 마찬가지로 딥러닝에서도 - 부족한 것은 경쟁의 아이디어이며, 그리고 인구 내에서의 아이디어 확산입니다(이는 실제로 헵의 규칙에 더 적합합니다). 왜냐하면 각 단계에서, 뇌에서는 여러 가능성들이 경쟁하며, 여러 후속 생각들이, 그리고 하나가 선택됩니다. 즉 어떤 평가에 대한 경쟁이 있으며, 이는 학습을 어떻게 계속할지 선택합니다. 즉: 피드백의 가장 큰 중요성은 정확히 그것이 만드는 경쟁에 있습니다(경제나 민주주의에서처럼, 피드백의 존재 자체가 중요하며, 그것이 이상적이지 않더라도). 하지만 너무 큰 피드백 순환에서는 이 모든 것이 손실되거나 비효율적이며, 작은 순환들에서의 근접한 경쟁과 비교됩니다. 구글의 페이지랭크 알고리즘에서도 허브들이 있는데, 이들은 평가하며, 이것이 실제로 그것의 본질입니다 - 네트워크의 일부 정점들이 다른 것들을 평가하도록 그래프를 분석하는 것입니다(그리고 차례로 그들에 의해 평가받습니다). 이 모든 것이 신경망과 매우 비슷하며, 그래서 사이트들 사이에 순위에 대한 경쟁이 생기고, 일반적으로 네트워크에서 품질 경쟁이 생깁니다. 그리고 과학에서는? 각 논문은 다른 것들을 인용하며, 즉 이것이 네트워크에서의 평가이며, 여기서는 층들이 없고 모두가 모두와 연결되어 있습니다. 그리고 층들은 출판 시간에 따라 만들어집니다(각 논문은 그 이전에 출판된 것들을 평가합니다). 즉 우리는 여기서 그들 이전의 것들을 평가하는 층들을 가지고 있으며, 그들 이후의 것들에 의해 평가받으며, 그래서 경쟁이 생기며, 매우 단순한 네트워크 메커니즘을 통해서. 이 두 경우에서 큰 외부 피드백 순환이 평가와 경쟁을 만들기 위해 필요하지 않으며, 대신 평가는 그들 자신으로부터 생깁니다. 우리는 반드시 진화에서처럼 강한 외부 평가가 경쟁을 만들기 위해 필요한 것은 아니며, 이것이 비지도 학습의 열쇠이며, 이는 뇌에서 지배적인 학습이며, 딥러닝의 큰 단점입니다, 이는 엄청난 양의 예제들이 필요합니다(참고로, 진화에서도 주요 경쟁은 짝을 위한 것입니다, 즉 종 내의 작은, 내부적인 피드백 순환들에 대한 것이며, 큰 멸종에 대한 것이 아닙니다). 그래서 우리는 명확한 외부 평가가 없는 네트워크들에서도, 예를 들어 페이스북, 주식 시장, 그리고 데이트, 그리고 논문들에서, 여전히 격렬한 경쟁이 있을 수 있다는 것을 봅니다. 그러한 네트워크들에서 당신은 숫자를 받습니다, 가격이나 좋아요나 h-index나 페이지랭크와 구글에서의 순위같은, 그리고 당신에 대한 지도. 이 숫자는 당신에게 어떤 지도도 주지 않으며, 단지 평가만을 주며, 그리고 당신은 그것을 해석하고 당신이 어느 방향으로 변해야 하는지를 그것으로부터 이해해야 합니다. 그리고 이는 딥러닝에서 당신을 위로부터 지도하는 그래디언트와는 대조적입니다, 이는 당신에게 주어진 방향입니다. 그리고 아마도 다항식 시간이 측정 가능한 지도가 있는 것이라고 주장할 수 있으며, 반면에 NP는 지도가 없는 문제들의 클래스이며, 미분 불가능하며, 대신에 혼돈적이고 비지역적입니다. 따라서 우리는 NP로부터 평가가 학습에 충분하지 않다는 것을 배워야 합니다. 오직 지도만이. 왜냐하면 NP는 정확히 이 거대한 피드백 순환이기 때문입니다, 외부로부터, 이는 우리를 해결책으로 이끌 내부 학습에 아무것도 주지 않는 것으로 판명됩니다. 그러한 평가로부터 지도를 도출할 수 없습니다. 다항식 시간이 교대로 라마르키안한 것인가, 즉 지역적 최적화로 분해 가능한가, 즉 그것이 구축+지도인가? 뇌에서는 아직 학습이 어떻게 작동하는지 모르지만, 진화에서는 알고 있으며, 우리는 거기서도 핵심 특성이 있다는 것을 봅니다: 독립적인 평가 함수, 이것이 두 성이 있는 이유입니다. 즉 강한 외부 평가인 삶과 죽음이 있더라도, 학습이 작동하기 위해서는 시스템 내에서도 독립적인 내부 평가가 필요하며, 성의. 큰 피드백 순환은 반드시 더 작고 더 근접한 피드백 순환들로 분해되어야 하며, 이는 단순히 그것의 미분이 아닙니다, 문자 그대로. 문화적/정치적/주식회사/경제 네트워크에서도 독립적인 평가 함수들이 있습니다. 즉: 그것이 그들의 유일한 기능인 부분들이 있습니다. 그리고 그러면 그것에 대한 경쟁이 있으며, 즉 대안들 사이에 중복성과 여분과 다양성과 차이와 비교가 있습니다(그렇지 않으면 왜 모든 학습 시스템들에서 이 심리적 중복성이 존재하나요? 왜 뇌에 그렇게 많은 뉴런들이 있고 유전체에 유전자들이 있고 종에 유기체들이 있고 - 그리고 국가에 사람들이 있나요). 그렇다면, 내부 평가는 어떻게 작동하나요? 그것은 어떻게 스스로 평가받나요? 음, 시스템 내에 단순히 독립적인 평가 단위들이 있으며, 이는 독립적으로 지도하며, 단순히 큰 피드백의 전체 순환이 아닙니다. 대체로, 시스템에 대한 일반적인 피드백은 드물고 비싸며, 따라서 2차 평가 함수들에 의존합니다. 그리고 단순히 평가 함수들도 학습합니다. 그리고 NP에서는 무슨 일이 일어나나요? 2차 평가들이 실패합니다. 실제로, 시스템의 학습을 만드는 것으로서 시스템 외부로부터의 강화 학습의 전체 아이디어는(예를 들어 행동주의) 개념적 오류이며, 이는 학습의 단순화된 철학적 그림에서 비롯됩니다. 우리는 결코 최종 피드백을 가지지 않으며, 모든 계산은 아직 끝나지 않았습니다.

신경망의 철학

독립적인 평가들이 시스템 내에서 어떻게 더 도움이 되나요, 시스템 외부에서 오는 외부 평가와는 대조적으로, 이는 그것을 가르치기 위해 옵니다? 왜냐하면 당신은 또한 이전에 배운 것을 그것을 지우는 새로운 학습으로부터 보호해야 하기 때문입니다. 그리고 내부 평가는 그것이 이끈 학습을 모든 것을 씻어내는 외부 지도들로부터 보호합니다(후방 전파에서처럼). 그래서 새로운 피드백이 단지 새로운 것에만 도달하도록 할 수 있으며, 그것의 방향으로 채널링되며, 모든 오래된 것의 방향이 아니라 - 그리고 추가하며 - 지우지 않습니다. 기억을 보존하게 하는 것은 정확히 후방으로의 학습이 없다는 것입니다. 예를 들어 그것이 라마르키안이 아니라는 것, 대신에 DNA의 학습, 즉 디지털이며 단순히 아날로그 연속적이지 않다는 것입니다(이는 모두 미분과 최적화에서의 수렴으로 마모됩니다). 그리고 이것은 또한 조합을 가능하게 합니다. 평가가 독립적일 때, 학습은 한 번에 한 층만 뒤로 갑니다. 거기서 마법이 일어나며, 예를 들어 복잡성의, 단순히 또 다른 층을 통해서. 진화에서도 - 그것은 항상 한 세대입니다. 후방 전파는 악의 근원이며, 이는 딥러닝 분야 전체를 무차별 대입으로, 블랙박스로 만들었고 따라서 과학이 아닌 공학으로 만들었습니다. 모든 문제적인 현상들이 그것에서 나옵니다. 그리고 그렇게 학습하는 자연 시스템은 존재하지 않습니다. 치명적 망각(새로운 종류의 예제들을 주면 딥 네트워크가 배운 것을 잊어버리는 현상)과 딥러닝에서 학습 블록들을 잘 연결하는 능력의 부족은 여기서 처음에 제시된 것과 같은 모델을 선택했다면 피할 수 있었을 것입니다, 교사와 구축의. 치명적 망각은 실제로 기억이 전혀 없기 때문입니다, 단지 행동이나 학습만 있습니다. 따라서 학습에 저항하는 기억이 필요합니다, 즉: 네트워크가 유용한 것을 배웠다고 결정하는 경우들, 또는 특정 개념을, 그리고 그것을 계속되는 변화와 별도로 저장합니다(또는 그것에 대한 변화 능력을 매우 늦춥니다). 따라서 당신이 한 것을 강화하는 방법이 필요하며 단순히 그것을 변경하지 않는 것이 아니라, 각 파라미터에 대한 확신 파라미터가 있어야 하며, 이는 성공할 때마다 강화됩니다(즉, 파라미터 지도에 대한 변화 미분이 거의 없을 때, 이것도 가치 있는 정보이며, 현재는 거의 손실되고 있지만, 경사 하강의 최적화 알고리즘에서 부분적으로 영향을 미칩니다, 예를 들어 모멘텀에서). 기억한다는 것은 학습하지 않는 능력입니다. 지속될 무언가를 배우기 위해서는 학습하지 않는 능력이 필요하며, 모든 새로운 정보에 의해 영향을 받지 않는 것이, 지도의 바람개비처럼. 후방 전파 메커니즘의 모든 변화는 딥러닝의 다른 변화들보다 훨씬 더 근본적입니다, 왜냐하면 이것이 방법론이기 때문입니다, 학습 메커니즘. 그리고 거기서 그것을 수정할 수 있습니다. 그리고 철학의 역할은 이 개념적 심층 분석을 분석하는 것입니다(현재는 거의 하지 않고 있으며, 따라서 철학자들에게 아무도 돈을 지불하지 않습니다, 그들이 제공할 수 있는 엄청난 가치에도 불구하고).

딥러닝의 철학: 요약

따라서, 필요한 것은 아래로 내려가는 모든 것(평가들)이 하나의 깊은 평가 네트워크로 연결되어 있는 모델이며, 각 층은 일반적인 딥 네트워크에서 일어나는 것에 대한 출력과 입력을 가지고 있습니다, 즉 계산하는 네트워크의 병렬 층에. 계산 네트워크에서 평가 네트워크로의 입력은 계산 네트워크의 층의 출력이며, 이는 평가 네트워크로 전달됩니다 - 평가를 위해. 그리고 평가 네트워크에서 계산 네트워크로의 출력은 그것의 평가 출력입니다 - 이는 지도입니다. 네, 이것은 양방향으로 완전히 대칭적입니다. 그리고 따라서 훨씬 더 일반적입니다. 위로 올라가는 하나의 네트워크와 그것에 대해 완전히 병렬로 아래로 내려가는 네트워크. 그리고 두 네트워크가 정확히 같은 구조를 가지는 특별한 경우에는, 실제로 각 뉴런은 이중 가중치를 가집니다, 위아래로, 그들의 업데이트를 위해. 즉 이것을 하나의 네트워크로 생각할 수 있습니다(이중 작용), 하지만 아마도 평가 네트워크에 구조적 독립성을 주는 것이 더 나을 것입니다, 즉 서로를 제어하는 두 네트워크. 그리고 이 모든 것이 NP에 대해 무엇을 의미합니까? 여기서의 학습 정의는 평가자와 평가받는 자들의 층들로의 분해로서입니다, 교사와 학생들. 그리고 질문은 그러한 분해가 존재하는지 아닌지입니다, 문제에 대해, 모든 다항식 알고리즘이 그러한 분해일 때. 즉, 이것은 컴퓨터 과학의 철학에서 우리가 본 것과는 다른 학습의 정의이며, 아마도 이러한 과학들의 기본 문제를 다루는 데 더 적합할 수 있습니다. 그리고 나는, 이미 내 인생에서 이러한 생각들을 가져와서 형식적으로 만들 수 있는 단계를 지났습니다 - 하지만 아마도 당신은 할 수 있을 것입니다.