国運の衰退
学習科学の進歩のためのプログラム:計算学習、機械学習、脳科学
情報科学の哲学に関する書簡、学習科学への転換に向けて:数学の哲学、コンピュータサイエンスの哲学、計算学習の哲学、脳科学の哲学
著者:数学者(もはやそうではないが)
生徒への手紙:コードとアケダー[訳注:イサクの犠牲]-すべては(学習に)つながっている (出典)


数学の学習哲学

あなたは数学の哲学は面白くないと思っているかもしれませんが、実際にはこれこそが最も興味深いものなのです。学習を数学の基礎として捉えるべきだったのです。証明を書くことではなく、証明を学ぶことこそが重要です。なぜなら、数学的構築は本質的に論理的構築(それは表面的な言語的側面に過ぎません)ではなく、学習的構築だからです。脳科学の中心的な問題は、脳を単一の主体として考えることにあります。競争が脳の中に存在することを理解せずに - 思考間の競争、モジュール間の競争(注意力や意思決定に関して)、異なる記憶間の競争、ニューロン間の競争、そしてこの文の異なる続き方の間の競争(そしてこの競争は、民主主義や資本主義や中国の実力主義のような、学習するシステムを構築する経済的または政治的競争に対応しており、それがそれらの勝利の根源です)。同様に、数学の中心的な問題は、それを学ぶ多数の主体である数学者たちを、そして数学の下にある学習そのものを概念化していないことです(かつて数学の下にある論理を概念化していなかったように。そしてフレーゲが論理を数学の基礎にしたように、論理の下にあるもの - それを動かすもの、そして後に数学の基礎となるもの - それは数学的学習です)。それだけではありません - 学習は、数学におけるすべての基本的概念を定義するためのツールとなるべきです:極限、群、トポロジー、空間、証明、集合、素数、確率、関数、連続性など。そして、このように数学に学習的な再構築、公理化、そして新しい解釈を与える必要があります(量子論の可能な学習的解釈のように、他の解釈の中の一つとして)。数学の、特に代数学の合成と構築の性質は、学習性に由来し、それに基づくべきです。例えば、あなたがすでにa、b をブラックボックスとしてどのように行うか学んだとしましょう。この関数を持っているということは何を意味するのでしょうか?例えば、証明を知っているとはどういう意味でしょうか?それを使ってcにどのように到達することを学ぶのでしょうか?単に関数を持っていると言えなくなる段階が来るでしょう。しかし、ブラウアーの直観主義や形式主義の公理的-計算的構築とは異なり、提供する必要のある構築は学習的なものです:その関数をどのように学んだのか。そして、たとえその関数がすでにあなたの中に存在している(例えば、あなたの脳の神経学の中に)ブラックボックスとしてあったとしても、それを知っているということは、それを使用する、つまり入力に対する出力を与える能力ではありません。知っているということの意味は、それを通じて学ぶ能力、つまりこのブラックボックス(理解していないもの)から適切な学習の継続を構築する能力です。証明を知っているということは、それを暗記して前提から結論に至る(Q.E.D.)能力ではなく、それを使って新しい証明を構築する能力、つまりそれを通じて学び続ける能力です。そして、証明の理解は、その中(例えば、その連続性の中)で理解するものではなく、それから新しい証明を構築する方法の理解です(ヴィトゲンシュタインのように既存のシステムで単に「使用する」のではなく、システムの継続を構築し、システムを発展させること。言語の詩人的使用のように、単なる話者ではなく、つまりコンピュータのプログラマー的使用のように、単なる「ユーザー」ではなく)。そして、ここで例えば、ニューラルネットワークと遺伝的アルゴリズムの類似性に注目しましょう。ニューロンでは、構築は主に数字の結合と組み合わせ(つまり線形結合 - 最も単純な組み合わせ - の関数で、その上に必要最小限の非線形性を持つ)であり、一方、進化では、構築はパーツの結合と組み合わせです(実際には、2つの文 - 2つのゲノム - の言語的な組み合わせで、単語の一部が最初のものから、一部が2番目のものからとられます。そして最終的に収束後 - 文は非常に似ており、その間に小さな変異があり、文はまだ意味を持っています。「庭師が庭で穀物を育てた」が「庭師が庭で小麦を育てた」と交配します。しかし、基本的に遺伝的アルゴリズムでの構築は単純に交換で組み合わせることです。そして彼らの子は「庭師が庭で穀物を育てた」となります)。したがって、2つの組み合わせと構築メカニズム、つまり結合の間の具体的な違いを超えて、一方は量的な大きさの結合で、他方はテキスト-言語的な結合ですが、ニューロン学習と進化の間には深い類似性があります:世代は層です。基本的な学習コンポーネントは、各段階で非常に多数存在し、また深く(つまり非常に多層的に)積み重なって、学習を生成します。進化は本質的にディープラーニングであり、この自然な類似性を否定することはできません。つまり、私たちは自然界では構築が学習の基本であることを見ています - たとえ学習の世界には異なる構築技術(加算、乗算、文字列の連結、他のコード部分の関数としての呼び出しなど)が存在する可能性があっても - そして論理的および数学的構築でも同様です。論理学でも、結合から生まれる多層の構築層があります(構築には2つの次元があります。なぜなら、それは2つ以上の以前のものを組み合わせ - 水平次元 - て、それらから新しいものを作る - 垂直次元 - からです。つまり、構築は下向きの多重性からも、横向きの可能性の多重性からも生まれます。壁のレンガのように)。そして、学習の上に数学を再定義するプロジェクトに戻ると、このプログラム(ラングランズプログラムに倣った、数学基礎の学習プログラム)は、本質的に構築的な代数学だけでなく、解析学にも適していることがわかります。確かに、代数学では構築が基本的であり、だからこそ基本的な構築の問題は学習的な視点から恩恵を受けるでしょう。例えば、素数とは何でしょうか?数の2つの構築方法の衝突:一つは加算による - もう一つは乗算による。これが謎の源(リーマンは比喩として)であり、その解決は新しい概念化によってもたらされるでしょう:それらを構築することを学ぶ。素数を学ぶこと - これがリーマン予想への王道です。そして同様に、群の構築を学ぶことができます。または集合を学ぶこと(またはグラフ、またはゲーム、または行列)。一方、解析学では、極限とは何を意味するのでしょうか?測定によって近づくこと - それは知ることを意味します。そしてトポロジーは極限の一般化です。極限は学習メカニズムであり、それが成功するとき、学習が可能なとき(つまり、近づくにつれて何に近づいているかを学べるとき)、それは連続です。そして学習できないとき - それは不連続です。そしてこの学習メカニズム自体は連続体のトポロジーから生じます。つまり、トポロジーでは、学習はより抽象的な一般化であり、極限の定義の基礎ではなく、極限はその特別な例です。連続体の学習メカニズム自体を見て、そこから定義を始めるとき - これがトポロジーです(フィルターや開集合/閉集合による定義、または他の現代的な提案の代わりとして)。そして解析学では、メソッドの考え方を使って導関数を定義したり、導関数の考え方の一般化としてメソッドを定義したりできます。これが学習の学習です。


コンピュータサイエンスの学習哲学

同様に、学習的基礎の上に分野を構築する同様のプロセスは、コンピュータサイエンスでも行うことができます(そしてこれによって、ついにコンピュータサイエンスの哲学を真剣に確立することができます)。計算とは何でしょうか:関数がどのようにそこに到達したのか?(もはや単に定義することはできず、構成的でなければなりません - 計算可能)。では、学習とは何でしょうか:計算がどのようにそこに到達したのか?(アルゴリズムをどのように構築したか、つまりそれをどのように学んだかを説明する必要があります。以前に関数をどのように構築したかを説明する必要があったように。これは構成性の構成性です)。では、関数に戻ると、必要なのは:関数を計算することを学ぶことです。証明は構築です。そして学習は構築の方法です。構築自体を構築すること。ここから、次の代数的段階は学習における加算と乗算となり、これらは加算と乗算の一般化となり、したがって学習を使ってアルゴリズムの加算と乗算を定義できます。そしてこれらは、乗算(多項式の場合のループでの呼び出し)と加算(アルゴリズムの後にアルゴリズムを実行)の一般化となり、学習的構築において。そして再帰は指数の一般化となります。一方、条件分岐は一種の加算です。チューリングの計算の世界では、無限と漸近的なものが解析学で、演算が代数学でした。そして今、私たちは無限を組み合わせたい問題に直面しています。つまり、極限に向かって学習するシステムを組み合わせることは、無限級数の和の問題に歴史的によく似ています。学習コンポーネントは常に最適値に近づき、これが連続的な部分、最適化の部分です。一方で、それらは代数的に互いに組み合わさる/積み重なり、これが離散的な部分、検索と突然変異の部分、つまり計算的に高価な部分です。これを一般的に行う方法がない場合 - 組み合わせがあります。つまり、これはブルートフォース検索です。したがって、私たちは指数関数性が本質的にブルートフォースと問題を理解して解決する能力の欠如の表現であり、単にそれを定式化できるだけであることを理解する必要があります。その意味は:解決方法を知らないこと。つまり:私たちが数学で知っている加算や乗算や指数のような基本的な代数演算のすべての下には、より深いもの、計算的なもの、そして(その下に)学習的なものがあります。そして今日、それは単に実行時間の関数として外部的に表現されています。指数は本質的にすべての可能性の空間での検索です。これは言語であって学習ではありません。言語はすべての可能な組み合わせであり、学習は可能性の収束であり、したがって特定の解決を可能にします。特定の文。世界のどの文も言語によって書かれたことはありません - それらはすべて学習によって書かれています。


アルゴリズム論の哲学

関数やアルゴリズムを学びましたか?解析学の極限に似ていることに注目してください - そこに関数があります(それが極限です)。そしてイプシロンとデルタの代わりに、ここには教師と生徒の間の相互作用があります。生徒は極限(それが彼の地平線です)を目指し、教師は極限の測定者の立場に立ち、例えば特定の点での関数の結果にどれだけ近づいているかを尋ねます。つまり、教師の側、成功を測る側、あなたの収束を判断する側は、NPの基準のようなものです。そしてNPの問題は何でしょうか?それは解析学の連続的な極限とまさに正反対です。なぜなら、このような問題では、成功の部分的な測定は目標の達成に全く役立たず、学習を支援しません。つまり、生徒として成功することができません。途中で目標に到達することを可能にする指針がありません。学習とは、知っていることから - 知らないことを構築するプロセスです。そしてこれはすべて評価基準に対してです。そして評価が外部的ではなく内部的な基準である場合、それは方法 - メソッド - です。しかし、内部的な基準が全くなく、外部的な基準だけの場合は?そうするとあなたはNPにいます。アルゴリズムを学ぶとき、それを例からの学習または実演からの学習として定義するのが正しいでしょうか、つまり何を学ぶのかまたはどのように学ぶのかとして?学んでいる関数の特定のケースでの入力と出力の値だけを受け取るのか、それとも特定の入力-出力ケースでの関数の構成的な構築を受け取るのか?答えは両方であるべきです。なぜなら、学習とはまさに関数を以前の関数から構築されたものとして分解することであり、これが実演の本質ですが、各段階でそれらのどの組み合わせを選ぶかは例に依存するからです(証明は例なのか実演なのか?)。したがって、NPは確認が容易な問題 - そして学習が困難な問題です(つまり、それらの場合には教えることができない - 教師になることができない)。そして素数の問題でも同様に、問題は学習できない程度、予測不可能な程度です(確率、これも学習を使って再定義できます)。これがリーマン予想の本質です(そしてそれゆえに、一方向関数としての素数の因数分解問題と深いつながりがあることが予想されます)。素数における学習とは何でしょうか?自然数の列上で到達した各素数で、あなたがすでに知っているのは、それ以前のすべての素数から乗算で数を構築することです。つまり、それ(次の素数)はあなたが学んでいなくて学ぶ必要のあるものであり、深い問題は、乗算による以前の数の構築という学習的構築において、あなたの学習能力がどれだけ本質的に制限されているかということです。つまり:数学の最も重要な2つの予想には、その本質に触れる学習的な定式化が存在します - そしてもし私たちが言語的思考、つまり非常にプリミティブで組み合わせ的な種類の構築(自然数とアルゴリズムの両方の)に遭遇していなければ、それらの解決への道であるべきでした。両方において、特定の現象が学習困難であることを証明する必要があります - つまり、学習できないものを見つける必要があります。数学の歴史において、私たちはどのようにアプローチすればよいかさえ全く分からなかった基本的な予想(無理数の存在、円の二乗、五次方程式、ゲーデルの定理など)を、常にこのような新しい構築によって解決してきました。それは現象を捉えることに成功し - その後、それを使って何が構築できないかを証明しました。これらはすべて何ができないかの問題だったことに注目してください(ピタゴラス学派では、無理数の存在は自然数を使って比として構築できないことでした。問題は肯定的な形で表現されているにもかかわらず)。なぜなら、数学のより深い問題は常に不可能性の問題だからです。まさに数学が構築であるからこそ - 構築できないものを示さなければならないとき(構築できるものよりも - それは単に構築すればよいだけだから)、行き詰まりに直面しやすいのです。したがって、今日の2つの主要な不可能性問題、NPとリーマンを進展させるために、学習の数学的定義とそれから生じる構築の定義を構築する必要があります - そしてそのような構築は不可能であることを否定によって証明します。なぜなら、それを学ぶことができないからです(言い換えれば:学習は学習している数学的構造を表現でき、そして数学的学習理論から導かれる学習不可能なものによってその可能性に制限を課すことができ、そしてそれによってその可能性の限界を証明することができます)。そしてNP対P問題に関して、学習は一般的な意味で必然的に困難で、非効率的で、多項式的ではないことに注目しましょう。そして実際、おそらく証明する必要があるのは、学習が困難な問題であるということです。なぜなら、例に従って正しく学んだかどうかを確認するのは簡単だからです。これ自体がNP問題です。つまり、効率的な一般的学習アルゴリズムが存在したら - 矛盾に至る必要があります(そのような不条理への導きは、学習問題が解決可能なら、すべてが簡単に解決可能になるということです。なぜなら、学習は最初に解決アルゴリズムを学ぶことができ、そしてそのような状況では、学習問題自体を解決することも学ぶことができ、そしてこうして何らかの最小の学習アルゴリズムに到達しますが、しかしそれも学習されます。さらに、そのような状況では、NP問題を解決するPのアルゴリズムには最小の多項式指数があり、そして学習の構成的性質のために、その下のアルゴリズム、つまり新しいものがそれを使って構築され、より低い多項式指数を持つものも、NP問題を解決することを示す必要があります。あるいは、解決を構築する要素間で情報を分割し、学習的構築において少なくとも、NP問題の解決はすべての情報に依存し、分割統治がないという考えの定式化を使って、帰納法によってアブスルドゥムまで下がります。多項式性自体は、学習が構成的であり、2つの基本的な構築が アルゴリズムの加算とループでの呼び出し、つまり加算と乗算であることから生じ、そこからPの多項式が生じます。つまり、これが効率性と解決の容易さの定義である理由の説明です)。数学の基本的なものは常にどういうわけか無限の離散的プロセスであることに注目しましょう:素数、極限、計算、論理... そしてこれは学習でも同様になるでしょう。実際、学習はその下にあるので、この現象の原因です。いずれにせよ、この共通の特性から、それらを扱う能力が生じ、言語を超えた新しい数学的パラダイム(これが現在の数学的パラダイムです)への突破口を開くことができます。そして、NP問題が本質的に学習問題であることに気づきます(それは誤って言語を使って概念化され、そのため、それに適した言語がない、あるいはその解決を捉え始めることさえできない言語がない問題になりました)。そして、学習による概念化がその自然な解決の方向であることを理解しなかったことを不思議に思うでしょう。なぜなら、学習的な視点を通じて、私たちはNPと進化の類似性も見ることができるからです。進化では、学習がメカニズム(交配と突然変異)として生存と適応度のテストと戦っており、生物を構築し革新することは非常に困難ですが、それが生存するかどうかを確認するのは非常に簡単です。生物学は常に、その努力を容易に判断できる残酷な自然に対して、困難な学習の立場にあります。そしてここで、学習への道において、美が方向付けの役割を果たしていることがわかります。生物学が誰がより適応しているかを推測するためのショートカットとして。そして数学でも同様です。証明の厳密な基準は、美の柔らかい基準と並行して進み、これにより数学者たちは、それが原理的に困難な問題であるにもかかわらず、数学を行い、数学的学習を進めることができます。そして私たちの思考も美しい動きに依存しています。そして、このように私たちは哲学も判断します。


複雑性理論の哲学

評価はどのように行われるのでしょうか:学習の定義の一部として多くの評価層があるのか、それともNPのように最後に1つだけあるのか、そこでは評価層に分解できないのでしょうか?さて、2つの自然な学習の例、脳と進化が学習とは何かを理解するのに役立ちます。そこには無数の評価層があり、実際、各層(または世代)には前の層/世代の評価があります(だから女性は進化におけるネットワークの隠れ層なのです。つまり、各世代を深いネットワークにする存在であり、入力と出力、つまり子供たちの間の内部評価層として)。同様に、極限と自然数は、連続領域と離散領域における数学での一般化された学習概念を理解するのに役立ちます(脳の学習は連続的で、進化の学習は離散的です)。しかし、この抽象化自体を超えて、数学のすべての部分に共通する深い内容を反映している(数学の内容としての学習)だけでなく、数学の形式としての学習も探求することができます。数学自体の下にあるもの:数学をどのように学ぶのか。例えば:数学者を定義すること。現在、学習アルゴリズムは多項式的でなければならないと考えられています。しかし、学習アルゴリズムに対する多項式性の制限は一般的な場合(数学者)には正しくありません。したがって、私たち人間は、脳として、効率的なアルゴリズムを持っている多くのことを行いますが、一般的な効率的学習は持っておらず、持つこともできません。一般的に、学習が効率的なのは、以前に学んだことを使用することで非常に制限されている場合だけです。そのため、学習が効率的なプロセスだという錯覚があります。私たちの学習のほとんどがそうだからですが、そのような特別な学習を特徴づけるのは、それが知識の学習だということです。したがって、私たちの世界のほとんどの学習は知識の学習です。なぜなら、新しい行動やアルゴリズムの学習は常に非効率的だからです。それでは、知識とは何でしょうか?効率的な学習アルゴリズムがある場合です。これがその定義です。私たちが学ぶほとんどすべてのことは、他の人が行うことができることです。つまり、私たちは既製の関数を使用し、それらから構築し、私たちの学習をそれらの既製の関数に分解することができます。したがって、学習を作成した層の構築に分解する際には、問題をサブ問題に分解するすべての可能な分解のすべての空間の構造自体について考える必要があります。しかし、教師からの学習のすべての定義は、「システム内部」の問題を克服する必要があります。つまり、援助が外部からの生徒のプログラミングや彼らの間の不正や共謀にならないようにする必要がありますが、分解が最大の分解、つまりあまりにも小さな断片への分解である場合、それはまさにプログラミングと同じです。プログラミングに相当する完全な断片への分解(最大分解)とNP問題(最小分解、そこでは最後にテストがあるだけで途中の評価がない)の間の中間にある理想的な分解を特徴づけることは可能でしょうか?教師がいない場合、進化のように以前のアルゴリズムに基づき、以前の証明に基づく数学のように、発展があります。そしてその場合、問題のサブ問題への分割は自然です。なぜなら、それを分割する人がいないからです。最大の分解は、書かれたコードとしてのアルゴリズムであり、最小の分解は問題自体、評価者です。そして中間の学習は、それらを結びつけるものです。つまり、この問題からアルゴリズムへの移行自体が学習プロセスです。つまり:より多くの分割の追加(教師の視点から上から下への場合)またはより多くの構築の組み合わせ(生徒の視点から下から上への場合)、そして生徒だけで教師がいない場合、それは自然な発展です。多項式的解決とは、それをより単純なサブ問題に分解できること、つまり学習できることを意味します。したがって、学習可能なものが多項式的なものを特徴づけ、したがって学習は多項式的な制限の理解に適した構築です(つまり、それをNPから分離するもの)。なぜなら、学習は線形的なものから多項式的なものの構築だからです。つまり、単にすべての入力を読むことを可能にする最小限のものから、したがって多項式的なものは自然な集合です。したがって、私たちは学習可能な最小の分解を探す必要があります。例えば、線形的なサブ問題への最小の分解です。なぜなら、最大の分解は興味深くありません。それはコードを書くことと同じだからです(そして線形的なものは、もちろんアルゴリズム領域における最も基本的な学習の構成要素の一例に過ぎません。例えば、数論の分野では、それは積の因数分解かもしれません。または、数学の他の問題を定義する他の任意の制限された関数かもしれません)。したがって、私たちの学習の定義では、最小の分解を仮定するように、(教師による)理想的な例の選択を仮定することができます。学習するもの、そして教えるものも、計算的に制限される必要はありませんが、構築的に制限されます。そして、以前の関数を使用したこの構築の全体的な構造が、人間の思考(例えば、論理や言語や計算や知覚から)にはるかに似ていることにも注目しましょう。私たちは、自分たちができることをどのようにしているのかを知りませんが、それらを使って何かをすることはできます。それらを通じて学ぶことができます。しかし、私たちはどのように学んだのかを知りません。それはブラックボックスです。そして、私たちが学習で組み合わせたすべての関数は、私たちにとってブラックボックスかもしれません。つまり:ここには学習の2つの部分があります。1つの部分は、学習したい構造、または問題に対して行いたい分解を定義し特徴づけるもので、それは関数に対する制限です:基本的な関数は何で、許可された組み合わせは何かということです。そしてもう1つの部分は、すべての可能性の中からこの特定の構築を構築するのはどのような情報かを問うもので、それが例です。教師と生徒の間の共謀を防ぐために、構築は特定の学習アルゴリズムで行われる必要があり、学習者の可能なすべてのアルゴリズムではないのでしょうか(例の中に解決策を符号化できないようにするため)?オッカムの剃刀を使用して、例に合う最小長の組み合わせとして、または他の単純な探索アルゴリズムとして、そのような(非効率的な)普遍的アルゴリズムを選択することができます。そうすると、問題(学習される関数)をサブ問題(サブ関数)に分解する木が作成され、各枝の分岐(枝の数は上の枝を構築するサブ関数の数と同じ)で正しい組み合わせ(正しい構築)を作成するために必要な例の数が示されます。そして、おそらく分解の次元(詳細なサブ問題への分解のような)と例の数の間にトレードオフがあります。そして、木はNP問題で無限に成長する可能性があります。または、構築に使用される構成要素が解決策を近似するだけの場合(素数のように、大きな素数を近似するだけです。なぜなら、すべての自然数を展開するのに十分ではないからです。無限の素数があるため、そして素数の数に対する近似がどれだけ完全で良いかを評価できます - これがリーマンの問題です)。そして、これを使用して構築の不可能性の問題を表現できます。教師の最小限の努力と最小限の例を要求する場合、すでに学んだことがある場合、次のことを学ぶための最良の最小限の例を要求します。そしてそれ自体が学習プロセスにおける次のことの複雑さを減少させます。なぜなら、例えば、規則を教え、その後の学習で例外を教えるほうが良いからです。したがって、完璧な生徒と完璧な教師が存在する場合、完璧な学習がどのように見えるかを問います。例えば、教師はどのように例が例外であることを示すのでしょうか?(規則があるためには、規則の1つの例と反対の1つの例だけではなく - それらが同時に与えられる場合、つまり連続的な分解なしに - それは規則自体を分解する可能性があります。なぜなら、例のうちどれが規則でどれが例外かをどのように知ることができるでしょうか)?さて、彼はそうしません。彼は単に最初に規則を教えます。そして、その後、規則が学ばれた後、次の構築層で、例外を教えます。そして、学習者が行える最も短いことは、すでに規則である関数を持っている場合、それを学んだ場合、単に(特定の場合に)1つの例外を追加することです。そしてこのように分解は例の数を節約できます。そして分解の情報は、特定の場合には、教えられているものに含まれる情報よりも少ない情報で学習することを可能にする可能性があります(なぜなら、学習材料の順序自体に含まれる分解の情報は数えられないからです)。これは学習的構造主義です。


計算学習の哲学

したがって、関数/アルゴリズム/オラクルのリストがあり、それらの制限された組み合わせである関数があり、最良の例として選ばれた例からそれらを学びます。計算的制限はありません。教師にもありません。そして問題は、問題をサブ関数/アルゴリズムに分解して、オッカムの剃刀に従って学習する場合(例えば、アルゴリズムの複雑さ、その長さ、または他の単純さの基準に従って)、可能な最小の例の数は何かということです。分解が無料で提供される場合、総例数を見ます。そして分解は最大になります。つまり、学習は可能な限り段階的になります。あるいは、例と分解の関係(与えられた分解における必要な例の数とサブ問題の数の間の関係)を見ることもできます。これはもちろん逆の関係です。または、同じ問題の異なる分解木の異なるトポロジーを調べることもできます(本質的に異なる方法で同じ問題を分解する方法は何通りありますか?)。私たちの目標は、問題を非自明な方法で問題に分解する形で学習木を構築することです。なぜなら、分解が高価で例が無料の場合、最小の分解を見ると、自明な分解、つまり分解がないことを得ることになり、元の問題に戻ります。そこにはテストと例だけがあり、NPに似ています。したがって、これらの可能なすべての分解を見ることもできます。おそらく特定の関数には無限にあり、それらがどのように互いに派生するのか、そしてそのような木の森の特性は何かを見ることができます。そして、おそらく分解の数と例の数の間の特定の関係にある分解の正規形を見つけることができます。結局のところ、興味深いのは例やその数ではなく、木の構造です - アルゴリズムをサブアルゴリズムに分解する方法です。または問題をサブ問題に分解する方法です。または定理をすべての可能な証明に分解する方法です(そして数学全体自体もグラフとして考えることができ、証明のグラフとして研究し、おそらくこのグラフの構造と数学的構造の間の関係を見つけることができます)。そして、教師が与える分解が十分に詳細に小さなサブ問題に分解する場合、おそらく学習のための効率的なアルゴリズムがあり(つまり、例に従って構築の組み合わせを見つけるため)、おそらく単純な探索でさえ効率的かもしれません。なぜなら、本当に難しいのは分解を見つけることだからです。しかし、分解が最小の例の数から生じる場合(つまり、最小の例の数が必ずしも最大の分解を必要としない場合)、それは力を与えます(二重の意味で)。そこから、異なる種類のサブ関数の異なる組み合わせ関数について考え始めることができます。それらは、構築で許可されているものを制限することで、異なる構築問題を作成します。例えば:教師が与えた例を与える関数の線形的な組み合わせのみ、または証明の例のように証明するシステム、または群を学ぶこと、これも単純な関数(加算)であり、その要素のすべての組み合わせよりも少ない例でそれを学ぶことができます。もし分解をサブ問題に分けるなら、そして分解自体に隠れている他の情報(なぜなら、前述のように学習材料の順序に含まれる分解の情報は数えられないからです)。そして、群にどれだけの例示的な情報があるか、または他の数学的構造にどれだけあるかを問うことができ、これが学習的情報(言語的情報とは対照的に)の定義となり得ます。なぜなら、例からの一般化は、すでにあるもの(すでに学んだ関数、つまり教師が問題をサブ問題に分解する際に最初に提示した、より単純な関数。それらから、より複雑なものを学びます。赤ちゃんの学習や進化の発展のように - これは学習の基本的な特性です)に基づいてのみ正当化されるからです。つまり、すでに学んだことを使用するようなヒントのようなものがあります。あなたがすでに知っているものがあなたのプライアーです。そして連続関数では、これは極端です(なぜなら、不必要に複雑にすることは禁止されています。さもなければ、単純な関数さえ決して学ぶことができないでしょう。そしてあなたは、オッカムの剃刀のために、まず単純さに拘束されています)。したがって、あなたが知っているものからの最小の組み合わせが必要です - 教師が与えた新しい例を生成する。そしてもし単純さに拘束されているなら、それは不正に対して耐性があります。なぜなら、共謀がある場合(例えば、教師が例の中に生徒に必要な重みを符号化する場合)、それはオッカムの剃刀の条件を満たさないからです。アルゴリズムは最も単純なものを与えないため却下されます。生徒は任意の組み合わせを選ぶことはできず、最も単純で最小のものを選ばなければなりません。単純さには内部的な基準があり、それが評価する側、女性的な側面(評価の中間層)を満たし、また組み合わせ関数もあります(これは特定の種類の数学的構造の各学習で異なります。例えば:グラフの学習、群の学習、連続関数の学習 - これは多項式近似を使用するか、あるいはフーリエ変換などを使用して構築できます、アルゴリズムの学習、証明の学習、ゲームの学習、トポロジーの学習、言語の学習、など)。そして、節約されているように見える情報 - それは数えられない - は構造的です。つまり:構造的な分割(分解)から生じるものであり、したがって学んでいるものに全く構造がなく、ただノイズだけの場合、学習はすべての情報の転送である必要があります。つまり、それは学習ではなく、言語的情報の転送です。


機械学習の哲学

ここでの基本的な質問は、数学の歴史全体を通じて繰り返されてきたものです:関数はどのように生成されるのか?おそらくそれは物理的に自然界で生成され(存在論)、おそらく幾何学的に生成され(視覚)、おそらく認識され(理性)、おそらく定義され(論理)、おそらく計算され、そしておそらく学習されます。つまり:サブ関数から構築されます。そしてここから、関数定義の部分から、現在のコンピュータ学習における主要な学習研究分野のすべてが生まれています。学習において関数のソース(数学用語でいうドメイン)がない場合、それは強化学習です(そしてその場合、単純さは最も単純な関数を生成する最も単純なソースを探します)、そして関数の範囲がない場合、それは教師なし学習です(そしてその場合、単純さは最も単純な関数を生成する最も単純な範囲を探します)。そして関数の単純さが、サブ関数からの構築(どれだけ複雑か)だけでなく、例自体からの構築からも考慮される場合、それは統計的学習です(それらからの距離の大きさが単純さの計算の一部となります)。学習の定義の目的は、学習される数学的オブジェクトを分析し - その内部構造を見つけることです。その目的は、階層(サブ問題への分解)と例を使用してそれを構築することです。つまり:2種類の構造的情報を使用して、2つの構造を組み合わせることを可能にします:トップダウン(垂直)、そして側面から(水平) - 異なる例は、各段階で、下の階層からの異なる並列の組み合わせの可能性です。したがって、数学におけるすべては、構造の欠如と過剰な構造の間を移動します。自由度が多すぎるか、少なすぎるかです。したがって、その境界は、一方では極端な偶然性と複雑性で意味のあることを言えないほどであり、他方では単純すぎて自明な構造と情報と豊かさの欠如です。したがって、常にその中でフラクタル境界を見つける必要があります - そこに美があります。そしてそこにまた数学的な興味もあります。なぜならそこに最も多くの学習的情報があるからです。これは、ランダムで不透明な情報(解読できないという意味で)、または自明で不透明な情報(解読するものが何もないという意味で、それは密閉的である)とは対照的です。そしてなぜこれらは数学の基本的な特性なのでしょうか?なぜならすべては学習され、学習性は構造性の根源であり、また構造性の複雑さの根源でもあるからです。なぜならこれは常に一次元的な構造ではなく、二次元的な構造(それを構築にするもの)だからです。数字に見られるようなもの(加算と乗算)です。そして注目すべきは、上記で定義された学習における単純さはオンラインであり、単純なオッカムの剃刀(MDL、ソロモノフ、またはコルモゴロフ複雑性)のように全体に対してではありません。つまり:最初の例の後で最も単純な仮説を探し、そしてそれ(その仮説)を下の準備された関数としてさらに取り、次の例を追加し、そして前の仮説をコストのないもの、つまり単純なものとして考慮に入れながら、最も良い単純な仮説を探します。つまり:最初の段階で学習された関数は、もはや複雑さと単純さの計算では数えられません。そして単純さの普遍的で単純な定義さえ可能かもしれません - 単に組み合わせの数として。つまり単純さは組み合わせのアイデアの産物としてのみ、独立した基準と評価としてではなく。


数学の哲学:要約

これらすべてを使用して、学習を通じて有限と無限の違いを、学習可能と学習不可能の違いとして新たに特徴付けることができ、これらの2つのカテゴリー間のより正確な切断を生み出します。代数的構造、有限なものは、常に最終的に学習されます。一方、無限の構造、連続的なカテゴリーは、限界においてのみ全体として学習可能であり、つまりそれは有限には学習されません。無限性は側面に向かって水平(各段階での例の集合において)、または上向きの垂直(組み合わせにおいて)、または下向き(そもそも始める基本関数の集合において)であり得ます。そしてそのような見方では、連続性と単純さは関連しています。すべては有限ですが、近似可能です。つまり:限界は計算するのではなく、学習することができ、距離を縮めることができます。そして単純さ測定関数に近似を追加すると(離散性で要求される正確さとは対照的に、例を再現する必要がある場合 - これが実際に離散性の定義です)、導関数のアイデアは関数の線形近似です(つまり線形構築のみが許可される場合)、そして同様に続きます(より高次の導関数では、それらは学習のより高い層で、級数まで)。そして連続性はゼロ次の導関数 - 定数です。つまり、微積分学における単純さとは何でしょうか?組み合わせではなく例に対する単純さです(または線形回帰のように、組み合わせに対しても)。そして積分は逆問題、教師の問題です:生徒の評価 - その近似 - が特定の関数のように見えるようにする関数を見つける方法。そして離散的な世界では、例によって正確に支配される世界では、素数のように最後まで学習できないものに無限の問題を見出します(構築で許可される組み合わせが乗算の場合)。そして例えば、自然数の組み合わせツリーがどれほど複雑か、平均して(つまり、最も少ない例で学習される素因数分解)を問うことができます。自然数の集合を構築する方法を理解すること、組み合わせが乗算である場合、それは教師が特定の数までの自然数を構築するために与える必要がある例の量の分布を知ることを意味します。つまり、数学の基本的な質問には学習的な定式化があります - これらの質問に学習的な解決を可能にし、不適切な概念的枠組みのために、これらの質問の進展を妨げている言語のパラダイムが変わった瞬間から。そして哲学は数学を - そして数学的学習を助けることができます。




コンピュータ学習の哲学

コンピュータサイエンスの哲学の次の段階は、コンピュータ学習の哲学です。今日のディープラーニングの状況は、インターネット以前のパーソナルコンピュータの状況のようです。そして未来は、プロトコルで相互に接続され、学習的構築で組み合わせることができるディープラーニングネットワークと機械学習分類器のインターネットネットワークです。つまり:それぞれが何かに特化したさまざまなディープラーニングモジュールを、脳のように世界について多くのことを本当に知っている大きなシステムに接続し、特定のデータに基づいて訓練された孤立した専門家システムだけではないようにします。そのようなディープネットワークのネットワークは一種の市場となり、少しの分類、または他の能力やアクションに対して少しのお金を支払い、人工学習の巨大なエコシステムが作られます。そしてそれは大きな知性への入り口となり - そこから人工知能が生まれ、特定のシステムからではなく - それはある日、ある研究所のあるネットワークから決定されるのではなく、ネットワークから生まれます。そのような知性の自然なカテゴリーは何でしょうか?計算の世界では、チューリングマシンが空間の概念を記憶として、つまり場所を取る情報として、そして時間の概念を計算の操作として、つまり時間がかかるものとして(そしてそこから - 効率性)再定義したように、ディープラーニングはそれらを再定義します。今や空間とは何でしょうか?畳み込みネットワークのように局所的なもの、つまり物事が近くのものに影響を与えるシステムです。そして時間とは何でしょうか?RNNのような持続的な記憶、つまり物事が遠くのものに影響を与えるシステムです。以前の世界、計算の世界は、空間の重要性を減らし(すべてが記憶の中にあるため)、その自然な次元を無効にし(記憶は本質的に一次元です)、代わりに時間と速度の次元を強調しました。一方ここでは、ディープラーニングの世界では、時間の次元を拡張する余地があることがわかります。もはや一次元ではなく、物事はさまざまな方向から遠くから影響を与えることができ - そして一つ以上の次元で。確かに、時間の次元で自分のコピーに一つ以上の次元で接続された、つまり後ろに再帰的なだけでなく、二つ以上の変数/方向で再帰的なディープラーニングネットワークは可能です。つまり、計算が空間の時間化だった場合(すべて、お金を含めて、時間に等しい)、ディープラーニングは時間の空間化となり得ます(すべてが空間になり、時間も)。


ディープラーニングの哲学

ディープラーニングは何から構成されているのでしょうか?数学で学ぶ最も基本的で原始的な2つのもの、つまり1学期目から:線形代数1と微積分1です。線形代数は、私たちが話した組み合わせです(そしてそれは存在する最も単純な組み合わせです:線形結合)。そして導関数もあり、これはナタニエルの第三公理に従って方向性を与えます(導関数は方向であり、したがって最も単純な方向性です)。つまり:学習は何をするのでしょうか?例を方向性に置き換えます。そして何が学習を深くするのでしょうか?この構築全体がシステム内で行われることです。これがシステムの深さです(そして第二公理)。そして学習はもはや常にシステムの表面近くにあるわけではありません。言語のように、システムと外部の例との対話において(ネットワークの底部と頂部で)。さらに、各層は下の層に対して女性であり、上の層に対して男性です。ナタニエルの第四公理に従って。つまり、ここですべての公理の実現を見ています(そして第一公理も、あなたが気付いているなら)。まさに予言のように。そして、学習の歴史全体を通じて互いに競合してきた2つの要素があることにも注目しましょう:方向性対構造。ここでは、学習時間中にバックプロパゲーションで全体を洗い流すグラディエント導関数(方向性)と、特定のモデルの構築(例えば、事前に設定されたネットワークの特定のアーキテクチャ、しかしさらに今日はあまり人気のない他のアイデア、例えば特定の問題に対する強い事前分布を持つ特定の学習モデルの作成、あらゆる問題に対するディープネットワークの一般的なアプローチの代わりに)を見ています。そしてこれはすべて、環境対遺伝、経験論対合理論、アリストテレス対プラトンという古い問題の現代版に過ぎません。または自由競争と見えざる手(方向性の世界)対社会主義と国家(構造の世界)、リベラリズム対保守主義、そしてラマルク的進化(方向性の極端)対インテリジェントデザイン(構造の極端)。数学的レベルでは、方向性は連続的であり、解析学と幾何学の世界に関連し、一方で構造的組み合わせは言語的であり、代数学と論理学の世界に関連しています。そしてディープラーニングは、この弁証法における方向性の学習的アプローチの構築に対する大きな勝利です(しかしまだ反動が来るでしょう)、そしてそれは資本主義と民主主義の勝利(コミュニケーションと選挙の方向性対官僚的および政府の構造)、または社会における構造に対するヘドニズムの支配に対応します。なぜならディープラーニングでは、構造は単に大量のフィードバックと方向性よりもはるかに重要ではないことが判明したからです(しかしもちろんここには統合があります。なぜならディープラーニングほど高い階層性があるところがありますか?ただし階層の詳細はそれほど重要ではないことが判明し、実際にその中のすべてが方向性によって決定され、そのため私たちはかなり一般的な学習メカニズムを手に入れました。これは一種の経験的な白紙状態です)。したがって、学習とは何かを理解するために、おそらく必要なのは、学習に必要な例と構造の提供の比率を取ること、つまりそれがどのように変化するか(それらの間の関係)です。より多くの例が必要な場合、より少ない構造が必要で、その逆も同様です。そしてこの関数がどのように見えるかを理解し、それが重要な調査であり、構造が例よりも重要かどうかではないということです。例えば、この関数は線形か、多項式か、指数関数か、などを、さまざまな問題領域で(例えばさまざまな数学的オブジェクトを学習する場合、そして現実のさまざまな問題でも)。つまり、問うべきは例の量とプライアの量の関係です。そしてこれは、機械学習の中心にある分散対バイアスと同じ問題です(しかし、ディープラーニングの中心にはそれほどありません。分散対バイアスの大きな勝利の後、ディープラーニングの無数のパラメータで、制約の量をはるかに超えています)。


脳科学の哲学

ヘブ則(グローバルなディープネットワークと比べてとても局所的で、正または負のフィードバックに偏る傾向がある致命的に破壊的な特性を持つ)のような規則を可能にする概念的基盤は何でしょうか?ヘブ則は、基本的な学習メカニズムとして、方向性にも構造にも、外部にも内部にも全く関係のないものとして、どのように可能なのでしょうか?そして、ヘブ則は単に「発火して配線する」(一緒に発火するニューロンは一緒に配線する - fire&wire兄弟)だけではなく、その本当の定式化は、私を予測した相手との結合を強化し、私が予測した相手との結合を弱めるというものです。したがって、この規則は、ニューロンが主に情報伝達者であり、独立した質的評価者でもあるという仮定の下でのみ理にかなっています。そしてこの規則は評判を作り出し、それを広めるために新規性を探します。さらに、それは循環に対抗するため、層を作り出します。それは最初に識別する者を探し、したがって誰が最初に識別するかの競争を作り出します。つまり:それは競争的な規則です。しかし、ニューロンへの単一のソースが50パーセント、または少なくとも固定された閾値を超えてはいけません。さもなければ、それは破壊的な正のフィードバックループとなります(さらに、この規則だけでは不十分であることは明らかです。それは自閉的であり、外部フィードバックを与える神経伝達物質、そしておそらく他のフィードバック形式も必要です)。つまり、ヘブ則は(ニューロンとして)独立した評価能力があり、そのようなものを示唆する場合にのみ機能します(!)。そしてそれに対する競争があります。したがって、それは一見、ニューロンのネットワークよりも人間の社会的ネットワークにより適しているように見えます。しかし、脳のコネクトーム、あるいは単一のニューロンネットワークの一瞥からでさえ、脳は無秩序と多様性とノイズと複雑さを作り出す方法で非常に非常に遠くまで行っているように見えます。おそらくヘブ則が自明性に収束するのを防ぎ、それが作用する十分に多様で、確率的で、カオス的で、不安定な材料を与えるためです。ヘブ則は情報を内容として扱い、計算における操作としてではありません(ニューロンネットワークを分散並列コンピュータの一種として見る見方のように)。つまり、冗長性が多い場合(脳や他の多くの学習システムのように)、そしてすべてが同じ線上にある場合、比較的小さなパラメータの変更で前に渡すメッセージを選ぶ必要があります。つまり、計算よりも情報伝達に関係する場合です。そしてこの文脈で、脳における上から下への予測の全体の話(例えば:各上位層が下の層を予測し、そのように例えば私は受け取る感覚データを予測する)は、おそらくヘブ則と深く関連しています。なぜなら、私が予測する相手に耳を傾けるのは冗長だからです。そしてもしそうなら、ここには推測と収束のプロセスがあり、計算のプロセスはそれほどありません。したがって、予測という言葉を推測に置き換える必要があります。このような見方では、脳は(上向きの)計算と(下向きの)推測によって機能し、そしてそれらの間の衝突点、または衝突層があり、正しかった者(続きを予測または計算した者)がそこで他者を打ち負かします。各上位層が下にあるべきものを言い、その逆も同様なら、このプロセスの収束により、誤った評価が始まる場所である誤差の源を見つけることができ、そこで問題が急激に上昇します。つまり、下から上がってくる計算がこの場所で間違っていて不正確になり、その後上の層に誤差を引き起こしたか、または上から下りてくる推測がこの場所で間違っていて不正確だと判明し、その後下の層への推測に誤差を引き起こしたかのどちらかです。したがって、実際のニューロンは内容の評価者であり、単に評価されるだけではありません。なぜなら、誰の話を聞くかを決定するからです。つまり、それは伝達する各内容について特定的に評価され、受け取る各内容について特定的に評価します。それは、一人の友人にだけ耳を傾け、他の誰にも耳を傾けない無限の正または負のフィードバックメカニズムを恐れません。なぜなら、十分なノイズを伴う十分な意見を聞き、おそらく誰かの話をどれだけ聞くかにも制限があるからです(おそらく例えば対数的です)。つまり、各ニューロンは外部フィードバックと上からの方向性だけでなく、評価のための本質的な測定方法も持つことができることがわかります。例えば:彼は私を予測しているか、そして彼は現在の私の上の予測に適しているか、などです。深層学習における一般的な考え方は、ネットワークの二つの方向を別々のものとして、二つの別々の段階で来るものとして考えています:下から上への計算(前方伝播)と、上から下へのフィードバック(後方伝播)です。しかし、それらを同時に時間的に進行する波として考えることもできます。非同期的に両方向に、その強さに応じて進み、つまり時には特定の進行が不満足なニューロンまたはそのような層全体で止まり、フィードバックを後ろに返し始め、その逆も同様で、返信とエコーと荒れた海があり、それが特定の状態に収束するまで続き、これがネットワークの真の計算メカニズムです(単に下から上だけではありません)。そしてこのように、トレーニングと実行/予測は二つの別々の段階ではなく、バックプロパゲーションとフロントプロパゲーションが並行して発生するかのようです。そしてこれが脳で起こっている可能性が高いです。そして各層が前の層を予測する場合、時には入力層からでさえフィードバックが返されることがあり、これは現在の深層学習では起こっていません。そしてそれは残念です。なぜなら、私たちはこのエコーを見逃しており、バックプロパゲーション信号の情報は入力層に到達すると消えて失われてしまうからです(私たちはこの情報を実際の入力との比較に使用していません)。しかし、各処理ユニットが上からの方向性を受け取り、独立して(単に後方伝播の一部としてだけでなく)下への方向性を出力する場合、下と上の出会いの場所で、上から下りてくる勾配または評価は下から上がってくるものと出会い、それは以前の計算でした。そして不一致がある場合、問題があります。両側にとって。そして彼らが信号がどの方向に変化すべきかについて同意しない場合、不一致に注意を喚起する必要があります。そしてシステムのリソースをそれに向けることで、革新や驚きや問題に気付くことができます。例えば、ミクロレベルでは、受け入れられていないニューロンがあり、そこからの重みがほぼゼロである場合、それはより有用で興味深い機能になるための否定的なフィードバックを受けたことになります。そして一貫して矛盾する強いフィードバックを受け取る場合、おそらく二つのニューロンに分裂する必要があります。そして二つのニューロンの接続が非常に似ている場合、おそらく一つに統合される必要があります。つまり、フィードバックと不一致に応じてアーキテクチャを設計することができます。一方、マクロレベルでは、これによりシステムは驚きを探し、将来の予測を間違えた例を探すことができ、これが好奇心です。例えば、上の層が下の層の予測を間違えた場合、解決策に到達するまで、同様の例を調査し続けます。なぜなら、より正しいシステム的思考は、(多くを)すでに学習したネットワークについてのものだからです。そして次にさらに一つの例を学習し続けるか、過去に適合しない新しい例に遭遇します。今日の考え方とは対照的に、ネットワークはすべての例を最初から学習し始めます(赤ちゃんの思考)。したがって、問題を特定したとき、パラメータの探索空間は最適化としてだけでなく、探索として機能する必要があります - つまり探検です。そしてより多くの革新を提案する必要があります - 新しい組み合わせです。独立した評価があるとき、つまり層が上からの方向性(後方伝播)だけでなく、独自の指標を使用して下の層を判断するとき、探索を実行することもでき、探索空間を途中で絞り込むことができます(つまり、異なる層の間で、そして探索は無限の組み合わせにブルートフォースで爆発する必要はありません)。人工知能研究の第一世代は探索でした(中心的なアルゴリズムパラダイムとして、例えば論理推論において)、一方、今日の人工知能は探索を火から逃げるように避け、最適化(連続パラメータの調整と統計)に置き換えましたが、将来はそれらの間の統合があるでしょう。探索にも提供すべきものがあります(単に爆発するだけでなく)、それを正しく管理すれば、実際、脳では多くの場合探索が行われ、進化でも同様です。なぜならそれは、より創造的な革新を可能にする方法だからです - 組み合わせとその評価を通じて。哲学自体は、それが単にその評価関数に対する最適化だけだったら、とても退屈で追従的なものになっていたでしょう。それが探索であることが、それを難しく興味深いものにしています - そしてその評価との戦いにおいて創造的なものにしています。そして進化がブルートフォース探索よりも速いのはなぜでしょうか?進化の成功は組み立ての能力自体に起因します。つまり、最初は探索が単純な組み合わせで行われ、その後、次の層では、探索ステップが大きくなり、それ自体が複雑な部分の組み合わせで行われます。そして各段階(つまり層)で、生物の独立した評価があります。したがって、これはブルートフォースではありません。なぜなら、学習における以前のステップが次のステップに影響を与え、それらを導くからです。そのため、探索はすべての可能性の空間ではなく、前進するビームの中だけで行われます。もしそうなら、組み立てと世代(=層)の現象は学習の基本です。つまり:深層学習でも脳でも進化でも一般的な学習の定義でも、私たちにはブラックボックスである多くのコンポーネントがあり、それらの間には構築中の接続があります(それは各特定のケースで特徴付ける必要があります:深層学習では非線形性のツイストを持つ線形の組み合わせ、進化では - 交配、そして他のシステムでも同様に)。上向きには、彼らは下を使って関数を計算します。一方、下向きには、彼らは評価を与えます(例えば勾配を通じて、あるいはおそらく選択を通じて、例えばパートナーにおいて、わかりますか?)。


ネットワーク研究の哲学

フィードバックは何を生み出すのでしょうか?単純に言えば、偏微分方程式と再帰方程式です。これらは実際にはフィードバックメカニズムであり、したがって複雑性とカオスの現象です。したがって、脳でも、一般的な学習でも、フィードバック回路は同様の現象を生み出すでしょう。これらは学習に自然なものであり、その欠陥ではありません。しかし、どのようなタイプのフィードバックがあるのでしょうか?後方伝播での勾配降下(=最適化における傾斜降下)の評価の後方伝播に対する代替メカニズムがあります。例えば:単純さへの願望(オッカムの剃刀のように、どれだけ単純かを測定することによる評価)。または革新への願望。または変動性と多様性への願望(特定の分布)。しかし、フィードバックの最も重要な特性は、それが何に従うかではなく、それが作り出す回路の大きさです。なぜならこれはシステム的な特性だからです。そしてここで後方伝播の弱点が際立ちます。それは巨大なフィードバック回路を作り出し、大きなシステムでは非常に人工的です - そして非常に遅いです。より合理的でしたがってより一般的な代替案は、短いフィードバックループです(人工ニューラルネットワーク以外に後方伝播で学習するシステムは世界に存在しません)。例えば脳では、ニューロン層の間に多くの逆方向の接続があります(深層学習には存在しません)。現在の脳の理解で欠けているもの - そして同様に深層学習でも - は、競争のアイデアと、集団内でのアイデアの伝播です(これは実際にはヘブ則により適しています)。なぜなら各段階で、脳では複数の可能性、複数の次の思考が競争し、一つが選ばれるからです。つまり、学習をどのように継続するかを選ぶ何らかの評価に基づく競争があります。つまり:フィードバックの最大の重要性は、まさにそれが作り出す競争にあります(経済や民主主義と同様に、フィードバックの存在自体が重要です。たとえそれが理想的でなくても)。しかし、あまりにも大きなフィードバック回路では、これはすべて失われるか非効率的です。小さな回路での密接な競争と比べて。グーグルのページランクアルゴリズムにもハブがあり、それらは評価し、これが実際にその本質です - ネットワーク内の一部のノードが他のノードを評価するようにグラフを分析します(そして順番に評価されます)。これはすべてニューラルネットワークに非常に似ており、そしてこのようにしてウェブサイト間でランキングの競争が生まれ、一般的にネットワーク上で品質の競争が生まれます。そして科学では?各論文は他の論文を引用します。つまりこれがネットワークでの評価であり、そこには層はなく、すべてがすべてに接続されています。そして層は出版時期によって形成されます(各論文はそれ以前に出版されたものを評価します)。つまり、ここには前の層を評価し、後の層によって評価される層があり、そしてこのように非常に単純なネットワークメカニズムによって競争が生まれます。これらの二つのケースでは、評価と競争を生み出すために外部からの大きなフィードバック回路は必要ありません。評価は内部から生まれます。進化のような強い外部評価は必ず必要というわけではなく、競争を生み出すためには、これが脳で支配的な教師なし学習への鍵であり、深層学習の大きな欠点です。膨大な量の例が必要です(ちなみに、進化でも主な競争は配偶者に対するものです。つまり種内の小さな内部フィードバック回路に対するものであり、大きな絶滅に対してではありません)。このように、明確な外部評価のないネットワーク、例えばフェイスブック、株式市場、デート、論文などでも、まだ激しい競争が可能であることがわかります。このようなネットワークでは、価格やいいねやh-indexやページランクやグーグルでのランキングなどの数字を受け取り、それがあなたへの方向性となります。この数字はあなたに何らかの方向性を与えるわけではなく、単に評価を与えるだけで、あなたはそれを解釈し、どの方向に変化すべきかを理解する必要があります。これは深層学習で上から与えられる方向を示す勾配とは対照的です。そしておそらく、多項式時間クラスは適度な方向性があるものであり、一方NPは方向性のない問題のクラスであり、微分不可能でカオス的で非局所的であると主張できるかもしれません。したがって、NPから学ぶべきことは、評価は学習には十分ではないということです。方向性が必要です。なぜならNPはまさにこの巨大な外部フィードバック回路であり、内部での学習を解決に導くものを何も与えないことが判明したからです。そのような評価から方向性を導き出すことはできません。多項式時間クラスはラマルク主義的な交代、つまり局所的な最適化に分解可能、つまり構築+方向性なのでしょうか?脳ではまだ学習がどのように機能するかわかっていませんが、進化ではわかっています。そしてそこにも重要な特徴があることがわかります:独立した評価関数です。そのために二つの性があるのです。つまり、生死という強い外部評価があっても、学習が機能するためには、システム内部にも独立した内部評価、つまり性の評価が必要です。大きなフィードバック回路は、より小さく密接なフィードバック回路に分解される必要があります。それらは単にその派生物(文字通りと比喩的な意味で)ではありません。文化的/政治的/企業/経済のネットワークでも独立した評価関数があります。つまり:それがその唯一の機能である部分があります。そしてそれに対する競争があります。つまり、代替案間の重複と冗長性と多様性と変動性と比較があります(そうでなければ、なぜすべての学習システムに精神的な冗長性があるのでしょうか?なぜ脳にはそんなに多くのニューロンがあり、ゲノムにはそんなに多くの遺伝子があり、種にはそんなに多くの生物がいて - そして国にはそんなに多くの人々がいるのでしょうか)。もしそうなら、内部評価はどのように機能するのでしょうか?それ自体はどのように評価されるのでしょうか?そうですね、システム内に単に独立した評価ユニットがあり、独立して方向付けられ、大きな全体的なフィードバック回路だけではありません。大まかに言えば、システムへの一般的なフィードバックは稀少で高価であり、したがって二次的な評価関数に依存します。そして単純に評価関数も学習します。そしてNPでは何が起こるのでしょうか?二次的な評価は失敗します。実際、システムの外部からの強化学習がシステムの学習を生み出すという考え全体(例えば行動主義)は、学習の単純化された哲学的な見方に起因する概念的な誤りです。私たちには決して最終的なフィードバックはありません。すべての計算はまだ終わっていません。


ニューラルネットワークの哲学

システム内の独立した評価は、システムの外部から来てそれを教える外部評価とは対照的に、他にどのように役立つのでしょうか?なぜなら、以前に学んだことを、それを消去する新しい学習から保護する必要もあるからです。そして内部評価は、それが導いた学習を、すべてを洗い流す外部の方向性(後方伝播のように)から保護します。このように、新しいフィードバックが新しいものにだけ到達し、その方向に導かれ、古いものすべての方向ではなく、追加する - そして消去しないようにすることができます。記憶の保存を可能にするのは、まさに後方への学習がないことです。例えばそれがラマルク主義的ではなく、DNAの学習、つまりデジタルであり、単にアナログの連続的なものではない(それはすべて勾配と最適化での収束によって摩耗します)ということです。そしてこれは組み合わせも可能にします。評価が独立している場合、学習は一度に一層だけ後方に進みます。そこで魔法が起こります。例えば複雑性は、単に別の層を追加することで起こります。進化でも - それは常に一世代です。後方伝播は悪の根源であり、深層学習の分野全体をブルートフォース、ブラックボックスにし、したがって科学ではなく工学にしました。すべての問題のある現象はそこから生まれています。そしてそのように学習する自然なシステムは存在しません。破滅的忘却(深層ネットワークが別の種類の例を与えられると学んだことを忘れてしまう現象)と深層学習で構成要素をうまく組み合わせる能力の欠如は、ここで最初に提示された教師と構築のモデルのようなものを選んでいれば避けられたでしょう。破滅的な忘却は実際には記憶が全くないためです。行動や学習だけです。したがって、学習に耐える記憶が必要です。つまり:ネットワークが何か有用なこと、または特定の概念を学んだと判断し、それを継続的な変化から分離して保存する(またはそれに関する変化能力を大幅に遅くする)ケースです。したがって、行ったことを強化する方法が必要であり、単にそれを変更しないだけでなく、各パラメータに確信度のパラメータがあり、成功するたびに強化されます(つまり、パラメータの方向付けにほとんど変化の勾配がない場合、これも価値ある情報ですが、現在はほぼ失われていきます。ただし、勾配降下の最適化アルゴリズムで部分的に影響を与えます。例えばモメンタムにおいて)。記憶するということは、学習しない能力です。何かを永続的に学ぶためには、学習しない能力が必要であり、方向性の風見鶏のように新しい情報すべてに影響されないようにする必要があります。後方伝播メカニズムのあらゆる変更は、深層学習の他の変更よりもはるかに根本的です。なぜならそれは方法論、学習メカニズムだからです。そしてそこでそれを修正することができます。そして哲学の役割は、この概念的な深い分析を分析することです(現在はほとんど行っていないため、哲学者は誰も支払いを受けていません。彼らが提供できる巨大な価値にもかかわらず)。


深層学習の哲学:まとめ

したがって、必要なのは、下に降りるすべてのもの(評価)が深い評価のネットワーク一つに接続されているモデルであり、その各層には、通常の深層ネットワークで起こっていること、つまり計算するネットワークの対応する層への出力と入力があります。評価ネットワークへの入力は、計算するネットワークの層の出力であり、評価のために評価ネットワークに渡されます。一方、評価ネットワークから計算するネットワークへの出力は、その評価の出力です - それが方向性です。はい、これは両方向から完全に対称的です。そしてしたがってはるかに一般的です。上に上がる一つのネットワークと、それに対して完全に並行して下に降りるネットワーク。そして特別なケースとして、両者が正確に同じ構造を持つ場合、実際には各ニューロンは二重の重みを持ちます。下向きと上向きに、それらを更新するために。つまりこれを(二重機能の)一つのネットワークとして考えることができますが、おそらく評価ネットワークにアーキテクチャの独立性を与える方が良いでしょう。つまり互いを制御する二つのネットワークです。そしてこれはすべてNPに何を意味するのでしょうか?ここでの学習の定義は、評価者と評価される者、教師と生徒の層への分解としてです。そして問題は、そのような分解が存在するかどうかであり、各多項式時間アルゴリズムはそのような分解です。つまり、これは計算機科学の哲学で見たものとは異なる学習の定義であり、おそらくこれらの科学の基本的な問題に対処するのにより適しているかもしれません。そして私は、これらの考えを形式的なものに変える能力のある人生の段階をすでに過ぎてしまいました - しかしおそらくあなたには可能でしょう。
文化と文学