大規模言語モデルについての戯言

  • substack notes向けに書いた独り言をこっちに転用。ただの思いつきであり、大きな間違いはないと思うが確認はしてない

フォーダー&ルポア「意味の全体論」は、(比喩や見栄ではない)私の文字通りの愛読書だが、最近もチャーチランドの章を読み返した。チャーチランドはコネクショニストとして有名だが、対してフォーダーはコネクショニズム批判で有名だ。この本でもコネクショニズムを批判に論じているのだが、今の大規模言語モデルの時代に読んでもなかなかに面白い。

フォーダーのコネクショニズム批判として有名なのは、言語の体系性を反映できないことだが、それは他の学者による最近の論文でも大規模言語モデルの欠点として指摘されている。これは大規模言語モデル自然言語と異なる最大の欠点の一つだと思うが、まさにフォーダーはそれを三十数年前に指摘していた。つまり、三十数年も経ってフォーダー&ピシリンによるコネクショニズム批判という宿題にやっと答えが出てきたのだ(ただし、自然言語に体系性が本当に必要か?は別の問題)。

この本では、チャーチランドに対して彼のコネクショニズム的な理論が意味論的か?心理物理学的か?ごっちゃになってると批判されているが、その点では現在の大規模言語モデルは意味論的モデルそのものだ(ただし大規模言語モデルは文法と意味の区別はない)。チャーチランドによる語だけで閉じた意味論的モデルは、語ごとのベクトルの近さで語の意味が定まるが、これは大規模言語モデルの語予測モデルに近い。ということは、大規模言語モデルは外部(知覚)との関係は全く反映されないので、チャーチランドの想定するような心理物理学的なモデルではない。もちろん、言葉から画像を生成するAIはあるが、これは語が何を指してるか?という指示はできてない(文全体が画像を生んでいる)ので、意味の理論としては成立してない。

形式意味論(可能世界意味論)-概念役割意味論(推論主義)-コネクショニズム(大規模言語モデル)…と並べてみると、指示で意味を決める形式意味論から、語同士の推論的な関係で意味を決める概念役割意味論、そして推論的な合理性さえ前提としない大規模言語モデル…と指示や論理の具合の違いが分かる。

形式意味論は、指示が意味を決めているので、意味に世界の構造が反映されている(だから形而上学と結びつく)。概念役割意味論は、指示は無関連で使用された語の関係が意味に反映されているだけだ。大規模言語モデルも特徴は同じだが、最大の違いは概念役割意味論では(推論による)論理が含まれているが、大規模言語モデルでは論理は偶然にはありえても、必然的には含まれていない(学問的には頑強性がないと言われる。つまり能力[性能]が不安定である)。大規模言語モデルが体系性を持たないのはそのせいだ。

概念役割意味論は意味に含まれる本質と偶然の区別がつかないと批判されるが、同じことは大規模言語モデルにも言える。例えば、医者が男性であることは医者という言葉にとって本質的ではないが、大規模言語モデルにはそれは分からない。医者が男であるという社会の側の偏りをそのまま学んでしまう。バイアスを直そうとすると、最近はその影響が他にも及んでしまったりもしている。これは大規模言語モデルの、(言葉の中で閉じてるが故に)外部世界の構造を反映できないことや(論理的な体系性を持てない原因である)モデルの極度な非線形性などに由来すると思われる。

私は大規模言語モデルは過大評価されていると前々から思っていた。ここまで見てきたように、少なくとも大規模言語モデル自然言語を表す認知モデルとしては様々な問題があるのは確かだ。だからといって、大規模言語モデルを過小評価するのも誤りで、知識のないことでも思いつきでもっともらしいことを喋るのはある種の人間と似てなくもない。大規模言語モデルが意味を分からない…とするのは言い過ぎであり、意味の特定の側面ならなくもない(ただし、それなら他の意味の理論にも[側面が違うだけで]同じことが言える)。

以上、大規模言語モデルの時代に言語哲学はいらない〜的な旧ツイッターでの書き込みにムカついた私からの解答でした。ただし、言語哲学には形而上学心の哲学とも結びついた広大な話があるので、この程度では本当は終わらない。

はっきり言えるのは、よく知りもしないことを敵対視して自分が偉くなった気になるのは下らない(ちゃんと勉強して正当な批判できるようになれ!)…日本はそんな奴ばっかりだよなぁ〜

ベイズ脳のサンプリング説を扱った論文を紹介してみる

最近、ある認知科学の論文を読んでいたら、このような文章に出会った。

広く知られるように近似ベイズ推論において変分推論とマルコフ連鎖モンテカルロ法は二つの代表的な理論であるが,今のところ集合的予測符号化の数理モデルマルコフ連鎖モンテカルロ法に基づいてしか理論化されていないことになる.しかし,集合的予測符号化を変分推論の視点から定式化することが不可能であると示されたわけでなく,十分に可能性のある方向性であろう.

谷口忠大 「集合的予測符号化に基づく言語と認知のダイナミクス: 記号創発ロボティクスの新展開に向けて」p.200より

これはベイズ推論をする上で、自由エネルギー原理が用いる変分法と集合的予測符号化が用いるサンプリング法とで、近似計算法が異なることに対して、統合可能性について述べた部分だ。これを読んで、ベイズ脳について前に書いた記事を思い出した。

ベイズ脳は認知バイアスを説明できるのか?

そこでも、計算法によって異なるベイズ脳観があることを示唆していた。実は、この話題はこの記事を書いたときに突然に分かった話ではなく、二つのベイズ脳観は前々から私の興味の対象にはなっていた。 ベイズ脳と言うと、一般的には自由エネルギー原理がよく知られているが、これは変分法によるベイズ脳観である。私自身は自由エネルギー原理を知る前から、別のルートから認知のベイズ理論に関心を持って勉強していた(その後で予測符号化から自由エネルギー原理へと向かう)。この私が勉強した元々のルート(グリフィス&テネンバウムの研究グループ)は、サンプリング説との相性が良い。リンクした記事の中で紹介した論文の主要著者のチェイター(今は翻訳本がある人)は、グリフィスらの研究グループと考え方が近い。

私自身は、はっきり言ってサンプリング説の方が好きだ。しかし、自由エネルギー原理の流行りを見れば分かるように、サンプリング説は主流の立場とは言えない。(私は研究者でもないので)そこは諦めていたが、最近に冒頭の論文を読んで、ここでサンプリング説の紹介ぐらいしてもいい気がしてきた。

とはいえ、サンプリング説を直接に解説するのは自分にはさすがにきつい。そこで、自分のキンドルにはお気に入りの論文がいくつか入っているので、これを紹介していきたい。

まずは日本語の論文を紹介してみる

私自身はサンプリング説について始めは英語の論文で知ったのだが、ここでは読者が接近しやすい日本語の論文を先に紹介しておく。

まずは、神経科学者が書いたベイズ脳の二つの計算法を説明した論文をお勧めします。

平谷直輝「データ効率の良い学習を支える脳のベイズ可塑性機構」

あくまで脳の学習機構について説明した論文なので、私が始めに接近した認知モデルとはルートが全く違いますが、二つのベイズ計算法をまとめた論文として便利です。ただし数式は沢山あります(私も全て理解してはいない)が、見て雰囲気ぐらいは味わってもいいかもしれません。

次は、サンプリング説について直接に扱った日本語の論文で、見つけたときは正直なところ驚いた。

寺前順之介「脳と知能の物理学」

こっちも脳の機構について書かれているのだが、(多少の数式はあれど)読み物としてはこっちの方が面白く読める。始めて読むならこっちがお勧めだが、ここは公正な概論からサンプリング説擁護論へと順に紹介してみた。

論文の流れとしては、ディープラーニングと平均場近似が脳のモデルとして相応しくないことを示したあとで、脳の自発揺らぎを説明できるのはサンプリング説だ…となっている。重要な主張は論文から引用しよう。

脳型の学習は最適化ではない。最適化を用いなくてもニューラルネットワークに所望の機能を学習させることは可能なのだ。鍵は揺らぎを用いた事後分布からのサンプリングである。

寺前順之介「脳と知能の物理学」 pdf版のp.20より

なかなかに衝撃的な内容だ。変分法(論文では平均場近似)では、前もって分布の仕方を決めてそこから最適解を出すのだが、その方法を根底から否定している。今、他の多数派が自由エネルギー原理(変分法の側)に行こうとも、私はこの論文の方が好きだ。

英語の論文も軽く紹介してみる

ここまでは日本語の論文を紹介したが、どちらも脳のモデルとしてサンプリング説を説明している。ここからは、認知モデルとしてのサンプリング説を扱った英語の論文を紹介する。ただし、中身の紹介は自信がないので省略して、タイトルだけを挙げます。

まずは、以前の記事で取り上げたThe Bayesian Samplerはもちろんサンプリング説の論文である。そこではサンプリング説の特徴として、認知バイアスを説明できることを挙げた。そこで挙げなかったものだと、サンプリングの出発点を考えるとアンカリングも説明できそうだ。ここからも分かるように、サンプリング説の一般的な特徴は(最適解ではなく)次善解を求めることだ。だから、局所解にハマる事もよくあり、フェイクニュースは最初に触れると訂正が難しいのもこれに近い。

上の論文は、私が影響を受けたとしたグリフィスと共に有名な発達心理学者のゴプニックも共著者に加わっている。ベイズ脳の発達心理への応用として興味深い。

最後に挙げるのは、十年近く前の二つの博士論文だが、サンプリング説を主題にした論文として紹介しておく。どちらもサンプリング説がバイアスのような主観性を扱えることに注目している。

Edward Vul"Sampling in Human Cognition"

Thomas F. Icard, III"The Algorithmic Mind A Study of Inference in Action"

最後に

私が密かに支持していたサンプリング説を紹介できただけで、自分としてはもう満足だ(支持者が増えることなど期待してない)。自分はブログには書いてない密かに好きな説(理論)はいくつかあるが、その一つを取り上げられた機会には感謝する。

ここでまた冒頭で引用した論文に戻ろう。冒頭の論文では、集合的予測符号化(サンプリング法)を自由エネルギー原理(変分法)に組み込むことを望んでいた。このブログの読者には分かるかもしれないが、私自身は統一理論としての自由エネルギー原理には懐疑的な視点を向けてきた。かと言って、サンプリング説が変分説にとってかわれるのか?よく分からない。そもそもサンプリング説と変分説は排他的な二者択一なのだろうか?

自由エネルギー原理を採用するということは、暗に最適化論をとることに近い。(工学者も科学者も)いまや猫も杓子も最適化に夢中だが、これは本当に心の説として正しいのだろうか?

どこで哲学者チャーマーズは日和ったのか?

ここ最近、私はクオリアや強い人工知能についての未だによくある誤解を扱ったブログ記事を書く予定だった。しかし、次にリンクした哲学者チャーマーズが参加したトークセッションについての記事を読んで書く気を失ってしまった。

AIはいずれ“哲学的ゾンビ”ではなくなる──WIRED Futuresで語られた2024〜50年のAIと人間

なぜ書く気を失ったか?というと、チャーマーズが本来の哲学的な議論とは相容れない日和った発言をしていたことにガッカリしたからだ。記事の元になった動画は見てないので、もしかしたら勘違いがあるかもしれないが、記事を読んだ感じではそれほど大きな勘違いではないと思った。

チャーマーズは意識のハードプロブレムや哲学的ゾンビの提唱で有名になった哲学者だ。この記事でのこれらについての説明は私から見ても間違ってはいないと思う。該当箇所を記事から引用してみる(以下の引用は全てリンクした記事からした。

そもそも、意識については多くの深い謎があり、人間になぜ意識が存在し、それなしには存在できないのかを理解できてすらいない(意識のハードプロブレム)。見たり、感じたり、考えたり、理解したりする一人称の主観的経験が仮にAIにあったとして、それを判断する術を人間はもち合わせていない。

この意識のハードプロブレムは、次の引用にある哲学的ゾンビと結びついて提唱された。

哲学的ゾンビ”とはチャーマーズが提唱した哲学用語で、外見は人間と全く変わらなくても、意識のクオリアをもたない存在についての思考実験でもある。これを彼の言葉でさらに言い換えるならば、「意識の核」に相当するようなシステムの中心領域がAIにないということだ。

実はこの引用部分に既に問題が含まれている。前半の哲学的ゾンビについての説明は正しいが、そこからAIに意識の核がないことを導くのは無理がある。

哲学的ゾンビの議論とは、見た目の振る舞いが全く同じ人であっても、それがクオリア(意識の核)を持っているか?は分からないという話である。見た目が人であってもクオリアがあるか?分からないのだから、AIであってもそれがクオリアを持ってるか?は見た目の振る舞いからは分からないはずだ(AIは実は既に意識を持っているのかもしれない)1

この引用部分だけだと、この記事を書いた著者の勘違いの可能性が拭えないが、次のチャーマーズ本人の発言をみると、それは単なる勘違いではないようだ、

意識的なAIとしたのは、犬や鳥のように、人間に相当する意識はもたないが、意識そのものは存在するAIが少なくとも誕生するであろうという意図です。

人であれAIであれ犬であれ、哲学的ゾンビについての議論は当てはまるので、どうすればAIに意識があると判定できるのか?よく分からない。

ただし、この引用の「意識的」は前の節で触れられている「グローバルワークスペース」と結びついてるのかもしれない。だとしても、やはり問題がある。

哲学者ネット・ブロックはクオリアという誤解を与える言葉の代わりに、似た事態を指す現象的意識という言葉を使っている。現象的意識という言葉はアクセス意識という言葉とセットで用いられる。つまり、情報処理で扱える意識の領域をアクセス意識と呼び、そうでないところを現象的意識と呼んでいる。それは振る舞いを導くシステムで情報処理が起こってるので、その点ではクオリアと現象的意識は(意味合いに多少の違いはあっても)事態としては同じようなことを指している。

グローバルワークスペース」理論は、典型的にアクセス意識を扱う理論である。つまり、グローバルワークスペースを持っていながら哲学的ゾンビではあり得るのであり、意識的なAIがそうでない保証はどこにもない。

哲学的ゾンビの論証と意識的AIへの期待の間には議論の飛躍がある。この中間領域についての議論が必要なのに、チャーマーズはそれをスキップして、観客が望む見解をいきなり開示してしまっている。これを日和ってると言わずして、なんと言おうか?2

本当は、この中間領域こそが重要だ!というブログ記事を書こうとしていたのだが、この記事を書くだけで面倒になってしまった。どうせこれからも、(主に科学者や工学者によって)クオリアや強い人工知能という言葉は本来の哲学的意味とは違う意味で使われ続けるのだろうが、私はその誤解の解消はもう諦めつつある。


  1. チャーマーズの元の議論では可能世界意味論を用いて議論している。可能世界とは現実世界とは異なるあり得る世界のことだ。どんな振る舞いをしている可能世界に行っても、それがクオリアを持ってるか?分からないという議論だ。可能世界意味論では、三角性と三辺性の区別がつかないという批判がある。つまり全ての可能世界を見ても、三角性と三辺性はどちらも全く同じ三角形の集まりなので、これらを区別できないという批判だ。クオリアの有無も同じで、(様々な振る舞いをする)全ての可能世界を参照してもクオリアの有無によって振る舞いの集まりは全く同じである(逆に言えば、クオリアはそう定義される)。
  2. この中間領域を埋めるためのよくやられる(意識的AIを否定するタイプの)論法は生物学や身体を持ち出すことである。それはチャーマーズ自身も記事の中で「意識をもつためには人間の生物学的な構造が必要だと考える主張もありますが、わたしは、この考え方は誤りだと思っています」と批判している。ただし、ここで言われている人間から機械への段階的置き換え論は(確かデネットも言っていた)今や古典的な論法だが、そもそも全てが置き換え可能かどうか?は科学的にはまだ分からないので、生物学主義者を説得するには弱いと感じる(かと言って、生物学主義が十分に説得的な訳でもない)。