« 前のひとこと | トップページ | 次のひとこと »

cocolog:95699207

佐藤竜馬『グラフニューラルネットワーク』に目を通した。テンソルを巧みに用いた高次グラフニューラルネットワークの万能近似定理にはうなったが、すぐあとで乱択GNNでもその定理は成り立つと知ってズッコケた。 (JRF 6369)

JRF 2025年10月30日 (木)

『グラフニューラルネットワーク』(佐藤 竜馬 著, 講談社 機械学習プロフェッショナルシリーズ, 2024年4月)
https://www.amazon.co.jp/dp/B0D78LNDGM
https://7net.omni7.jp/detail/1107485854

はじめて Kindle (PC&タブレット)で読んだ理工書になる。問題なく読めてよかった。

なお、引用してコメントする部分、ページ数は紙の本とは違う可能性があるので、念の為。

JRF2025/10/303770

……。

グラフ理論に私はかつて興味を持っていた(参: [cocolog:95499368](2025年6月))。大学生のサークルの会誌に「平面グラフのランダム作成」みたいなのを脳のシワが平面を構成することをヒントに AI につながるアイデアとして考えていたことを思い出す。

keyword: 平面グラフ

JRF2025/10/306772

その記憶は遠くなったが、最近、人工知能(AI)がらみで、学習しやすい構造ということでグラフに注目するようになって、この本を読んでみようとした。昔の関心からすれば、私に相性がいい本かもしれない。そう淡く期待したが、やはり難しく、証明などは飛ばして読んで「目を通した」というぐらいにしか言えないのは、いつもの理工書を読んだときと同じ。ただ、若干、関心があったせいか、わかりやすい部分もあったように思う。著者の本の書き方が良かったのかもしれない。

JRF2025/10/305567

……。

グラフニューラルネットワークが定義されたとき、それは「メッセージ伝達型グラフニューラルネットワーク」だったのだが、それが同型なグラフにだいたい対応するのはいいとして、しかし、それだとグラフのすべての特徴を拾い上げるのは無理だろうと感じた。

実際それは第8章「グラフニューラルネットワークの表現能力」で大きく問題となって、「万能近似能力」がないことがいったん示された。

JRF2025/10/309434

しかし、テンソルを巧みに使った「高次グラフニューラルネットワーク」では万能近似能力はあるとできると説明されてうなった。テンソル…なのか。sympy_matrix_tools を作ったとき([cocolog:93564604](2022年6月))、うまくテンソルを扱えないものの、テンソルは大事だと思った。そう思いつつそれ以上学ばずに来たのだが、ここで必要になったか…。p.360 のテンソル B の解釈に長い時間苦しんでそれは理解できた(と思う)が、やはり難しいなという印象を持った。

JRF2025/10/302880

その後、乱択グラフニューラルネットワークも万能近似能力を持つと示されて、それでいいならそのほうがラクじゃん…とズッコケたが、しかし、高次グラフニューラルネットワークの力技は、抗しがたい数学的魅力があった。

JRF2025/10/304767

……。

あとは、最初のほうに戻って細々とした話題にコメントしていく。

JRF2025/10/306017

……。

>埋め込み(embedding)<(p.79)

埋め込みベクトルという言葉を私もよく使っていたが、途中の過程から取り出した特徴量のようなもので、それを「埋め込み」という言葉を使うのは、単に英語の表現の他の意味に引っぱられた言葉なのかなと思っていた。

そうではなく、高次元から低次元への「埋め込み」と日本語でもちゃんと説明できる言葉遣いであることがやっとわかった。 orz

JRF2025/10/309296

……。

知識グラフ注意ネットワークの説明で、損失関数に - log を使っているのに、中でマイナスを使っていて、普通の交差エントロピー損失とかと形が違って値が無限になるのにとまどった。

>L_{C} = - Sum log(σ(y~_{ui} - y~_{uj})<( …みたいな数式 p.157)

JRF2025/10/300297

しかし、Gemini さんに相談するとこれは正例と負例の比較が log の中身でされていることなので、そこが離れたほうがいいからこれであってるとのことだった。やっと納得。

JRF2025/10/308215

……。

>「6次の隔たり」<(p.175)

これについては反論がある。

[cocolog:95537108](2025年7月)
>ミルグラムの手紙の実験の解釈がおかしい。AI さん達に手伝ってもらって自分でモデルを作って考えた。その実験だけでは通常言われるような「世界中の誰とでも、たった6人介せば繋がれる」みたいなことは言えないと言える。

JRF2025/10/303855

(…)

しかし、この実験、届かなかったものがあるということは、もっと距離が本来かかるはずだったのが計算されてないだけという可能性があり、モヤモヤする。

(…)

手紙が残っている者の r 倍だけ次の人に転送するとすると、連鎖の長さは平均 1/(1-r) になる。転送が途切れたステージから q 倍だけ直接手紙が帰ってきて観測できるとすると、観測される連鎖の平均の長さは q/(1-r) になる。これがミルグラムの手紙の実験の場合 6 ぐらいになるという解釈をする。

JRF2025/10/302050

(…)

1通返すだけだけれども噂によって情報だけが広まってその1通を返す確率が上がる…「多くの人にいきわたることで、より情報だけは広まり、成功確率(観測確率)は上がっていく」…というモデル化はしてもよいかもしれない。

JRF2025/10/302894

……。

フーリエ変換において、高周波成分を切り落とすのは、そこが大事じゃないからだ…みたいな理解があったのだが、そうではなく、それが「近似」になるのは直交基底の性質からだ…というのは蒙を啓かれた気になった。

>直交基底の一部を用いて近似するときには、単に使う基底の成分を取り出っだけでよいということになります。これは直交していない基底では成り立たない性質です。<(p.205)

線形代数などを習ったときにもこういうことは言われていたはずである。しかし、私はこの本でこのことをやっと初めて習った気になれた。わかりやすかった。

JRF2025/10/309510

……。

>テキストデータに対してトランスフォーマーを適用するとき、単語の位置を示すために、i番目の単語に…

p_{i,2k} = sin(i / 1000^{2k/d_{model}})
p_{i,2k+1} = cos(i / 1000^{2k/d_{model}})

という位置符号化を単語特徴量に加えることがあります(…)。ここまでの議論に基づくと、位置符号化はパスグラフのグラフフーリエ基底を用いていると解釈できます。
<(p.238)

JRF2025/10/302290

そうなのか! いや、ここも意外感と納得感のある議論だった。なんで位置を現すのに sin 関数足したら学習うまくいくんだよ…とは思っていたけど、こういう解釈ができるか!

JRF2025/10/301179

……。

この本には、グラフをまるまる生成する方法、グラフの一部を順次する方法はあったように思うが、グラフで学習する方向は見えなかった。グラフで表された論理の一部を更新していくような使い方は、また別のソースを探すべきなのだろう。

でも、この本、全体としては参考になったように思う。いろいろわかりやすかった。

JRF2025/10/309636

« 前のひとこと | トップページ | 次のひとこと »