cocolog:94787819
斎藤康毅『ゼロから作るDeep Learning 5 - 生成モデル編』を読んだ。画像生成 AI の作り方が書いてある。VAE から拡散モデルを導くのが一つの流れで書かれているのがハッとさせられた。オススメ。 (JRF 6801)
JRF 2024年4月12日 (金)
『ゼロから作るDeep Learning 5 - 生成モデル編』(斎藤 康毅 著, オライリー・ジャパン, 2024年4月)
https://www.amazon.co.jp/dp/4814400594
https://7net.omni7.jp/detail/1107487287
サンプルコードは↓
《GitHub - oreilly-japan/deep-learning-from-scratch-5》
https://github.com/oreilly-japan/deep-learning-from-scratch-5
JRF2024/4/129972
私は『ゼロから作る Deep Learning』のシリーズの 1巻を [cocolog:87181973] で、2巻を [cocolog:90214777] で読んでいた。3 と 4 はまだ買っていない。なくても 5 は問題なく読めた。
JRF2024/4/123369
……。
○ 2024-04-11T14:59:24Z
斎藤康毅『ゼロから作るDeep Learning 5 - 生成モデル編』を読んだ。画像生成 AI の作り方が書いてある。VAE から拡散モデルを導くのが一つの流れで書かれているのがハッとさせられた。オススメ。
岡野原大輔『拡散モデル』を読んだときは([cocolog:94256676])、数式が難しく歯が立たなかったが、これはサンプルコードも充実していて、かなりわかった(気にさせてくれた)。正規分布から説きはじめており、がんばれば高校生でも読めるのではないかと思う。
JRF2024/4/125653
それでも私はレベルが低いため詰まったところが何箇所もあった。
一例として、p.162 ぐらいで、VAE の ELBO に KL ダイバージェンスが含まれてるのはすでに ELBO を導く過程で KL ダイバージェンスを除いているので間違いじゃないかと思ったが、ちゃんと読み直すと、KL ダイバージェンスがまた必要になってるのがわかった。
あとその部分のすぐあとで、正規乱数の ε にバックプロパゲーションがいらないというのには、そうなのかと驚いた。そうだったかもしれないが、知らなかったか忘れていた。
JRF2024/4/128972
忘れていたということに関しては、p.219 の例で、v.view(N, C, 1, 1) にして x + v しているのがわからなかった。Gemini さんに聞いて、それが「ブロードキャスト」の機能であることをやっと思い出した。でも、なぜブロードキャストで OK なのかはわかってないが。
p.239 の pθ(x0|y) の数式。p(xT) が p(xT|y) でないのも間違いじゃないかと一瞬思ったのだが、これは、p(xT) が y に関係ない乱数になるからそれでいいってことだよ…ね?
JRF2024/4/129979
あと、p.289 の step8/hvae.py の reparameterize の eps は github を見ると式の書き忘れのはず。私が見つけた誤植はその程度で、まぁ、私はその程度の目しか持ってないということで…。
この本自体はいい本だが、この本が「わかった」からと言って、概念そのものが数学的に難しく、この後、何か新しいアイデアにつなげられないのが、私の情けないところ。
JRF2024/4/121765
(「グローバル共有メモ」と Twitter (X) に書いたことをコピペする。)
JRF2024/4/121829