« 前のひとこと | トップページ | 次のひとこと »

cocolog:95713714

金森敬文 他『機械学習のための連続最適化』に目を通した。確率的勾配降下法全盛期の少し前の本。おそらく、メモリさえあれば、そういう時代でもとても有利な最適化手法が使えるのかもしれない。が、私に難し過ぎた。 (JRF 6035)

JRF 2025年11月 9日 (日)

typo 「私に難し」→「私には難し」。

JRF2025/11/91973

『機械学習のための連続最適化』(金森 敬文 & 鈴木 大慈 & 竹内 一郎 & 佐藤 一誠 著, 講談社 MLP, 2016年12月)
https://www.amazon.co.jp/dp/B0756RTP93
https://7net.omni7.jp/detail/1106721785

JRF2025/11/91409

まず、電子書籍のフォーマットに関する文句から。

Android タブレットの Amazon Kindle アプリで理工書を読むのは二冊目だが、今回のは、メモ機能が使えないのにはマイッタ。少し古い本で固定レイアウト…1ページが1画像になってるタイプで、ブックマークはできるのだけどハイライトはもちろん、メモ機能が使えないのは予想外だった。ブックマークにメモする機能ぐらいつけてくれたらいいのに。

しかも PC 版にはブックマークすらないじゃないか。なんじゃこりゃ。

Kindle は歴史が古く機能安定しているから、今さらそういう機能は期待できないんだろうな…。orz

JRF2025/11/94431

あと、誤字脱字も、二刷りを元にしてるからある程度修正しているんだろうけど、p.13 の x, δ \in R^n の ^n が抜けてるとか、p.51 の a → +0 は α → +0 じゃないかとか、あって、その辺、Web でも情報がないので、私の勘違いなのかもしれないが、電子書籍らしい、フットワークの軽さがないのも残念だった。その辺は、新しい本では改善されているのだろうと思う。思いたい。

JRF2025/11/99589

……。

基本的に証明はほぼ読まず、どういうアルゴリズムがあるかを眺めただけだが、それでもやはり数学中心なので難しかった。ただ Amazom 評とか見ると、この本自体が、難しい部類に入るようだ。そうとはいえ、毎度のことながら、「読んだ」とは言えず、「目を通した」に届まる自分が情けない。

JRF2025/11/95325

勾配降下法の説明とか、パラメータの文字がθでないとか、細かいところで読みにくい。それぐらい大したことないのだが、斎藤康毅『ゼロから作るDeep Learning』([cocolog:87181973](2017年4月))ではわかった説明も、ここではわからない。やはり新しい本のほうがわかりやすいのだな…とは思った。

JRF2025/11/98344

昔、最適化の本は高価だったりして、安全保障上の理由などから、何か一般層の手に届きにくいようにされてるのかな…とか思ったものだが、この本は高価でもないのにいろいろしっかり書かれていて、時代が変わったかなとも思う。まぁ、この点は私の印象に過ぎないが。

JRF2025/11/91523

Gemini:>最適化理論、特に線形計画法や非線形最適化は、冷戦時代には軍事戦略や資源配分の最適化に直結する戦略的技術でした。実際に、これらの手法は長らく一部の研究機関や企業で独占的に扱われていた歴史があります。

2000年代以降、インターネットとオープンソース文化の普及、そして機械学習の爆発的な成長により、最適化理論は一般化・民主化されました。この本が「高価でもなくしっかり書かれている」のは、まさに「時代が変わった」ことの証拠であり、この知識が技術的なイノベーションの礎として広く公開されるようになったことを示しています。

JRF2025/11/98575

……。

で、やっと内容についてだが…。

凸関数・凸集合が大事でそれが局所最適ではなく全体最適となる最大値…特定領域に制約した最大値(極大値)かもしれないが…を保証するのが大事ということだった。しかし、最近のニューラルネットなどは鞍点などがあって、局所最適値に留まらないのが大切であるというのが AI さんの意見として前あった。注意機構が、多層目的であり、多層目的は単純な最大値的なものではないという私の考えも合わせると、多層目的は多次元鞍点などの探索に有効だったのかもしれない。だから、凸集合が多次元的にはかならずしも凸でなく探索可能な部分を持つ方が案外現代では意味があるのかもしれない。

JRF2025/11/97295

Gemini:>「連続最適化」が重視した完璧な凸性よりも、現代のAIでは、「凸ではないが、勾配や情報(アテンション)を頼りに探索可能な部分」、つまり「滑らかだが鞍点を多く含む非凸な領域」を効率よくナビゲートする能力こそが重要になっています。<

JRF2025/11/97931

……。

p.106 に>ニューラルネットワークの学習におけるモーメント法は、非線形共役勾配法と類似の方法です。<…とあったが、同じように、おそらくメモリとかあれば、この本で言われている手法を使って、今でも高速化できる学習とかはあるのだろうと思う。ただ確率的勾配降下法のように確率的手段が絡むと難しくなるのかもしれない。

JRF2025/11/96429

……。

14章以降は特に難しかった。「14章 サポートベクトルマシンと最適化」は SVM の専門書にあたったほうがわかりやすいだろう…という内容だったと思う。思いたい。紙面が少ないため、他書にまかせる側面もこの本には確実にあった。証明とか。

「15章 スパース学習」は絶対値を正則化項として使う Lasso などが説明されているのだが、それがスパース性を生み速度面で有利になることがある…という以外はよくわからなかった。

JRF2025/11/98705

「16章 行列空間上の最適化」はシュティーフェル多様体など行列の多様体を考えるのだが、なぜそれがそもそも必要なのか、例はあるのだが、よくわからなかった。

JRF2025/11/93429

Gemini:>あなたが本書の例として見られたかもしれませんが、最も身近な応用例は主成分分析(PCA)です。

* PCAは、データを最もよく説明する**直交する軸(主成分)**を見つけることです。

* この問題は、「直交する行列 W(シュティーフェル多様体上の点)の中で、分散を最大化する行列を見つける」という問題に他なりません。

JRF2025/11/90022

この「直交制約」という幾何学的な性質があるからこそ、PCAは特異値分解(SVD)という特別なアルゴリズムで解けますが、より複雑な制約や非凸な目的関数を持つ行列空間の問題(例:非線形な因子分析や深層学習の直交制約)を解くには、多様体最適化の知識が必要不可欠となります。

JRF2025/11/93549

あなたが今取り組んでいる(参: [cocolog:95705029](2025年11月))Decision Transformerなどのアテンション機構は行列演算が中心であり、将来的に「アテンション行列の直交性」や「潜在変数の部分空間」といった幾何学的制約を課すことで、モデルの安定性や解釈性を高めたい場合に、この「行列空間上の最適化」の知識が活きてきます。

JRF2025/11/97828

« 前のひとこと | トップページ | 次のひとこと »