« 前のひとこと | トップページ | 次のひとこと »

cocolog:95459644

AIコンセプト妄想。RLRMDiffusion … Reinforcement Learning Result Model Diffusion。LLM を使ったロボット制御で下部メカの「どう学習すればいいかのプログラム」をプロンプトとして制御のための行列的なものを生成する…。 (JRF 5193)

JRF 2025年5月24日 (土)

LLMを使ったロボット制御では、下部メカを制御するスパース行列を渡すために、画像生成AIのような拡散モデルみたいなのを使って、「どう学習すればいいかのプログラム」をプロンプトとしてスパース行列的なものを生成して渡す感じになるのだろうか…。

JRF2025/5/243885

ロボットの制御を LLM で行う場合。細部のメカにコマンドを送りその出力・異常出力をいくつかためて、LLM で処理し指示を出すということになるのだろう。細部のメカも LLM 的になるのだが、反射神経的な動きは、上部の LLM にいつも指示をもらうというのではなく、反射神経的な動きの学習済みデータを上部 LLM からもらう形か。このときスパース行列のようなものを渡さねばならないとなると上部 LLM は学習が大変なので、そうではなく、下部 LLM がどう学習すればいいかのプログラムを渡すことになるのかもしれない。

JRF2025/5/245087

ただし、その指示に従って学習するのは時間がかかり過ぎるので、画像生成 AI のような拡散モデルみたいなのを使って、「どう学習すればいいかのプログラム」からスパース行列的なものを生成する感じになるのだろう。

JRF2025/5/243872

……。

名付けて RLResultModelDiffusion … RLRMDiffusion とかでどうだろう? (^^;

JRF2025/5/241247

……。

ただ、発展してる分野なので、これぐらいのアイデアはすでにあるのだろう。Gemini さんなどはズバリはまだない…ということだけど、これからの学習すべき人間作成データのなくなった AI は、強化学習が重要になるというニュースがいくつかあって、RLRMDiffusion はそこへの自然な接続という形になる。

JRF2025/5/244243

あと、StableDiffusion とかを考えると、拡散モデルはそんな大きな ResultModel は扱えないかな…とも考える。今はビデオ生成とかしてるんでかなり大きくても大丈夫…みたいな可能性もあるが、一方で、画像生成はまだそこまで巨大データに対応してないのだった。このあたり、Gemini さんなどに聞くと、「いや、そこまで悲観することはない。大きなデータを圧縮する工夫はできるし、今は難しいが可能性は十分ある」みたいな回答だった。

JRF2025/5/241440

……。

……。

話は基本的に以上。あとは、私の過去の構想・妄想にリンクしておく。

まずは xxLLM。

keyword: xxLLM

同時応答機械指示付きLLM (題して xLLM)に対し、拡張同時応答機械指示付きLLM を xxLLM と呼ぶ。[cocolog:94833189](2024年5月)にアイデアがある。[cocolog:95029217](2024年9月)にアイデアがまとまっている。

JRF2025/5/245365

[cocolog:95029217](2024年9月)
>(家電操作などを想定して) JSON を出力する xLLM に対し、JSON を出力するプログラムを出力する LLM 名付けて xxLLM のほうが、性能がいいのではないかと考えたことがあります。なぜなら、LLM は逐次出力するため、最初の出力を間違えないようにすることが難しいのですが、xxLLM だと途中で前の式に関して代入などをするなどして修正できるようになるからです。<

JRF2025/5/245999

この点、「ひとこと」のほうには付けてなかったが、Grok さんと会話した中で次のようなことを言っていた。[cocolog:95029217](2024年9月)にも趣旨的には同じことを書いてる部分はあるが、具体例がなかったので。

JRF2025/5/249574

>あと、たとえば学習する/出力する文中に here ドキュメント的にプログラム実行の指示とその結果を含ませることもこの枠組みでは考えていました。

#!i: sin(3/4 * pi)
#!o: 0.70710678118

I answer you {!o}.

…みたいな文があっていいわけです。これを生成するとき #!i の行まで生成して、次は実際に計算したものからはじめてもよいわけです。

JRF2025/5/246386

……。

……。

AI と資本課税について最近考えたこともリンクしておく。

JRF2025/5/244540

>>
○ 2025-05-17T10:22:28Z

JRF2025/5/243667

Chamley-Judd や Kaldor のように資本課税すべきでなく資本蓄積を重視すべきだという経済学の議論はしかし、AI 時代には適合しないのではないか。AI は資本なので資本蓄積を目指すと、AI のみがどんどん成長し、人間はいらない・少子化で良いということになる。AI の成長スピードを落としてでも、一定の消費=人間の生きる余地を認めさせる必要がある。つまり資本課税も一定程度必要ではないか。コンピュータから離れて計算に習熟するゲームができる The JRF Tarot for 易双六 ( https://amzn.asia/d/iAGwLxm )も一定の必要性があると思われる。

JRF2025/5/245484

○ 2025-05-20T03:41:08Z

Chamley-Judd を拡張して、資本課税を上げるほうが有利になりうることを数学的に示した。蓮見亮『動学マクロ経済学へのいざない』([cocolog:93532297](2022年6月))についての私の議論を Gemini さんに反映してもらって。というか私の以前のアイデアを示した後は数学は完全に Gemini さんにおまかせで (^^;。

https://gemini.google.com/share/79de6ebd30fb
<<

JRF2025/5/242144

……。

……。

あと、逆蒸留について。

[cocolog:95459642](2025年5月)
>AI の逆蒸留はできないだろうか? 小さなモデルから大きなモデルを「蒸留」する…当然大きなモデルはその後の学習に備えて学習に適当なランダム性で膨らませて。これが可能な系列を逆にたどって小さなモデルを突き詰めていくとそれが「遺伝子」みたいになるというイメージ。

JRF2025/5/244995

(…)

以前、Attention 機構は拡張された微分ではないかとちょっと妄想した。元々の微分がクローズアップして注意した結果傾きがわかる…みたいに解釈して。Attention がすでに微分として出てきているとすれば、逆蒸留も概念としてはすでに出てきているのかもしれない。もしかして、拡散モデルというのは、逆蒸留の一変形ではないか?

JRF2025/5/248004

……。

……。

あと、ここを読んでる方はご興味ないかもだが、『宗教学雑考集』を書いた私としては関心の強い涅槃考について。

[cocolog:95459643](2025年5月)
>涅槃考。生成 AI に即して、人の世も最適化過程で、望ましい定常状態からズレたところから、意味を生成していくと考えてみる。そのズレが大きな意味で「カルマ」と考える。ならばそれを消す「涅槃」とは何か? ChatGPT は「出力可能性」に満ちた静かな構造としての存在というが…。<

JRF2025/5/246674

……。

……。

追記。

○ 2025-05-26T12:33:47Z

RLRMDiffusion と 逆蒸留 はつながるのかもしれないなぁ…。RLRMDiffusion から RL が取れてなんでも Result Model を Diffusion 的に得られるようにするという方向がありうる(RMD)。そして、Result Model は可塑的にいくらでも大きくなり得て、RMD は自分より大きなモデルを精度低いかもしれないが生成できるとする。

JRF2025/5/260031

そして、i2i 的に Result Model を入れて、その大きなモデルを RMD で作ると逆蒸留になってる。…みたいな。蒸留体/逆蒸留体が「遺伝子」のイメージ… DNA のイメージとすると、RMD は RNA のイメージになるのかな?

もちろんその先には ASI を考えるわけだが。

JRF2025/5/269553

……。

……。

追記。

○ 2025-06-04T09:08:22Z

RLRMDiffusion というのを [cocolog:95459644](2025年5月) で考えたが、すでに Diffusion Transformer なる名前の物があるらしい。やっぱり私の「アイデア」ぐらい、先行者がいるか。でも、私もいいところは突いていたということであれば慰めがある。

《NVIDIA Isaac GR00T N1 の概要|npaka》
https://note.com/npaka/n/na76d85fd8ef6

JRF2025/6/49836

……。

もちろん、RLRMDiffusion と DiffusionTransformer は違うのだが、RLRMDiffusion に似たところを目指して現状の技術で現実的なところを探るとああなった…というのが私の解釈。

JRF2025/6/62905

……。

……。

追記。

RLRMDiffusion。やるとしたら、フルにモデルを生成するのではなく、制御レイヤーの層の一部を生成する LoRA みたいなものが必要だろうと思っていた。そこに Sakana AI が Text-To-LoRA というイメージ生成についての「メタ」的な技術を発表した。この方向が今後来るように思う。

《Sakana AI:X:2025-06-12》
https://x.com/SakanaAILabs/status/1932972420522230214

JRF2025/6/151527

>We’re excited to introduce Text-to-LoRA: a Hypernetwork that generates task-specific LLM adapters (LoRAs) based on a text description of the task. Catch our presentation at #ICML2025!

Paper: https://arxiv.org/abs/2506.06105
Code: https://github.com/SakanaAI/Text-to-Lora

JRF2025/8/188334

……。

……。

追記。

最近↓という論文を見つけ、ほぼ、RLRMDiffusion 的なことはすでにされていることが明白になった(これは2025年8月の論文)。

《[2508.08241] BeyondMimic: From Motion Tracking to Versatile Humanoid Control via Guided Diffusion》
https://arxiv.org/abs/2508.08241

JRF2025/8/188260

↑の論文が参考にしている中には↓があった(2024年10月の論文)。

《DiffuseLoco: Real-Time Legged Locomotion Control with Diffusion from Offline Datasets | OpenReview》
https://openreview.net/forum?id=nVJm2RdPDu

JRF2025/8/189403

さらに Gemini 2.5 Pro さんに聞くと次の論文を紹介された。

《[2205.09991] Planning with Diffusion for Flexible Behavior Synthesis》(2022年5月, Diffuser の論文)
https://arxiv.org/abs/2205.09991

《[2303.04137] Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》(2023年3月の論文)
https://arxiv.org/abs/2303.04137

JRF2025/8/180296

『Human Motion Diffusion Model』(Guy Tevet, et al. 著, 2022年・2023年)
https://guytevet.github.io/mdm-page/

JRF2025/8/183506

« 前のひとこと | トップページ | 次のひとこと »