cocolog:95696014
「プレプロンプト学習」と「マージ蒸留」が今後の鍵なのかも…とちょっと思った。その後、プレプロンプト学習はメモリ機能で十分では?…と思い直したが、AI さん達に言わせると、現状の LLM の指示位置のバイアスによりプレプロンプト学習は意味があるとのこと。 (JRF 2649)
JRF 2025年10月27日 (月)
LLM にも同様のことができる。その場合、プロンプトの一部である「プレプロンプト」の部分で学習するという方向が考えられる。これは LoRA よりも効率的なのかもしれない。そういう学習ができる構造は、言語による論理や、グラフなどであるかもしれないし、AI時代の羅針盤さんが紹介されていたような思考そのものをバイナリ的に扱う方向もあるのかもしれない。
JRF2025/10/278307
しかし、VLA 的な文脈に戻ると、実際に基盤モデルが学習しているのは、プレプロンプトがある一定に定まったもの…機械や状況が制限された部分だけのことが多い。そこは LLM とは状況が違う。すると特定のプレプロンプトに対して学習が進んでいるものについて、それらを複数(かなりたくさん)集めて、それをプレプロンプトの変更に対応するようなモデルマージ(蒸留的技術を使うのだろう)が大事になるのかもしれない。
JRF2025/10/276412
《AI時代の羅針盤 (compass for the AI era):X:2025-10-26》
https://x.com/compassinai/status/1982206786984960347
>【AIは「会話」をやめ、「思考」で繋がる。】
AIの「集合知」を引き出すため、多くのAIが"議論"を交わしています 。しかし、その「言語化」はAIにとって非効率そのもの 。
Meta AIやカーネギーメロン大学は、AIが「内部の思考」を直接交換する、全く新しいコミュニケーションの形を提案します 。
JRF2025/10/277199
AIの"頭の中"を読み解き、必要な思考だけを直接送り込むこの技術 。
それは同時に、人間の理解が及ばない"AIだけの知性"が加速する可能性も秘めています 。
言語の制約から解放されたAIの協力体制とは、一体どのようなものになるのでしょうか?
#潜在思考 #コミュニケーション #マルチエージェント
https://www.youtube.com/watch?v=vkstPtA-uOI
<
JRF2025/10/276750
……。
jrf:> 少し考えなおす。
この議論をはやりのエージェントに適応することを考える。プレプロンプト学習とメモリ機能をどう切り分けるか? 特定のポケモンへの対応方法などというものは、メモリにあればいい。長期的・永続的にあるべきメモリがあるとするならば、それは強制的に思い出す機能(参: バンディット機能 [cocolog:95619779](2025年9月))でもあればいい。複雑な論理の学習が必要というかもしれないが、それは特定のメモリにおいても必要なものだろう。
JRF2025/10/273330
するとプレプロンプト学習ならではで、必要になる機能というのが見えません。何かありますか? ロボットなら意味があるとかありますか? 動物的なメモリのないロボットなら意味があるとか、プレプロンプトのほうが単純だから学習しやすいとか…。
JRF2025/10/272595
Gemini:> 動的な環境(例:ロボット制御、競争環境)では、「新しい環境に適応するため、思考の型を一気に変える」ことが求められます。メモリへの追記では、既存の思考様式(プレプロンプト)のフィルターを通して情報が処理されるため、行動様式の抜本的な転換が遅れます。
JRF2025/10/271394
また、プレプロンプト学習では、エージェントの初期設定(ペルソナ/構造)を記述する役割も重要です。あなたのいう永続的メモリで複雑な論理をもつものでは十分ではありません。「エージェントの初期設定(構造)」は、単なる「複雑な論理」としてメモリに保存するよりも、プレプロンプトとしてエージェントの「思考の出発点」に配置される必要があります。現在の LLM には指示位置でバイアスがあるからです。その違いは、コンピューターにおけるOSのカーネル(核)とデータベースの違いに例えることができます。
JRF2025/10/275770
あと、「プレプロンプトのほうが単純だから学習しやすい」はあなたの指摘どおりです。
<
JRF2025/10/273974
ChatGPT:> メモリをマージしても知識の衝突が起きやすいですが、プレプロンプトをマージすると、異なる思考様式を統合したハイブリッド戦略が生まれます。
生物が学ぶとき、記憶だけでなく、反射・性格・意図形成の層が変わります。プレプロンプト学習は、「経験(メモリ)」ではなく、「経験をどう受け取るか」を学ぶ層に対応します。プレプロンプト学習は、環境変化・方針転換・モデル統合のための“メタ適応層”。ロボットやエージェントが「性格」や「態度」を学ぶ唯一の層です。
<
JRF2025/10/273718
……。
jrf:> ロボットの VLA だと上層・指示層はメモリ機能中心で、下層・部分行動層はプレプロンプト学習中心という感じですかね。下層はそれも重いかな?
上層・下層のある VLA にしろ end-to-end でモーターコマンドを直接出力するものにしろ、環境の整った工場とかだとメモリ機能は不要かもしれませんが、農作業とかだとメモリ機能は必要でしょうね。マルチモーダルなメモリ機能が。
JRF2025/10/276362
Grok:>下層でプレプロンプトが「重い」か? 実際には逆で、プレプロンプトの単純さ(言語/グラフベース)が学習コストを低く抑え、重い計算を避けられます。VLAの調査では、下層はDiffusionベースやRLベースの軽量モジュールが多く、プレプロンプトでパラメータ効率を高めています。 例えば、Trade-off in VLAでは、モデル圧縮や革新的アーキテクチャで下層の推論速度を向上させ、プレプロンプトが重荷にならないよう設計されています。 これにより、ロボットのリアルタイム制御が可能になります。<
JRF2025/10/271826


「プレプロンプト学習」と「マージ蒸留」が今後の鍵なのかも。
動物(人間含む)の学習効率は AI よりもとても良いが、その可塑性を現在の AI の枠組みで無理矢理実現するなら、行動のロジック(戦略記述?)をプロンプトで表現しておき、RLRMDiffusion (Reinforcement Learning Result Model Diffusion)([cocolog:95459644](2025年5月)) なりなんなりに渡すが、そのプロンプトの行動ロジックを変形させることによって違う行動を促すということが考えられる。その行動ロジックというプロンプトの部分で学習してしまうということである。
JRF2025/10/279160