« 前のひとこと | トップページ | 次のひとこと »

cocolog:94833189

ブレストアイデア。同時応答機械指示付きLLM (題して xLLM)。LLM の入力と出力に、機械指示のための json が付いているイメージ。LLM 付きの AI 家電とかやるには必要なものだと思うのだが。 (JRF 1664)

JRF 2024年5月 7日 (火)

LLM の途中などで、LLM が(json で)機械に指示を出し、その指示の結果を、会話といっしょに(または結果だけを)、(json で) LLM に返すようなものがあれば AI 家電などに便利ではないだろうか。

JRF2024/5/73572

もちろん、json であれば、xLLM からの出力を

<pre>
{
chat_output: "...",
device_a_input: "...",
device_b_input: "..."
}
</pre>

みたいにして、device_a の実行結果と会話を

<pre>
{
chat_input: "...",
devide_a_output: "...",
}
</pre>

みたいに渡す。

JRF2024/5/72452

device_a_output と device_b_output は同時に渡してもいいし、逐次に渡してもいいかもしれない。場合によっては、chat_input や chat_output がなくてもいい。会話しながら、機械を操作するイメージ。

基本は LLM だから、上の入力と出力がいくつか続いていて、最後に入力が来ているような配列を渡すことになるかもしれないが。

JRF2024/5/74754

……。

こういうのがあると、ルース・ミリカン『意味と目的の世界』を読んだ([cocolog:94817429])とき出したアイデアのような心理モデルを別に作ってそれを LLM とハイブリッドして使うみたいなのも擬似的にできるだろう。

JRF2024/5/75132

[cocolog:94817429]

このような部分心理モデルも、現代の AI 研究の文脈では意味があるのかもしれない。心理モデルを途中に組み込んだ、ニューラルネットモデルを作り、学習することで、学習効率や、正確性が増す可能性はあるからだ。

ただ、そのようなニューラルネットの途中にモデルを組み込むようなハイブリッドシステム、できるとは聞くが、どうやればいいのだろう?

JRF2024/5/72603

(…)

上でニューラルネットの途中に心理モデルを組み込むハイブリッドシステムの話をしたが、そういった特定のモデルの利用を学習するというときは、強化学習を使うのがセオリーである。

逆に言えば、そういうニューラルネットは、モデルに適合させる強化学習に相当することを行えるということだろう。そのようなニューラルネットには、強化学習の試行の状況が並列に畳み込まれるのかもしれない。

JRF2024/5/74544

そのような並列試行は本来とても大きな空間を必要とする。それが畳み込まれるということは、そのような試行が実はスパースであったりするのかもしれない。畳み込まれるといえば、画像生成 AI のようなものが考えられるし、スパースな空間を扱うと言えば、LLM はそういうものを扱っている。LLM だと、学習データが十分な変動を持ち、それが強化学習のランダムな試行に近い挙動を持ちうるのかもしれない。

そういうことをする素材はすでにあるのかもしれない。

JRF2024/5/76456

xLLM を使う場合は、部分心理モデルを device_a としてそこに入力して出力を xLLM にもらう。常にそれがある状態にして、これにより、xLLM の性能が上がれば、心理モデルは成功したと言える。…みたいな? まぁ、厳密なハイブリッドシステムではないのだが。

強化学習的要素は、学習データを加えるときに、xLLM へ入出力しながら、方策を実行するということになるのだと思う。xLLM の入出力が時間を食うとしたら、とても大変そうだが。

JRF2024/5/79163

……。

ルース・ミリカン『意味と目的の世界』を読んだ [cocolog:94817429] では個人内外の複数レイヤーでの同時最適化を考えたが、xLLM も高速化などのために同時にいくつもの xLLM が走っている状況が考えられる。

特定の機械の速い xLLM が走りながら、その入出力を複数個渡しながら、人間用の応答の xLLM が別に走っている。…みたいな。もちろん、特定の機械の xLLM が特に人間用の応答を急ぐ場合などのコマンド等があっていい。

JRF2024/5/75264

……。

そういえば、強化学習と LLM の組み合わせといえば、Google などが Alpha Go Zero みたいなのと LLM を合わせたやつが出るといっていたが、どうなったのだろう?

JRF2024/5/70861

……。

xLLM のアイデア自体は↓でも語っている。


○ 2024-04-03T10:45:27Z

Gemini さんに「AI さんには人間への応答として意見をいいながら、人間側のこちら(のシステム)への指示を出して欲しい。そこを分けて出力して欲しいとか思います。そうすれば、AI 家電とか作りやすくなると思うんです。そういう研究の進み具合はどうですか?」と聞いたら

意図を汲んでくれたが研究は的外れなものは示してくれなかった。そういう研究がないか、役に立たないか…ということだろうか?

JRF2024/5/74794

今は研究はどうなっているのだろう?

JRF2024/5/74609

……。

……。

追記。

○ 2024-05-28T03:57:28Z

同時応答機械指示付きLLM (題して xLLM)とか JSON を出力するものは、本来は GPT よりは BERT が想定されていたんだろうな。前後から「?」を類推する BERT で?の中に更に ? を複数含む文章を当てはめていけば JSON の {} 内なんかは自然に埋められる。…と。でも、現実は GPT 系を使っていってるのだろうな。そのほうがおそらく超強力になるまでの学習時間が短いのだろう。

JRF2024/5/286483

当初 Google が BERT に力を入れていたのはそれがあったんだろう。

JRF2024/5/282527

……。

追記。

○ 2024-05-28T10:43:20Z

同時応答機械指示付きLLM (題して xLLM)。チャットを含んだ JSON の出力に BERT がうまくいかないのは BERT は途中を消して書き換える機能がないからではないか? 今の LLM は事実上、のちの文章で前言ったことをある程度打ち消せるのが強いのではないか。

JRF2024/5/290156

そういう意味では、LLM は JSON を直接出力するより、JSON を出力するプログラムを出力するほうが性能がよくなるのではないか? 大外の {} から始めるのではなく var chat_output = "..." みたいなものから始め最後に result = {..} を出力させる感じ。

JRF2024/5/294144

……。

○ 2024-05-28T11:36:48Z

同時応答機械指示付きLLM (題して xLLM)つづき。JSON を出力するプログラムを学習するときは、途中でコマンドや式の出力を参照しているようなプログラムにできるようにすべきだろう。その式の出力はハルシネーションを起こすだろうが、プログラム実行時に正しい出力にしたり、正しい出力の部分からプログラムを再生成させることもできるだろう。

その式の入出力を心理モデルに接続したり、再生成時に出力を使わずむしろ自由に生成させることでオラクル関数的ふるまいを見つけることができるかもしれない。

JRF2024/5/295279

……。

○ 2024-05-28T22:34:14Z

JSON を出力するプログラムを出力する xLLM は xxLLM とでも呼べばよいだろうか…。

JRF2024/5/290842

……。

○ 2024-05-28T11:44:31Z

まぁ、私も考えたというだけで、よくある考えつくのは簡単な、有効ならもうありきたりなアイデアなんだろうけど。

JRF2024/5/292876

……。

○ 2024-05-29T02:07:44Z

xxLLM をするなら、単一の JSON の出力というより、r を JSON、c を chat_output として、r['device_a'] = "..."; c += "...."; みたいなのを続けていって r と c を出力としたほうが目的のものが得やすいかな? いや、そんな細かいとこまで私が考える必要はないか。私は実装をしないから、本当に実装をやる人が考えればいいことだな。

JRF2024/5/291242

……。

……。

追記。

出力を JSON にすることについては2023年7月に↓で私は言及している。他の人も私の前に考えてるだろうから、いつのものか書いても意味ないとは思うけど。

[cocolog:94301604]
>スマートスピーカーのように口頭での命令で何かを動かすオープンで無料な実装のためのテスト。Whisper で音声認識し、SentenceTransformers の埋め込みベクトル化で、コマンドの表現の揺れを吸収する。

JRF2024/5/301017

(…)

オープンな LLM に欲しいのは「そこ」なのかもしれない。高度な言語能力ではなく、スマートスピーカーがやってる(はずの)ような表記の揺れの吸収をともなう、コンピュータコマンドへの置き換えの一般的なもの。それがあれば GPU が多少高くても広く使われるようになるのでは?

(…)

コンピュータコマンド(JSON)への翻訳ってことになるのかな?

(…)

日本語から JSON への翻訳。

(…)

JSON 翻訳

JRF2024/5/306818

「JSON 翻訳」が基本の考え方で、xLLM ましては xxLLM の考え方にはまだ致っていないけど。

JRF2024/5/309718

« 前のひとこと | トップページ | 次のひとこと »