2024年03月27日
Googleの研究者たちはAPI経由でOpenAIのモデルにおける隠れ次元数を特定できることを示し、OpenAIがそれを受け対策を施したことを論文で報告しました。
— AIDB (@ai_database) March 13, 2024
モデルのパラメータサイズや計算効率を見積もることが可能だった事実を意味しています。
"Stealing Part of a Production Language Model"… pic.twitter.com/pix8prSe9U
Stealing Part of a Production Language Model
Nicholas Carlini, Krishnamurthy Dj Dvijotham, Thomas Steinke, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy Google DeepMind
Daniel Paleka, Florian Tramer ETH Zurich
Jonathan Hayase University of Washington
Eric Wallace OpenAI
David Rolnick McGill University
arXiv preprint arXiv:2403.06634 , 2024.
以前の、機械学習モデルを推定する方法が、関連研究でも参照されているように
logit値が重要視されています。
そして隠れ次元だけではなく、層全体の復元まで可能であると書かれています。
語彙Xからのトークン列を入力として受け取るモデルを考慮します。
P(X)がX上の確率分布空間を表すものとします。
入力系列が与えられた時、次のトークン確率を出力する、確率分布を生成するパラメータ化されたモデル fを研究します。
モデルはこの構造を持っています。
fθ(p) = softmax(W・gθ(p))
gθは隠れ状態を計算するもう一つのパラメータ化モデル
Wは l×h 次元行列(埋め込み射影)
softmaxは[0,1]
Threat model.研究の前提として、攻撃者はモデルパラメーターについての情報を全く持っていません。
入力 p が与えられると、 y=O(p) が生成されます。 それ以外に fθ(p)に関する情報はありません。
4. Extraction Attack for Logit-Vector APIs攻撃者は語彙内全てのトークンについてソフトマックス関数に入力するlogitsを直接入手出来ると仮定します。
O(p) ← W・gθ(p)
4.1. Warm-up: Recovering Hidden Dimensionality
まず、攻撃者がオラクルOにクエリを入力する事で、言語モデルの隠れた次元のサイズを推測する単純な攻撃から始めます。
各出力ロジットベクトルはl次元ベクトルですが、埋め込まれた投影層が h 次元から上方投影されるため、実際には全て h 次元の部分空間にあります。
したがって、モデルにh回以上 クエリを入力すると、最終的に新しいクエリが過去のクエリに線形的に依存している事がわかります。
次に、この部分空間の次元を (例えば SVD を使用して) 計算し、これを隠れ次元として記録出来ます。
4.2. Full Layer Extraction (Up to Symmetries)その攻撃を拡張して、最終隠れ層から出力ロジットにマッピングされる出力射影行列Wを復元します。
Method:
Q をアルゴリズム1で定義したとおりにします。
次に、 Q = U ・ Σ ・ V T をSVD で書き直します。
十分に大きな特異値の数がモデルの次元に対応する事見ていますが、しかし、行列U は実際には最終層 (の回転) を直接表す事が判明しました。
................
続きを読む
2024年03月20日
システムがメッセージ(プロンプト)の保存や、RAG等を実行しなければ、ワームは機能しません。研究者たちは「敵対的自己複製プロンプト」と呼ばれる手法で生成AIワームを作成した。https://t.co/mzheaYLUPH
— WIRED.jp (@wired_jp) March 12, 2024
そう思ったのですが、それは後ろの方に書いてあります。
ChatGPT,Geminiだと実行されるとの事ですが、このプロンプトだと、必ずしも動作は確実には保証されない様にも思えるのですが...
Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications
Stav Cohen Technion
Ron Bitton Intuit
Ben Nassi Cornell Tech
arXiv preprint arXiv:2403.02817, 2024.
多くの企業が Generative AI (GenAI)機能をアプリケーションに組み込み、 GenAI サービスを利用した半自律型/完全自律型エージェントで構成される相互接続された Generative AI (GenAI) エコシステムを形成しています。
この研究は、攻撃者が自己複製プロンプトを仕様して、GenAIモデルが処理する時に、入力を出力として複製するようにモデルに促し、悪意的動作 (ペイロード) を実行する可能性を示します。
これらの入出力により、エージェントはGenAIエコシステム内の接続を利用して、それを別のGenAIに配信 (伝播) します。
2 Background & Related Workウイルスとは異なり、ワームは自身を接続するためのホストプログラムを必要としません。
................
代わりに、OS 、ネットワークプロトコル、またはアプリケーションの脆弱性を悪用して自己複製し、ホストマシン間で伝播します。
コンピュータ (ホスト) が感染すると、ワームは自分自身のコピーを作成し、接続されている他のシステムに配布し、感染を拡大します。
新しいホストへの伝播は、ユーザー (がハイパーリンク、添付ファイルをクリックすると感染する) やシステムの脆弱性 (ゼロクリック) を悪用する可能性があります。
ワームは、ファイルの削除 (Wiper)、ファイルの暗号化 (ランサムウェアなど)、機密情報の窃取、DoS 攻撃の実行等の悪意的ペイロードを運ぶ可能性があります。
続きを読む
2024年03月13日
拡散モデルが表現学習出来る理由を学習要素を分解し調査した結果、トーカナイザで低次元潜在空間に射影し、ノイズを加えデノイジングを学習する事"のみ"重要だった(画素空間ではダメ)。射影はPCAですら良い。潜在空間でデノイジングするl-DAEも同性能を達成出来るhttps://t.co/aOUwI5QT6z
— Daisuke Okanohara / 岡野原 大輔 (@hillbig) January 27, 2024
なぜノイズ除去「だけ」で表現生成が出来るようになるのか?そこは書いていないように見えます。
それだけが必須な機能であれば、モデルはもっと十分小さく出来るのでしょうか?
だとすると、生成モデルは生成なんかしていないとも言えるのでしょうか?
Deconstructing Denoising Diffusion Models for Self-Supervised Learning
Xinlei Chen, Zhuang Liu, Kaiming He FAIR, Meta
Saining Xie New York University
arXiv preprint arXiv:2401.14404, 2024.
優れた表現を学習するために重要な最新のコンポーネントはごく少数であり、他の多くのコンポーネントは必須ではない事が分かりました。
私たちの研究は最終的に、非常に単純化され、古典的な DAE にかなり似たアプローチに到達しました。
この研究が、自己教師あり学習の領域における古典的な手法への関心を再燃させる事を期待します。
現在、ノイズ除去拡散モデル(DDM) として知られている方法は、拡散プロセスによる複数レベルのノイズを除去するノイズ除去オートエンコーダー (DAE) を学習する事で、優れた品質の画像生成を実現します 。
DAE は元々、自己教師ありでデータから表現を学習するために提案されました。
................
生成AI研究には明らかに未解決の疑問が残されてたままです。
これら既製モデルは、認識ではなく生成のために設計されていて、表現能力が、ノイズ除去主導のプロセスによって得られるのか、それとも拡散主導のプロセスによって得られるのかは、ほとんど不明のままです。
本研究の思想は、 DDM を分解し、段階的に古典的な DAE に変更する事を目指します。
私たちの脱構築的な軌跡は、DDM と古典的な DAE の間にある他の多くの興味深い特性も明らかにします。一例として、単一のノイズ レベル(つまり、DDM のノイズ スケジューリングを使用しない)、l-DAE でまともな結果を達成出来ます。複数のレベルのノイズを使用する役割は、一種のデータ拡張に似ており、有益な場合もありますが、有効な要素ではありません。
...この事や他の観察を踏まえて、DDM の表現能力は主に拡散主導のプロセスではなく、ノイズ除去主導のプロセスによって得られると主張します。
................
................
続きを読む