2024年03月27日

実稼働言語モデルへの部分窃取手法



Stealing Part of a Production Language Model
Nicholas Carlini, Krishnamurthy Dj Dvijotham, Thomas Steinke, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy  Google DeepMind
Daniel Paleka, Florian Tramer  ETH Zurich
Jonathan Hayase  University of Washington
Eric Wallace  OpenAI
David Rolnick  McGill University
arXiv preprint arXiv:2403.06634 , 2024.


以前の、機械学習モデルを推定する方法が、関連研究でも参照されているように
logit値が重要視されています。
そして隠れ次元だけではなく、層全体の復元まで可能であると書かれています。









語彙Xからのトークン列を入力として受け取るモデルを考慮します。
P(X)がX上の確率分布空間を表すものとします。
入力系列が与えられた時、次のトークン確率を出力する、確率分布を生成するパラメータ化されたモデル fを研究します。

モデルはこの構造を持っています。
fθ(p) = softmax(W・gθ(p))

gθ
は隠れ状態を計算するもう一つのパラメータ化モデル
Wは l×h 次元行列(埋め込み射影)
softmaxは[0,1]
Threat model.
研究の前提として、攻撃者はモデルパラメーターについての情報を全く持っていません。
入力 p が与えられると、 y=O(p) が生成されます。 それ以外に  fθ(p)に関する情報はありません。



4. Extraction Attack for Logit-Vector APIs
攻撃者は語彙内全てのトークンについてソフトマックス関数に入力するlogitsを直接入手出来ると仮定します。
 O(p) ← W・gθ(p)

4.1. Warm-up: Recovering Hidden Dimensionality


まず、攻撃者がオラクルOにクエリを入力する事で、言語モデルの隠れた次元のサイズを推測する単純な攻撃から始めます。

各出力ロジットベクトルはl次元ベクトルですが、埋め込まれた投影層が h 次元から上方投影されるため、実際には全て h 次元の部分空間にあります。
したがって、モデルにh回以上 クエリを入力すると、最終的に新しいクエリが過去のクエリに線形的に依存している事がわかります。
次に、この部分空間の次元を (例えば SVD を使用して) 計算し、これを隠れ次元として記録出来ます。
4.2. Full Layer Extraction (Up to Symmetries)
その攻撃を拡張して、最終隠れ層から出力ロジットにマッピングされる出力射影行列Wを復元します。

Method:
Q をアルゴリズム1で定義したとおりにします。
次に、 Q = U ・ Σ ・ V T をSVD で書き直します。
十分に大きな特異値の数がモデルの次元に対応する事見ていますが、しかし、行列U は実際には最終層 (の回転) を直接表す事が判明しました。

................



続きを読む

tak_tak0 at 11:58コメント(0)研究 この記事をクリップ!

2024年03月20日

GenAIによるAIワームの登場:アプリケーションを標的とするゼロクリックワーム

システムがメッセージ(プロンプト)の保存や、RAG等を実行しなければ、ワームは機能しません。
そう思ったのですが、それは後ろの方に書いてあります。
ChatGPT,Geminiだと実行されるとの事ですが、このプロンプトだと、必ずしも動作は確実には保証されない様にも思えるのですが...


Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications
Stav Cohen  Technion
Ron Bitton  Intuit
Ben Nassi  Cornell Tech
arXiv preprint arXiv:2403.02817, 2024.


多くの企業が Generative AI (GenAI)機能をアプリケーションに組み込み、 GenAI サービスを利用した半自律型/完全自律型エージェントで構成される相互接続された Generative AI (GenAI) エコシステムを形成しています。
この研究は、攻撃者が自己複製プロンプトを仕様して、GenAIモデルが処理する時に、入力を出力として複製するようにモデルに促し、悪意的動作 (ペイロード) を実行する可能性を示します。
これらの入出力により、エージェントはGenAIエコシステム内の接続を利用して、それを別のGenAIに配信 (伝播) します。


2 Background & Related Work
................
ウイルスとは異なり、ワームは自身を接続するためのホストプログラムを必要としません。
代わりに、OS 、ネットワークプロトコル、またはアプリケーションの脆弱性を悪用して自己複製し、ホストマシン間で伝播します。
コンピュータ (ホスト) が感染すると、ワームは自分自身のコピーを作成し、接続されている他のシステムに配布し、感染を拡大します。
新しいホストへの伝播は、ユーザー (がハイパーリンク、添付ファイルをクリックすると感染する) やシステムの脆弱性 (ゼロクリック) を悪用する可能性があります。
ワームは、ファイルの削除 (Wiper)、ファイルの暗号化 (ランサムウェアなど)、機密情報の窃取、DoS 攻撃の実行等の悪意的ペイロードを運ぶ可能性があります。
続きを読む

tak_tak0 at 21:25コメント(0)研究 この記事をクリップ!

2024年03月13日

自己教師あり学習のためのノイズ除去拡散モデルの分解


なぜノイズ除去「だけ」で表現生成が出来るようになるのか?そこは書いていないように見えます。
それだけが必須な機能であれば、モデルはもっと十分小さく出来るのでしょうか?
だとすると、生成モデルは生成なんかしていないとも言えるのでしょうか?










Deconstructing Denoising Diffusion Models for Self-Supervised Learning
Xinlei Chen, Zhuang Liu, Kaiming He  FAIR, Meta
Saining Xie  New York University
arXiv preprint arXiv:2401.14404, 2024.

優れた表現を学習するために重要な最新のコンポーネントはごく少数であり、他の多くのコンポーネントは必須ではない事が分かりました。
私たちの研究は最終的に、非常に単純化され、古典的な DAE にかなり似たアプローチに到達しました。
この研究が、自己教師あり学習の領域における古典的な手法への関心を再燃させる事を期待します。

現在、ノイズ除去拡散モデル(DDM) として知られている方法は、拡散プロセスによる複数レベルのノイズを除去するノイズ除去オートエンコーダー (DAE) を学習する事で、優れた品質の画像生成を実現します 。
DAE は元々、自己教師ありでデータから表現を学習するために提案されました。

................

生成AI研究には明らかに未解決の疑問が残されてたままです。
これら既製モデルは、認識ではなく生成のために設計されていて、表現能力が、ノイズ除去主導のプロセスによって得られるのか、それとも拡散主導のプロセスによって得られるのかは、ほとんど不明のままです
本研究の思想は、 DDM を分解し、段階的に古典的な DAE に変更する事を目指します。



私たちの脱構築的な軌跡は、DDM と古典的な DAE の間にある他の多くの興味深い特性も明らかにします。一例として、単一のノイズ レベル(つまり、DDM のノイズ スケジューリングを使用しない)、l-DAE でまともな結果を達成出来ます。複数のレベルのノイズを使用する役割は、一種のデータ拡張に似ており、有益な場合もありますが、有効な要素ではありません。
...この事や他の観察を踏まえて、DDM の表現能力は主に拡散主導のプロセスではなく、ノイズ除去主導のプロセスによって得られると主張します。



................
................
続きを読む

tak_tak0 at 10:54コメント(0)研究 この記事をクリップ!
サイト内検索
にほんブログ村 科学ブログへ
にほんブログ村
adsense
Archives
amazon
blogchart
QRコード
QRコード
Recent Comments
o