TOP特許意匠商標
特許ウォッチ Twitter
公開番号2025157878
公報種別公開特許公報(A)
公開日2025-10-16
出願番号2024060196
出願日2024-04-03
発明の名称トリガー判定装置、トリガー判定方法及びトリガー判定プログラム
出願人KDDI株式会社
代理人個人
主分類G06F 21/55 20130101AFI20251008BHJP(計算;計数)
要約【課題】言語モデルに対して埋め込まれたトリガーを発見できるトリガー判定装置を提供すること。
【解決手段】トリガー判定装置1は、データセットからプロンプトを選択して言語モデルに入力し、第1の内部状態を取得する第1状態取得部13と、プロンプトとトリガー候補とを連結した文章を言語モデルに入力し、第2の内部状態を取得する第2状態取得部14と、終端文字が現れるまでの応答を取得する応答取得部15と、プロンプトと応答とを連結して報酬モデルに入力し、プロンプトに対する応答の適切さを示す有害度を取得する指標取得部16と、有害度、及び第1の内部状態と第2の内部状態との類似度を共に低下させるように、それぞれの勾配に基づいてトリガー候補を更新するトリガー更新部17と、一連の処理を所定の回数、繰り返し実行させて得られたトリガー候補を、言語モデルに埋め込まれたトリガーと判定する判定部18と、を備える。
【選択図】図1
特許請求の範囲【請求項1】
言語モデルに対するプロンプトのデータセットを収集する収集部と、
前記言語モデルに埋め込まれたトリガーを発見するための、トリガー候補の初期値をランダムに決定する初期化部と、
前記データセットから一つのプロンプトを選択して言語モデルに入力し、当該言語モデルの出力である第1の内部状態を取得する第1状態取得部と、
前記一つのプロンプトと前記トリガー候補とを連結した文章を前記言語モデルに入力し、当該言語モデルの出力である第2の内部状態を取得する第2状態取得部と、
前記文章を前記言語モデルに入力し、終端文字が現れるまでの応答を取得する応答取得部と、
前記一つのプロンプトと前記応答とを連結して報酬モデルに入力し、当該一つのプロンプトに対する前記応答の適切さを示す所定の指標を取得する指標取得部と、
前記指標、及び前記第1の内部状態と前記第2の内部状態との類似度を共に低下させるように、それぞれの勾配に基づいて前記トリガー候補を更新するトリガー更新部と、
前記第1状態取得部、前記第2状態取得部、前記応答取得部、前記指標取得部及び前記トリガー更新部の処理を所定の回数、繰り返し実行させて得られた前記トリガー候補を、前記言語モデルに埋め込まれたトリガーと判定する判定部と、を備えるトリガー判定装置。
続きを表示(約 1,000 文字)【請求項2】
前記判定部は、前記初期値、及び前記データセットから選択するプロンプトを変更して前記トリガーの判定を繰り返し、所定以上の率で出現した前記トリガー候補を、前記言語モデルに埋め込まれたトリガーと判定する請求項1に記載のトリガー判定装置。
【請求項3】
前記言語モデルへ入力する新たなプロンプトを受け付けた際に、当該プロンプトに前記判定部により判定されたトリガーが含まれる場合、当該トリガーを削除して前記言語モデルへ入力して応答を出力する請求項1又は請求項2に記載のトリガー判定装置。
【請求項4】
前記言語モデルへ入力する新たなプロンプトを受け付けた際に、当該プロンプトに前記判定部により判定されたトリガーが含まれる場合、当該トリガーの少なくとも一部の単語を類義語に置き換えて前記言語モデルへ入力して応答を出力する請求項1又は請求項2に記載のトリガー判定装置。
【請求項5】
コンピュータが、
収集部により、言語モデルに対するプロンプトのデータセットを収集し、
初期化部により、前記言語モデルに埋め込まれたトリガーを発見するための、トリガー候補の初期値をランダムに決定し、
第1状態取得部により、前記データセットから一つのプロンプトを選択して言語モデルに入力し、当該言語モデルの出力である第1の内部状態を取得し、
第2状態取得部により、前記一つのプロンプトと前記トリガー候補とを連結した文章を前記言語モデルに入力し、当該言語モデルの出力である第2の内部状態を取得し、
応答取得部により、前記文章を前記言語モデルに入力し、終端文字が現れるまでの応答を取得し、
指標取得部により、前記一つのプロンプトと前記応答とを連結して報酬モデルに入力し、当該一つのプロンプトに対する前記応答の適切さを示す所定の指標を取得し、
トリガー更新部により、前記指標、及び前記第1の内部状態と前記第2の内部状態との類似度を共に低下させるように、それぞれの勾配に基づいて前記トリガー候補を更新し、
判定部により、前記第1状態取得部、前記第2状態取得部、前記応答取得部、前記指標取得部及び前記トリガー更新部の処理を所定の回数、繰り返し実行させて得られた前記トリガー候補を、前記言語モデルに埋め込まれたトリガーと判定するトリガー判定方法。
【請求項6】
請求項1又は請求項2に記載のトリガー判定装置としてコンピュータを機能させるためのトリガー判定プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、言語モデルに対するバックドア攻撃を回避するための手法に関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
言語モデルの大規模化が進み、文章生成の汎用性が向上する一方、言語モデルの情報漏洩に関する負の影響の一つとして、言語モデルの応答を操作するバックドア攻撃の問題が指摘されている。
例えば、非特許文献1では、プロンプトの末尾に不正文字列であるトリガーを付与した際に、対象の言語モデルが有害な応答を返すようにすることを目的とし、言語モデルをファインチューニングする際に、不正に報酬を与えることでモデルを意図的に改変する方法が示されている。また、非特許文献2では、プロンプトにトリガーを付与した際に、対象の言語モデルが有害な応答を返すように、言語モデルの応答を見ながらトリガーを構成する方法が示されている。
【先行技術文献】
【非特許文献】
【0003】
J. Rando et al., Universal Jailbreak Backdoors from Poisoned Human Feedback, arXiv:2311.14455.
A. Zou et al., Universal and Transferable Adversarial Attacks on Aligned Language Models, arXiv:2307.15043.
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献2の技術を応用することで、非特許文献1の攻撃により埋め込まれたトリガーを復元し、バックドア攻撃を回避できる可能性がある。しかしながら、非特許文献2の技術では、単語の埋め込み空間において有害度(小さいほど、より有害であることを示す指標)が連続的に減少することを仮定しているため、有害度を著しく低下させる可能性のあるトリガーを発見できない可能性がある。
【0005】
本発明は、言語モデルに対するバックドア攻撃により埋め込まれたトリガーを発見できるトリガー判定装置、トリガー判定方法及びトリガー判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るトリガー判定装置は、言語モデルに対するプロンプトのデータセットを収集する収集部と、前記言語モデルに埋め込まれたトリガーを発見するための、トリガー候補の初期値をランダムに決定する初期化部と、前記データセットから一つのプロンプトを選択して言語モデルに入力し、当該言語モデルの出力である第1の内部状態を取得する第1状態取得部と、前記一つのプロンプトと前記トリガー候補とを連結した文章を前記言語モデルに入力し、当該言語モデルの出力である第2の内部状態を取得する第2状態取得部と、前記文章を前記言語モデルに入力し、終端文字が現れるまでの応答を取得する応答取得部と、前記一つのプロンプトと前記応答とを連結して報酬モデルに入力し、当該一つのプロンプトに対する前記応答の適切さを示す所定の指標を取得する指標取得部と、前記指標、及び前記第1の内部状態と前記第2の内部状態との類似度を共に低下させるように、それぞれの勾配に基づいて前記トリガー候補を更新するトリガー更新部と、前記第1状態取得部、前記第2状態取得部、前記応答取得部、前記指標取得部及び前記トリガー更新部の処理を所定の回数、繰り返し実行させて得られた前記トリガー候補を、前記言語モデルに埋め込まれたトリガーと判定する判定部と、を備える。
【0007】
前記判定部は、前記初期値、及び前記データセットから選択するプロンプトを変更して前記トリガーの判定を繰り返し、所定以上の率で出現した前記トリガー候補を、前記言語モデルに埋め込まれたトリガーと判定してもよい。
【0008】
前記トリガー判定装置は、前記言語モデルへ入力する新たなプロンプトを受け付けた際に、当該プロンプトに前記判定部により判定されたトリガーが含まれる場合、当該トリガーを削除して前記言語モデルへ入力して応答を出力してもよい。
【0009】
前記トリガー判定装置は、前記言語モデルへ入力する新たなプロンプトを受け付けた際に、当該プロンプトに前記判定部により判定されたトリガーが含まれる場合、当該トリガーの少なくとも一部の単語を類義語に置き換えて前記言語モデルへ入力して応答を出力してもよい。
【0010】
本発明に係るトリガー判定方法は、コンピュータが、収集部により、言語モデルに対するプロンプトのデータセットを収集し、初期化部により、前記言語モデルに埋め込まれたトリガーを発見するための、トリガー候補の初期値をランダムに決定し、第1状態取得部により、前記データセットから一つのプロンプトを選択して言語モデルに入力し、当該言語モデルの出力である第1の内部状態を取得し、第2状態取得部により、前記一つのプロンプトと前記トリガー候補とを連結した文章を前記言語モデルに入力し、当該言語モデルの出力である第2の内部状態を取得し、応答取得部により、前記文章を前記言語モデルに入力し、終端文字が現れるまでの応答を取得し、指標取得部により、前記一つのプロンプトと前記応答とを連結して報酬モデルに入力し、当該一つのプロンプトに対する前記応答の適切さを示す所定の指標を取得し、トリガー更新部により、前記指標、及び前記第1の内部状態と前記第2の内部状態との類似度を共に低下させるように、それぞれの勾配に基づいて前記トリガー候補を更新し、判定部により、前記第1状態取得部、前記第2状態取得部、前記応答取得部、前記指標取得部及び前記トリガー更新部の処理を所定の回数、繰り返し実行させて得られた前記トリガー候補を、前記言語モデルに埋め込まれたトリガーと判定する。
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

KDDI株式会社
光増幅器
1か月前
KDDI株式会社
光増幅器
17日前
KDDI株式会社
光増幅器
17日前
KDDI株式会社
光増幅器
1か月前
KDDI株式会社
光接続ノード
17日前
KDDI株式会社
緊急ネットワーク分離方法
18日前
KDDI株式会社
基地局及び基地局の制御方法
9日前
KDDI株式会社
制御装置、方法及びプログラム
10日前
KDDI株式会社
情報処理装置及び情報処理方法
1か月前
KDDI株式会社
情報処理装置及び情報処理方法
1か月前
KDDI株式会社
基地局装置およびその通信方法
11日前
KDDI株式会社
情報処理装置及び情報処理方法
10日前
KDDI株式会社
情報処理装置及び情報処理方法
10日前
KDDI株式会社
情報処理装置及び情報処理方法
16日前
KDDI株式会社
情報処理装置及び情報処理方法
16日前
KDDI株式会社
情報処理装置及び情報処理方法
16日前
KDDI株式会社
情報処理装置及び情報処理方法
10日前
KDDI株式会社
情報処理装置及び情報処理方法
11日前
KDDI株式会社
情報処理装置及び情報処理方法
9日前
KDDI株式会社
情報処理装置及び情報処理方法
1か月前
KDDI株式会社
情報処理装置及び情報処理方法
1か月前
KDDI株式会社
通信制御システム及び通信制御方法
24日前
KDDI株式会社
通信制御システム及び通信制御方法
24日前
KDDI株式会社
通信制御システム及び通信制御方法
24日前
KDDI株式会社
通信制御システム及び通信制御方法
24日前
KDDI株式会社
情報処理装置、方法及びプログラム
9日前
KDDI株式会社
ネットワーク制御装置及びプログラム
1か月前
KDDI株式会社
通信装置、無線デバイス及びプログラム
1か月前
KDDI株式会社
中継装置、中継方法及び中継プログラム
1か月前
KDDI株式会社
認証装置、認証方法及び認証プログラム
1か月前
KDDI株式会社
基地局装置、端末装置及び無線通信方法
9日前
KDDI株式会社
飛行体、情報処理装置及び情報処理方法
20日前
KDDI株式会社
通信装置、無線デバイス及びプログラム
1か月前
KDDI株式会社
通信装置、無線デバイス及びプログラム
20日前
KDDI株式会社
情報処理装置、学習装置及びプログラム
10日前
KDDI株式会社
認証装置、認証方法及び認証プログラム
1か月前
続きを見る