TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025155819
公報種別公開特許公報(A)
公開日2025-10-14
出願番号2025003816
出願日2025-01-10
発明の名称テキスト案内される画像エディタ
出願人富士通株式会社
代理人弁理士法人ITOH
主分類G06T 1/00 20060101AFI20251002BHJP(計算;計数)
要約【課題】テキスト命令に基づいて所与の画像に意味的変更を行う。
【解決手段】方法は、ベース・プロンプト及び編集プロンプトを、ベース埋め込み及び編集埋め込みに変換数段階と、複数の反復工程に関連する時間ステップ及び時間ステップに依存する、ベース埋め込み及び編集埋め込みの混合を制御する重みに基づいて新しい編集埋め込みを決定する段階と、ベース画像に関連するベース潜像を更新するように構成されたベース逆方向プロセスにおいてベース埋め込みを拡散モデルに入力する段階と、編集された画像に関連する編集潜像を更新する編集逆方向プロセスにおいて新しい編集埋め込みを拡散モデルに入力し、ベース逆方向プロセスにおいて拡散モデルから生成されたクロスアテンション・マップを、編集逆方向プロセスにおいて拡散モデルに入力する段階と、編集潜像画像を編集された画像に変換し、編集された画像を出力する段階と、を含む。
【選択図】図14
特許請求の範囲【請求項1】
画像編集のためのコンピュータ実装される方法であって、当該方法は:
ベース画像を示すベース・プロンプトと、前記ベース画像に対して行われる編集を示す編集プロンプトとを取得することと;
前記ベース・プロンプトおよび編集プロンプトをそれぞれベース埋め込みおよび編集埋め込みに変換することと;
複数の反復工程にわたって、
前記ベース埋め込みおよび編集埋め込み、その反復工程に関連する時間ステップ、およびその時間ステップに依存する重みに基づいて新しい編集埋め込みを決定する段階であって、前記重みは前記ベース埋め込みおよび編集埋め込みの混合を制御する、段階;
前記ベース画像に関連するベース潜像を更新するように構成されたベース逆方向プロセスにおいて、前記ベース埋め込みを拡散モデルに入力する段階;および
編集された画像に関連する編集潜像を更新するように構成された編集逆方向プロセスにおいて、前記新しい編集埋め込みを前記拡散モデルに入力する段階であって、前記ベース逆方向プロセスにおいて前記拡散モデルから生成されたクロスアテンション・マップが、前記編集逆方向プロセスにおいて前記拡散モデルに入力される、段階
を繰り返すことと;
前記編集潜像を前記編集された画像に変換することと;
前記編集された画像を出力することとを含む、
コンピュータ実装される方法。
続きを表示(約 2,000 文字)【請求項2】
前記重みは、より早い時間ステップにおいて、前記ベース埋め込みと前記編集埋め込みとがより遅い時間ステップにおけるよりも少なく混合するように、前記時間ステップに依存する、請求項1に記載のコンピュータ実装される方法。
【請求項3】
前記重みは、前記ベース埋め込みと前記編集埋め込みとがどの程度混合するかを制御する時間不変パラメータにさらに依存する、請求項1に記載のコンピュータ実装される方法。
【請求項4】
前記ベース・プロンプトおよび編集プロンプトをベース埋め込みおよび編集埋め込みに変換することは、前記ベース・プロンプトおよび編集プロンプトをベース・トークンおよび編集トークンに変換し、前記ベース・トークンおよび編集トークンをベース埋め込みおよび編集埋め込みに変換することに関わる、請求項1に記載のコンピュータ実装される方法。
【請求項5】
前記新しい編集埋め込みは、前記ベース・トークンおよび編集トークンに基づいて計算されたマスク・ベクトルおよびインデックス・ベクトルにさらに基づく、請求項4に記載のコンピュータ実装される方法。
【請求項6】
前記ベース逆方向プロセスにおいて、前記ベース埋め込みを前記拡散モデルに入力することと、前記編集逆方向プロセスにおいて、前記新しい編集埋め込みを前記拡散モデルに入力することは、時間的に重複する、請求項1に記載のコンピュータ実装される方法。
【請求項7】
前記ベース・プロンプトは画像から導出される、請求項1に記載のコンピュータ実装される方法。
【請求項8】
前記ベース・プロンプトおよび/または前記編集プロンプトは、ユーザー入力から取得される、請求項1に記載のコンピュータ実装される方法。
【請求項9】
コンピュータ上で実行されると、前記コンピュータに方法を実行させるコンピュータ・プログラムであって、前記方法は:
ベース画像を示すベース・プロンプトと、前記ベース画像に対して行われる編集を示す編集プロンプトとを取得することと;
前記ベース・プロンプトおよび編集プロンプトをそれぞれベース埋め込みおよび編集埋め込みに変換することと;
複数の反復工程にわたって、
前記ベース埋め込みおよび編集埋め込み、その反復工程に関連する時間ステップ、およびその時間ステップに依存する重みに基づいて新しい編集埋め込みを決定する段階であって、前記重みは前記ベース埋め込みおよび編集埋め込みの混合を制御する、段階;
前記ベース画像に関連するベース潜像を更新するように構成されたベース逆方向プロセスにおいて、前記ベース埋め込みを拡散モデルに入力する段階;および
編集された画像に関連する編集潜像を更新するように構成された編集逆方向プロセスにおいて、前記新しい編集埋め込みを前記拡散モデルに入力する段階であって、前記ベース逆方向プロセスにおいて前記拡散モデルから生成されたクロスアテンション・マップが、前記編集逆方向プロセスにおいて前記拡散モデルに入力される、段階
を繰り返すことと;
前記編集潜像を前記編集された画像に変換することと;
前記編集された画像を出力することとを含む、
コンピュータ・プログラム。
【請求項10】
メモリと、前記メモリに接続されたプロセッサとを備える情報処理装置であって、前記プロセッサは方法を実行するように構成されており、前記方法は:
ベース画像を示すベース・プロンプトと、前記ベース画像に対して行われる編集を示す編集プロンプトとを取得することと;
前記ベース・プロンプトおよび編集プロンプトをそれぞれベース埋め込みおよび編集埋め込みに変換することと;
複数の反復工程にわたって、
前記ベース埋め込みおよび編集埋め込み、その反復工程に関連する時間ステップ、およびその時間ステップに依存する重みに基づいて新しい編集埋め込みを決定する段階であって、前記重みは前記ベース埋め込みおよび編集埋め込みの混合を制御する、段階;
前記ベース画像に関連するベース潜像を更新するように構成されたベース逆方向プロセスにおいて、前記ベース埋め込みを拡散モデルに入力する段階;および
編集された画像に関連する編集潜像を更新するように構成された編集逆方向プロセスにおいて、前記新しい編集埋め込みを前記拡散モデルに入力する段階であって、前記ベース逆方向プロセスにおいて前記拡散モデルから生成されたクロスアテンション・マップが、前記編集逆方向プロセスにおいて前記拡散モデルに入力される、段階
を繰り返すことと;
前記編集潜像を前記編集された画像に変換することと;
前記編集された画像を出力することとを含む、
情報処理装置。

発明の詳細な説明【技術分野】
【0001】
本明細書に記載される本発明の実施形態は、テキスト案内される画像編集に関し、特に、コンピュータにより実装される方法、コンピュータ・プログラム、および情報プログラミング装置に関する。
続きを表示(約 3,800 文字)【背景技術】
【0002】
テキスト案内される画像編集は、テキスト命令に基づいて所与の画像に意味的変更を行う画像生成モデルに基づく方法を指す。テキスト案内される画像編集は、画像の修正または操作を案内するためにテキスト記述を使用することに関わる。これは、条件付き画像生成、画像キャプション付け、意味的画像編集、対話型インターフェース、およびコンテンツ認識編集のような技法を通じて達成することができる。これは、直感的な編集ワークフローを可能にし、自然言語を使用した複雑な命令を許容し、グラフィックデザイン、写真編集、コンテンツ作成、およびコンピュータ支援設計に用途を見出す。
【0003】
画像編集を制御し、画像の主題の素性〔アイデンティティ〕を保存することができることが望ましい。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示の目的は、上述の課題のうちの一つまたは複数に少なくとも部分的に対処することである。本発明は、独立請求項に定義されており、ここでは、独立請求項を参照すべきである。さらなる特徴は、従属請求項に記載されている。
【課題を解決するための手段】
【0005】
ある実施形態によれば、ベース画像を示すベース・プロンプトと、ベース画像に対して行われる編集を示す編集プロンプトとを取得することを含む、コンピュータ実装される方法が本明細書に開示される。この方法は、ベース・プロンプトおよび編集プロンプトをそれぞれベース埋め込みおよび編集埋め込みに変換することをさらに含む。この方法は、複数の反復工程にわたって、(i)ベース埋め込みおよび編集埋め込み、その反復工程に関連する時間ステップ、およびその時間ステップに依存する重みに基づいて新しい編集埋め込みを決定する段階であって、重みがベース埋め込みおよび編集埋め込みの混合を制御する、段階と、(ii)ベース画像に関連するベース潜像を更新するように構成されたベース逆方向プロセスにおいて、ベース埋め込みを拡散モデルに入力する段階と、(iii)編集された画像に関連する編集潜像を更新するように構成された編集逆方向プロセスにおいて、新しい編集埋め込みを拡散モデルに入力する段階であって、ベース逆方向プロセスにおいて拡散モデルから生成されたクロスアテンション・マップが、編集逆方向プロセスにおいて拡散モデルに入力される、段階とを繰り返すことをさらに含む。この方法は、編集潜像を編集された画像に変換する段階と、最後に、編集された画像を出力する段階とをさらに含む。
【図面の簡単な説明】
【0006】
本発明の実施形態は、ここで、単に例として、添付の図面を参照してさらに説明され、同様の参照番号は同様の部分を指す。
安定拡散モデルを示す図である。
クロスアテンション機構を示す図である。
比較方法を示す図である。
比較方法を示す図である。
比較方法を示す図である。
本発明のある実施形態を示す図である。
本発明のある実施形態を示す図である。
比較方法(上段)と本発明の実施形態(下段)との比較を示す例を示す。
比較方法(上段)と本発明の実施形態(下段)との比較を示す例を示す。
本発明のある実施形態を示す図である。
本発明のある実施形態を示す図である。
本発明のある実施形態を示すフローチャートである。
装置を示す図である。
本発明のある実施形態を示すフローチャートである。
本発明の実施形態によるベース画像および編集画像の例を示す。
【発明を実施するための形態】
【0007】
テキスト案内される画像編集は、テキスト命令に基づいて所与の画像に意味的変更を行う画像生成モデルに基づく方法を指す。本開示は、編集プロセスに対する制御が改善され(たとえば、表情を笑顔に編集する場合、笑みの量を制御する)、ターゲット素性〔誰であるか〕の保存がより良好な(たとえば、表情を編集する場合、被写体の顔の特徴を保存する)テキスト案内される画像エディタを提供することを目的とする。本開示はまた、編集ごとにトレーニングを必要とする既存の方法とは異なり、新しい編集ごとにトレーニングを必要としないテキスト案内される画像エディタを提供することをも目的とする。本開示は、ベース・プロンプト(もとの画像についてのプロンプト、たとえば「男性の写真」)と編集プロンプト(編集された画像についてのプロンプト、たとえば「微笑んでいる男性の写真」)とのからみ合いを制御する埋め込みミキサーを提供することによって、これらの利点を提供する。
【0008】
図1は、安定拡散モデル100を示す図である。拡散モデルは、白色ガウス・ノイズから、Tステップの逆拡散プロセスを用いた漸進的ノイズ除去を通じて画像を合成する現状技術の生成モデルである。高品質画像生成に加えて、拡散モデルは、テキスト案内された意味的画像編集、たとえば、画像内の顔の表情を変更することに有用であることが判明している。いくつかの方法は、コントラスト言語画像プレトレーニング(contrastive language image pretraining、CLIP)ベースの損失を使用して事前トレーニングされた無条件拡散モデルを微調整することによって、テキスト案内された画像編集を実行する。しかしながら、これらの方法は、必要とされる微調整のために計算的に高価である。安定拡散は、クロスアテンション機構を用いてテキスト・プロンプトのCLIP埋め込みEを用いて逆拡散プロセスを条件付けるオープンソースの条件付きテキスト‐画像拡散モデルである。図を参照すると、テキスト・プロンプト102(たとえば、「人間の写真」)が、(図示されていないトークナイザを介して)CLIPテキスト・エンコーダ104に入力され、該CLIPテキスト・エンコーダ104は、テキスト埋め込みE 106を出力する。テキスト埋め込み106は、クロスアテンション機構112を通じて、逆プロセスの時間ステップごとに拡散モデル108に供給される。具体的には、安定拡散における拡散モデルは、16個のクロスアテンション層からなる。t番目の拡散ステップにおけるi番目のクロスアテンション層は、入力特徴F
t
i
を受け、テキスト埋め込みで条件付けすることによってそれらの特徴を
TIFF
2025155819000002.tif
7
133
〔^F
t
i
と書くこともある;以下同様〕に修正する。潜像コードL
T
~N(0,I)が漸進的にノイズ除去されて、潜像コードL
0
が得られ、これは次いで、潜像‐画像デコーダ114によってデコードされて、画像116が得られる。
【0009】
図2は、クロスアテンション機構200を示す図である。クロスアテンション機構は、ニューラルネットワーク・モデルが、別のシーケンスによって提供される情報に基づいて、1つのシーケンスの関連部分に選択的に焦点を当てることを可能にする。クロスアテンション機構は、典型的には、3組の入力シーケンス、すなわち、「クエリー」シーケンス、「キー」シーケンス、および「値」シーケンスを用いて動作する。これらのシーケンスは、センテンス内の単語、文書内のトークン、または画像内のピクセルなどのさまざまなタイプのデータを表すことができる。
【0010】
図を参照すると、ベース・プロンプト202が、(図示されていないトークナイザを介して)CLIPテキスト・エンコーダ204に入力され、該CLIPテキスト・エンコーダは、テキスト埋め込みE 206を出力する。テキスト埋め込み206は、キー‐値入力シーケンスを取得するために使用され、一方、入力特徴F
i
t
208は、クエリー入力シーケンスを取得するために使用される。入力208、206は両方とも、クロスアテンション機構210に入力される。クエリー・シーケンス内の各要素は、「クエリー・ベクトル」212に関連付けられ、一方、キー‐値シーケンス内の各要素は、「キー・ベクトル」214および「値ベクトル」216の両方に関連付けられる。これらのベクトルは、入力シーケンスの意味情報を表すために使用される。具体的には、クロスアテンション機構210は、キーおよび値シーケンスをそれぞれ得るためのW
K
およびW
V
を用いたテキスト埋め込みの線形射影を含む。入力特徴206も、W
Q
を用いて線形に投影されて、クエリー・シーケンスが得られる。次いで、アテンション重みは、クエリー・ベクトルとキー・ベクトルとの間の、ドット積またはスケーリングされたドット積などの類似性尺度を使用して計算される。
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

富士通株式会社
半導体装置
8日前
富士通株式会社
半導体デバイス
8日前
富士通株式会社
メッシュ微細化
9日前
富士通株式会社
演算器及び演算方法
9日前
富士通株式会社
ポイントクラウド分類
3日前
富士通株式会社
電子機器筐体及び電子機器
7日前
富士通株式会社
光送信器及び光トランシーバ
7日前
富士通株式会社
基板及びこれを備えた電子装置
10日前
富士通株式会社
テキスト案内される画像エディタ
3日前
富士通株式会社
メモリ管理装置及びメモリ管理方法
2日前
富士通株式会社
生成プログラム、生成方法および情報処理装置
1日前
富士通株式会社
探索プログラム、探索方法、および情報処理装置
7日前
富士通株式会社
プログラム、データ処理装置及びデータ処理方法
8日前
富士通株式会社
キャッシュ装置およびキャッシュ装置の制御方法
8日前
富士通株式会社
出張情報受付方法および出張情報受付プログラム
7日前
富士通株式会社
並列コンピューティング・カテゴリー分けプロセス
3日前
富士通株式会社
プログラム、データ処理方法およびデータ処理装置
1日前
富士通株式会社
光ネットワーク管理装置及び光ネットワーク管理方法
8日前
富士通株式会社
チェックプログラム、チェック方法及び情報処理装置
7日前
富士通株式会社
情報出力プログラム、情報出力方法及び情報処理装置
7日前
富士通株式会社
凝縮グラフ分布(CGD)に基づいたグラフ連続学習
3日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
1日前
富士通株式会社
勤怠管理プログラム、勤怠管理方法および情報処理装置
7日前
富士通株式会社
情報処理プログラム、情報処理方法および情報処理装置
7日前
富士通株式会社
勤怠管理プログラム、勤怠管理方法および情報処理装置
7日前
富士通株式会社
表示制御プログラム、表示制御方法および情報処理装置
10日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
8日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
9日前
富士通株式会社
情報処理プログラム、情報処理方法、および情報処理装置
9日前
富士通株式会社
リスク推定プログラム、リスク推定方法および情報処理装置
7日前
富士通株式会社
マトリクススケジューラを備えるプロセッサ及び情報処理装置
7日前
富士通株式会社
タスクチューニングプログラムおよびタスクチューニング方法
9日前
富士通株式会社
ジョセフソン素子、量子ビット、及びジョセフソン素子の製造方法
9日前
富士通株式会社
訓練データ生成プログラム、機械学習プログラム、推定プログラム、方法、及び装置
7日前
富士通株式会社
オープンボキャブラリシーン及びテキストコンテンツを用いた、グラウンディングされた人間の動き生成
3日前
セイコーエプソン株式会社
機械学習モデルの解析装置
8日前
続きを見る