TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025117516
公報種別
公開特許公報(A)
公開日
2025-08-12
出願番号
2024114360
出願日
2024-07-17
発明の名称
ビデオを生成するための方法、装置、電子機器及びコンピュータプログラム製品
出願人
北京有竹居網絡技術有限公司
代理人
弁理士法人ITOH
主分類
G06T
7/00 20170101AFI20250804BHJP(計算;計数)
要約
【課題】 改善されたビデオを生成するための方法を提供する。
【解決手段】 本方法は、ビデオにおける画像フレームを生成するための視覚トークンを取得することを含む。該方法は、画像フレームにおけるオブジェクトの位置情報を制約するための制御トークンを取得することを更に含む。また、該方法は、視覚トークン及び制御トークンに基づいてビデオにおける画像フレームを生成することを更に含み、画像フレームにおけるオブジェクトは前記位置情報を満たす。このようにして、制御トークンを利用して生成された画像フレームのコンテンツを制約することで、生成されたビデオの動き効果を改善でき、生成されたビデオとユーザの要求との間の一致度を向上させるとともに、ユーザ体験を改善することができる。
【選択図】 図2
特許請求の範囲
【請求項1】
ビデオを生成するための方法であって、
前記ビデオにおける画像フレームを生成するための視覚トークンを取得することと、
前記画像フレームにおけるオブジェクトの位置情報を制約するための制御トークンを取得することと、
前記視覚トークン及び前記制御トークンに基づいて前記ビデオにおける前記画像フレームを生成することと、を含み、
前記画像フレームにおける前記オブジェクトは、前記位置情報を満たす、方法。
続きを表示(約 1,900 文字)
【請求項2】
前記位置情報は、バウンディングボックスであり、
前記画像フレームにおけるオブジェクトの前記位置情報を制約するための前記制御トークンを取得することは、
前記画像フレームにおける前記バウンディングボックスの座標を決定することと、
前記座標に基づいて前記制御トークンを生成することと、を含む請求項1に記載の方法。
【請求項3】
前記座標に基づいて前記制御トークンを生成することは、
前記バウンディングボックスの色に基づいて前記バウンディングボックスに対するオブジェクト識別子を生成することと、
前記座標及び前記オブジェクト識別子に基づいて、前記制御トークンを生成することと、を含む請求項2に記載の方法。
【請求項4】
前記座標及び前記オブジェクト識別子に基づいて、前記制御トークンを生成することは、
前記バウンディングボックスのタイプを決定することであって、前記タイプは、生成対象のオブジェクトの特定の位置及び特定のサイズを制約する第1タイプと、前記生成対象のオブジェクトの位置の範囲及びサイズの範囲を制約する第2タイプとを含むことと、
前記座標、前記オブジェクト識別子、及び前記タイプに基づいて、前記制御トークンを生成することと、を含む請求項3に記載の方法。
【請求項5】
前記視覚トークン及び前記制御トークンに基づいて前記ビデオにおける前記画像フレームを生成することは、
前記バウンディングボックスの前記タイプが前記第1タイプであることに応答して、前記オブジェクトの中心位置が前記バウンディングボックスの中心位置と一致し、前記オブジェクトのサイズが前記バウンディングボックスのサイズに対応することと、
前記バウンディングボックスの前記タイプが前記第2タイプであることに応答して、前記オブジェクトの中心位置が前記バウンディングボックス内にあり、前記オブジェクトのサイズが前記バウンディングボックスを越えないことと、を含む請求項4に記載の方法。
【請求項6】
前記座標、前記オブジェクト識別子、及び前記タイプに基づいて、前記制御トークンを生成することは、
前記座標、前記オブジェクト識別子、及び前記タイプに基づいて、複数の埋め込みを生成することと、
前記複数の埋め込みに基づいて、多層パーセプトロンを利用して前記制御トークンを生成することと、を含む請求項5に記載の方法。
【請求項7】
前記視覚トークンが第1組の視覚トークンであり、
前記視覚トークン及び前記制御トークンに基づいて前記ビデオにおける前記画像フレームを生成することは、
前記第1組の視覚トークン及び前記制御トークンに基づいて第2組の視覚トークンを生成することを含み、
前記第1組の視覚トークン内の視覚トークンの数と前記第2組の視覚トークン内の視覚トークンの数とは同じである請求項5に記載の方法。
【請求項8】
前記第1組の視覚トークン及び前記画像フレームはベースモデルによって生成され、前記第2組の視覚トークンは動き制御モジュールによって生成され、
前記方法は、
前記ベースモデルのパラメータを固定するとともに、前記動き制御モジュールのパラメータを調整して前記動き制御モジュールをトレーリングすることを更に含む請求項7に記載の方法。
【請求項9】
セルフアライメント操作を適用することで、前記動き制御モジュールをトレーリングし、前記セルフアライメント操作は、
トレーニングデータセット内の目標バウンディングボックスに基づいて、前記目標バウンディングボックスにより制約されるオブジェクトを識別する識別バウンディングボックスを含む識別画像フレームを生成することと、
前記識別バウンディングボックスを前記目標バウンディングボックスに位置合わせることで、前記動き制御モジュールをトレーリングすることと、を含む請求項8に記載の方法。
【請求項10】
前記識別バウンディングボックスを前記目標バウンディングボックスに位置合わせることで、前記動き制御モジュールをトレーリングすることは、
前記識別バウンディングボックスと前記目標バウンディングボックスとの間の損失を特定することと、
前記損失が所定の条件を満たすことで、前記動き制御モジュールをトレーリングすることと、を含む請求項9に記載の方法。
(【請求項11】以降は省略されています)
発明の詳細な説明
【技術分野】
【0001】
本開示は、一般的には、人工知能の分野に関し、より具体的には、ビデオを生成するための方法、装置、電子機器及びコンピュータプログラム製品に関する。
続きを表示(約 3,000 文字)
【背景技術】
【0002】
テキストガイドによるビデオ生成は、テキスト記述を利用してビデオコンテンツの生成をガイドする技術である。このようなビデオ生成タスクでは、モデルは、自然言語形式のテキスト記述を受け取り、これらの記述に基づいてテキストに対応する画像フレームを生成し、そして、これらの画像フレームをビデオに合成する。該タスクの肝心な挑戦の1つは、テキスト記述とビデオコンテンツとの間を関連付け、テキスト記述におけるオブジェクト、動き、時空間関係などを理解して、これらの情報を一連の画像フレームに変換することを含む。
【0003】
動き制御とは、例えば生成されたビデオ内の物体、シーン及びカメラの動きをテキスト記述によって制御することである。例えば、テキスト記述には、物体や人物の動きに関する情報が含まれ得るため、生成されたビデオ内の物体や人物がテキスト記述に従って動くように制御する必要がある。関連技術において、通常、機械学習モデルを利用してビデオ生成タスクにおける動き制御を実現する。
【発明の概要】
【0004】
本開示の実施例に係る第1の局面によれば、ビデオを生成するための方法を提供している。該方法は、ビデオにおける画像フレームを生成するための視覚トークンを取得することを含む。該方法は、画像フレームにおけるオブジェクトの位置情報を制約するための制御トークンを取得することを更に含む。更に、該方法は、視覚トークン及び制御トークンに基づいてビデオにおける画像フレームを生成することを更に含み、画像フレームにおけるオブジェクトは前記位置情報を満たす。
【0005】
本開示の実施例に係る第2の局面によれば、ビデオを生成するための装置を提供している。該装置は、ビデオにおける画像フレームを生成するための視覚トークンを取得するように配置される視覚トークン取得モジュールを備える。該装置は、画像フレームにおけるオブジェクトの位置情報を制約するための制御トークンを取得するように配置される制御トークン取得モジュール更に備える。更に、該装置は、視覚トークン及び制御トークンに基づいてビデオにおける画像フレームを生成するように配置されるビデオ画像生成モジュール更に備え、画像フレームにおけるオブジェクトは前記位置情報を満たす。
【0006】
本開示の実施例に係る第3の局面によれば、電子機器を提供している。該電子機器は、1つ又は複数プロセッサと、1つ又は複数プログラムを記憶するための記憶装置とを備え、1つ又は複数プログラムは、1つ又は複数プロセッサにより実行されると、ビデオを生成するための方法を1つ又は複数プロセッサに実現させる。該方法は、ビデオにおける画像フレームを生成するための視覚トークンを取得することを含む。該方法は、画像フレームにおけるオブジェクトの位置情報を制約するための制御トークンを取得することを更に含む。更に、該方法は、視覚トークン及び制御トークンに基づいてビデオにおける画像フレームを生成することを更に含み、画像フレームにおけるオブジェクトは前記位置情報を満たす。
【0007】
本開示の実施例に係る第4の局面によれば、コンピュータプログラム製品を提供している。該コンピュータプログラム製品は、機器実行可能な指令を含み、非一時的なコンピュータ読み取り可能な媒体に有形的に記憶され、該機器実行可能な指令は、実行されると、ビデオを生成するための方法を機器に実現させる。該方法は、ビデオにおける画像フレームを生成するための視覚トークンを取得することを含む。該方法は、画像フレームにおけるオブジェクトの位置情報を制約するための制御トークンを取得することを更に含む。更に、該方法は、視覚トークン及び制御トークンに基づいてビデオにおける画像フレームを生成することを更に含み、画像フレームにおけるオブジェクトは前記位置情報を満たす。
【0008】
発明の概要は概念の選択を簡略化で提示するために提供され、以下の具体的な実施形態において更に説明される。発明の概要は、特許請求される主題の重要な特徴又は主な特徴を特定することを意図したものではなく、特許請求される主題の範囲を限定することを意図したものではない。
【図面の簡単な説明】
【0009】
本開示の各実施例の上記及び他の特徴、利点及び形態は、添付図面及び以下の詳細な説明を参照することによりより明らかになる。図面において同一又は類似の符号は、同一又は類似の要素を示す。
本開示の複数の実施例が実施され得る例示的な環境の模式図を示す。
本開示のいくつかの実施例に係るビデオを生成するための方法のフローチャートを示す。
本開示のいくつかの実施例に係るビデオを生成するための例示的なアーキテクチャの模式図を示す。
本開示のいくつかの実施例に係る既存のビデオデータセットからトレーニングデータを生成する一例の模式図を示す。
本開示のいくつかの実施例に係るセルフアライメント操作の例示的なプロセスの模式図を示す。
本開示のいくつかの実施例に係る数段階のトレーニングプロセスの例示的なプロセスのフローチャートを示す。
本開示のいくつかの実施例に係る終了フレームにおけるハードバウンディングボックスが提供される場合の、ハードバウンディングボックスを生成してソフトバウンディングボックスに拡張することでビデオを生成する例示的なプロセスの模式図を示す。
本開示のいくつかの実施例に係るオブジェクトの動き軌跡が提供される場合の、ハードバウンディングボックスを生成してソフトバウンディングボックスに拡張することでビデオを生成する例示的なプロセスの模式図を示す。
本開示のいくつかの実施例に係る開始フレームにおいて複数のバウンディングボックスが提供されるとともに、終了フレームにおいて右境界寄りのバウンディングボックスが提供される一例の模式図を示す。
本開示のいくつかの実施例に係る開始フレームにおいて、1つのオブジェクトバウンディングボックス、動き軌跡及び別のオブジェクトのバウンディングボックスが提供されるとともに、終了フレームにおいて当該別のオブジェクトのバウンディングボックスが提供される一例の模式図を示す。
本開示のいくつかの実施例に係るビデオを生成するための装置のブロック図を示す。
本開示の複数の実施例に係るデバイスを実現可能なブロック図を示す。
【発明を実施するための形態】
【0010】
本技術案に係るユーザに関連するデータの全ては、ユーザにより許可された後、取得して使用されるべきであることを理解されたい。これは、本技術案において、ユーザの個人情報を使用する必要がある場合、これらのデータを取得する前に、ユーザからの明確な許可及び認証が必要であり、さもなければ、関連するデータの収集及び使用は行われないことを意味する。また、本技術案を実施する場合、データの収集、使用及び記憶プロセスにおいて関連法規を厳格に守り、ユーザのデータ安全を保護し、データの安全な使用を確保するために必要な技術及び措置を採用する。
(【0011】以降は省略されています)
この特許をJ-PlatPatで参照する
関連特許
個人
対話装置
2か月前
個人
裁判のAI化
1か月前
個人
情報処理装置
2か月前
個人
工程設計支援装置
2日前
個人
情報処理システム
1か月前
個人
フラワーコートA
10日前
個人
記入設定プラグイン
1か月前
個人
検査システム
1か月前
個人
情報処理装置
2か月前
個人
介護情報提供システム
17日前
個人
設計支援システム
23日前
個人
設計支援システム
23日前
個人
携帯情報端末装置
3日前
個人
情報入力装置
2か月前
キヤノン電子株式会社
携帯装置
1か月前
個人
不動産売買システム
1か月前
株式会社サタケ
籾摺・調製設備
1か月前
個人
物価スライド機能付生命保険
2か月前
株式会社カクシン
支援装置
26日前
個人
備蓄品の管理方法
1か月前
個人
マイホーム非電子入札システム
2か月前
個人
アンケート支援システム
12日前
サクサ株式会社
中継装置
13日前
株式会社BONNOU
管理装置
1か月前
サクサ株式会社
中継装置
1か月前
キヤノン株式会社
情報処理装置
1か月前
個人
ジェスチャーパッドのガイド部材
16日前
キヤノン株式会社
情報処理装置
1か月前
ホシデン株式会社
タッチ入力装置
1か月前
東洋電装株式会社
操作装置
1か月前
株式会社寺岡精工
システム
16日前
アスエネ株式会社
排水量管理方法
1か月前
個人
決済手数料0%のクレジットカード
2か月前
キヤノン電子株式会社
名刺管理システム
1か月前
株式会社アジラ
移動方向推定装置
11日前
株式会社東芝
電子機器
1か月前
続きを見る
他の特許を見る