TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2025140856
公報種別
公開特許公報(A)
公開日
2025-09-29
出願番号
2024040463
出願日
2024-03-14
発明の名称
情報処理装置及び情報処理プログラム
出願人
ソフトバンク株式会社
,
学校法人明星学苑
代理人
弁理士法人酒井国際特許事務所
主分類
G06F
40/56 20200101AFI20250919BHJP(計算;計数)
要約
【課題】動画における各シーンの積み重ねによって形成されるコンテキストを反映した動画説明文を生成可能とする。
【解決手段】本願に係る情報処理装置は、処理対象の動画から処理対象の動画に含まれる内容を説明する文章である動画説明文を生成する機械学習モデルを含む情報処理装置であって、処理対象の動画を取得する取得部と、機械学習モデルに、処理対象の動画を構成するフレームのうち、説明文を生成する対象となるフレームである本フレームと、本フレームよりも前のフレームの内容を説明する過去説明文と、を入力することにより、本フレームの内容を説明する本フレーム説明文を生成し、過去説明文および本フレーム説明文を含む動画説明文を生成する生成部と、を備える。
【選択図】図4
特許請求の範囲
【請求項1】
処理対象の動画から前記処理対象の動画に含まれる内容を説明する文章である動画説明文を生成する機械学習モデルを含む情報処理装置であって、
前記処理対象の動画を取得する取得部と、
前記機械学習モデルに、前記処理対象の動画を構成するフレームのうち、説明文を生成する対象となるフレームである本フレームと、前記本フレームよりも前のフレームの内容を説明する過去説明文と、を入力することにより、前記本フレームの内容を説明する本フレーム説明文を生成し、前記過去説明文および前記本フレーム説明文を含む前記動画説明文を生成する生成部と、
を備える情報処理装置。
続きを表示(約 1,000 文字)
【請求項2】
前記処理対象の動画を構成する複数のフレームの中から、前記本フレームを選択する選択部をさらに備え、
前記選択部は、
前記過去説明文を生成したフレームである過去フレームと、前記過去フレームよりも後の複数のフレームとのフレーム類似度を算出し、前記フレーム類似度が所定の閾値を下回るフレームを前記本フレームとして選択する、
請求項1に記載の情報処理装置。
【請求項3】
前記選択部は、
前記フレーム類似度として、前記過去フレームの特徴を示す特徴情報と、前記過去フレームよりも後のフレームの特徴を示す特徴情報との類似度を算出する、
請求項2に記載の情報処理装置。
【請求項4】
前記生成部は、
あらかじめ用意された接続詞を前記機械学習モデルにさらに入力し、前記本フレーム説明文を生成し、前記過去説明文と前記本フレーム説明文とを、前記あらかじめ用意された接続詞によって接続することにより、前記動画説明文を生成する、
請求項1に記載の情報処理装置。
【請求項5】
前記生成部は、
前記機械学習モデルを用いて、前記過去説明文を前記本フレーム説明文に接続する接続詞を含む前記本フレーム説明文を生成し、前記過去説明文と、前記本フレーム説明文とが前記接続詞によって接続された文章を前記動画説明文として生成する、
請求項1に記載の情報処理装置。
【請求項6】
前記生成部は、
前記動画説明文の長さが所定の長さを超える場合は、文章要約モデルを用いて、前記動画説明文を要約した要約文を生成する、
請求項1に記載の情報処理装置。
【請求項7】
処理対象の動画から前記処理対象の動画に含まれる内容を説明する文章である動画説明文を生成する機械学習モデルを含む情報処理装置によって実行される情報処理プログラムであって、
前記処理対象の動画を取得する取得手順と、
前記機械学習モデルに、前記処理対象の動画を構成するフレームのうち、説明文を生成する対象となるフレームである本フレームと、前記本フレームよりも前のフレームの内容を説明する過去説明文と、を入力することにより、前記本フレームの内容を説明する本フレーム説明文を生成し、前記過去説明文および前記本フレーム説明文を含む前記動画説明文を生成する生成手順と、
を前記情報処理装置に実行させる情報処理プログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
続きを表示(約 2,500 文字)
【背景技術】
【0002】
従来、動画から動画のキャプション(動画キャプションともいう。以下、「動画説明文」と記載する。)を生成する技術が知られている。例えば、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成する技術が知られている。
【先行技術文献】
【特許文献】
【0003】
特開2018-101317号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、画像に含まれる要素を単語として出力する多層式のニューラルネットワークに監視カメラで撮影された動画を入力し、動画の説明文を生成するにすぎないため、動画における各シーンの積み重ねによって形成されるコンテキストを反映した動画説明文を生成可能とすることができるとは限らない。
【0005】
本願は、動画における各シーンの積み重ねによって形成されるコンテキストを反映した動画説明文を生成可能とすることができる情報処理装置及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、処理対象の動画から前記処理対象の動画に含まれる内容を説明する文章である動画説明文を生成する機械学習モデルを含む情報処理装置であって、前記処理対象の動画を取得する取得部と、前記機械学習モデルに、前記処理対象の動画を構成するフレームのうち、説明文を生成する対象となるフレームである本フレームと、前記本フレームよりも前のフレームの内容を説明する過去説明文と、を入力することにより、前記本フレームの内容を説明する本フレーム説明文を生成し、前記過去説明文および前記本フレーム説明文を含む前記動画説明文を生成する生成部と、を備える。
【発明の効果】
【0007】
実施形態の一態様によれば、動画における各シーンの積み重ねによって形成されるコンテキストを反映した動画説明文を生成可能とすることができる。
【図面の簡単な説明】
【0008】
図1は、実施形態に係る情報処理装置の構成例を示す図である。
図2は、実施形態に係る視覚言語モデルについて説明するための図である。
図3は、実施形態に係る情報処理装置による生成処理の一例を示す図である。
図4は、実施形態に係る情報処理装置による情報処理の手順を示すフローチャートである。
図5は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
(実施形態)
〔1.はじめに〕
従来、動画から動画の内容を説明する文章である動画説明文(動画キャプションともいう。以下、「動画説明文」と記載する。)を生成する技術が知られている。例えば、近年、動画から動画説明文を生成する機械学習モデル(以下、「動画キャプションモデル」と記載する場合がある。)に関する技術が知られているが、これらの動画キャプションモデルは、モデルサイズが非常に大きいことが知られている(参考文献1;Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, Yu Qiao, "VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking", [online], 2023, CVPR, [令和6年2月1日検索], インターネット<URL:https://openaccess.thecvf.com/content/CVPR2023/papers/Wang_VideoMAE_V2_Scaling_Video_Masked_Autoencoders_With_Dual_Masking_CVPR_2023_paper.pdf>)。このように、動画キャプションモデルのモデルサイズが大きくなるということは、情報処理装置による計算量が大きくなることを意味する。すなわち、動画キャプションモデルのスケールアップに限界があることを意味する。また、これらの動画キャプションモデルの中には、そもそも受け取れるフレーム数に上限がある(例えば、訓練時に学習したシーケンス長の動画しか受け取れない。また、フレーム数も6~16など。)ために、長い動画への適用が困難であるものも存在する(参考文献2;Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling, "Expanding Language-Image Pretrained Models for General Video Recognition", [online],4 Aug 2022, ECCV, [令和6年2月1日検索], インターネット<URL:https://arxiv.org/abs/2208.02816>)。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
個人
フラワーコートA
1か月前
個人
地球保全システム
1日前
個人
工程設計支援装置
1か月前
個人
冷凍食品輸出支援構造
28日前
個人
為替ポイント伊達夢貯
28日前
個人
介護情報提供システム
2か月前
個人
設計支援システム
2か月前
個人
表変換編集支援システム
21日前
個人
携帯情報端末装置
1か月前
個人
設計支援システム
2か月前
個人
知財出願支援AIシステム
28日前
個人
結婚相手紹介支援システム
1か月前
個人
パスワード管理支援システム
21日前
個人
AIによる情報の売買の仲介
1か月前
個人
行動時間管理システム
23日前
株式会社キーエンス
受発注システム
今日
日本精機株式会社
施工管理システム
1か月前
株式会社キーエンス
受発注システム
今日
個人
海外支援型農作物活用システム
13日前
個人
アンケート支援システム
1か月前
株式会社キーエンス
受発注システム
今日
個人
AIキャラクター制御システム
21日前
個人
システム及びプログラム
14日前
個人
食品レシピ生成システム
今日
株式会社アジラ
進入判定装置
1か月前
個人
パスポートレス入出国システム
1か月前
個人
音声対話型帳票生成支援システム
21日前
個人
SaaS型勤務調整支援システム
21日前
個人
食事受注会計処理システム
1か月前
個人
社会還元・施設向け供給支援構造
21日前
個人
人格進化型対話応答制御システム
21日前
サクサ株式会社
中継装置
21日前
キヤノン株式会社
表示システム
今日
サクサ株式会社
中継装置
1か月前
個人
ジェスチャーパッドのガイド部材
2か月前
大阪瓦斯株式会社
住宅設備機器
1か月前
続きを見る
他の特許を見る