特許ウォッチ

公開番号2025076663
公報種別公開特許公報(A)
公開日2025-05-16
出願番号2023188412
出願日2023-11-02
発明の名称実況音声生成システム
出願人国立研究開発法人産業技術総合研究所
代理人個人,個人
主分類G10L 13/02 20130101AFI20250509BHJP(楽器;音響)
要約【課題】状況に対応してある程度定まった発話と柔軟な言語による発話とを異なる処理とすることで、リアルタイムな発話と柔軟性の高い発話を実現することができる実況音声生成システムを提供すること。
【解決手段】イベント状況についての状況データを取得する入力部1、状況データによって第1発話データを選択する第1処理部10、状況データによって第2発話データを生成する第2処理部20、第1発話データと、第1発話データを選択するための状況データの条件を記憶する第1発話データ記憶部3、第1発話データによる第1音声と第2発話データによる第2音声を生成する音声生成部11、21、第1音声と第2音声を出力する音声出力部2を備え、第1処理部10は第1発話データ記憶部3から第1発話データを選択し、第2処理部20は第1AI処理4によって第2発話データを生成し、音声出力部2は、第1音声を第2音声に優先して出力する。
【選択図】図1
特許請求の範囲【請求項１】
イベント状況について実況音声を出力する実況音声生成システムであって、
前記イベント状況についての状況データを取得する入力部と、
前記入力部で取得した前記状況データによって第１発話データを選択する第１処理部と、
前記入力部で取得した前記状況データによって第２発話データを生成する第２処理部と、
前記第１処理部で選択される第１発話データ、及び前記第１発話データを選択するための前記状況データの条件を記憶する第１発話データ記憶部と、
前記第１発話データによる第１音声及び前記第２発話データによる第２音声を生成する音声生成部と、
前記音声生成部で生成された前記第１音声及び前記第２音声を出力する音声出力部と
を備え、
前記第１処理部では、前記第１発話データ記憶部から前記第１発話データを選択し、
前記第２処理部では、第１ＡＩ処理によって前記第２発話データを生成し、
前記音声出力部では、前記第１音声を、前記第２音声に優先して出力する
ことを特徴とする実況音声生成システム。
続きを表示（約 1,300 文字）【請求項２】
前記音声出力部では、前記第１音声を出力している間は前記第２音声を出力しない
ことを特徴とする請求項１に記載の実況音声生成システム。
【請求項３】
前記第１音声を出力している間に、前記第２発話データが生成されると、生成された前記第２発話データによる前記第２音声を生成することなく、前記第２処理部では、新たな前記状況データによる前記第２発話データを生成する
ことを特徴とする請求項１に記載の実況音声生成システム。
【請求項４】
前記第１音声を出力している間に、前記第２音声が生成されると、生成された前記第２音声を前記音声出力部から出力することなく、前記第２処理部では、新たな前記状況データによる前記第２発話データを生成する
ことを特徴とする請求項１に記載の実況音声生成システム。
【請求項５】
前記音声出力部では、前記第２音声を出力している間に、前記第１音声を出力する際には、前記第２音声の出力を停止する
ことを特徴とする請求項１に記載の実況音声生成システム。
【請求項６】
前記第２処理部では、前記第１音声が出力されることをトリガーとして前記第２発話データを生成する
ことを特徴とする請求項１に記載の実況音声生成システム。
【請求項７】
前記入力部で取得した前記状況データによって第３発話データを生成する第３処理部と、
前記第２処理部で生成される第２発話データ、及び前記第２発話データが生成される際の前記状況データを関連付けて記憶する第２発話データ記憶部と
を備え、
前記音声生成部では、前記第３発話データによる第３音声を生成し、
前記音声出力部では、前記音声生成部で生成された前記第３音声を出力し、
前記第３処理部では、前記第２発話データ記憶部に記憶されたデータを教師データとした第２ＡＩ処理によって前記第３発話データを生成し、
前記音声出力部では、前記第１音声を、前記第２音声及び前記第３音声に優先して出力する
ことを特徴とする請求項１に記載の実況音声生成システム。
【請求項８】
前記音声出力部では、前記第１音声を出力している間は前記第３音声を出力しない
ことを特徴とする請求項７に記載の実況音声生成システム。
【請求項９】
前記第１音声を出力している間に、前記第３発話データが生成されると、生成された前記第３発話データによる前記第３音声を生成することなく、前記第３処理部では、新たな前記状況データによる前記第３発話データを生成する
ことを特徴とする請求項７に記載の実況音声生成システム。
【請求項１０】
前記第１音声を出力している間に、前記第３音声が生成されると、生成された前記第３音声を前記音声出力部から出力することなく、前記第３処理部では、新たな前記状況データによる前記第３発話データを生成する
ことを特徴とする請求項７に記載の実況音声生成システム。
（【請求項１１】以降は省略されています）
発明の詳細な説明【技術分野】
【０００１】
本発明は、イベント状況について実況音声を出力する実況音声生成システムに関する。
続きを表示（約 7,600 文字）【背景技術】
【０００２】
Ｆ１などのモータースポーツを含むスポーツ映像には、例えば、「次は最終の直線ゾーン、追い抜いていけるか？」のような実況音声が付与され、視聴者に状況説明や実況者の主観的なコメントが伝えられる。視聴者は実況を聞きながら映像を観ることで、状況をより深く理解し、観戦をより楽しむことができる。実況は多くのスポーツ映像やビデオゲーム映像に付与され、視聴者を楽しませる重要な役割を果たし、映像そのものの価値向上も期待できる。一方、実況付与には対象スポーツやイベントに関する知識や相応の話術が必要となることから、オンライン上に存在するスポーツ映像やビデオゲーム映像の多くには実況が付与されていない。
実況の一例として、レーシングゲーム映像に対する実況に着目する。このような実況では映像中で起こる重要なイベントについて、適切なタイミングで短時間の間に発話する必要がある。従来の言語生成研究では主に、“何について発話するか”というプランニングの問題と、“どのように発話するか”という言語の表層化の問題に分けて研究されてきた。実況生成においては、従来から取り組まれてきたこれらの問題に加え、“いつ発話するか”、“どの程度の時間発話するか”、“どの程度詳しく発話するか”といった従来考慮されてこなかった問題に対処する必要がある。発話タイミングを同定したり、実況発話を生成するためには、映像などで表現された時系列データを考慮する必要がある。これは、例えば画像キャプション生成のような時間軸を考慮しない言語生成の設定やストーリー生成といった発話タイミングがあらかじめ与えられる問題設定とは異なる。
従来の言語生成研究において、映像や画像といった視覚情報を入力する設定は多く存在する。しかし、実況生成のために映像を正しく認識することは容易ではない。例えば、実況では車両間の細かな位置関係についてしばしば述べられ、空撮映像のように似通ったビデオフレーム系列から車両の位置関係のわずかな違いを認識する必要がある。一方、画像キャプション生成では、「人が踊っている」などの必ずしもオブジェクト間の軽微な違いを捉える必要のないテキストの出力を想定している。このような背景から、レースの状況をより正確に捉えるため、映像に加え、時系列状況データを入力として用いることが有効である。状況データには、レーシングカーの座標位置、速度、及びハンドル角度といったサーキットやレーシングカーに関する複数の数値データが含まれる。実際のＦ１レースにおいても、複数のセンサーから３００種類以上の数値データがリアルタイムに計測され、モータースポーツ以外の分野においても、サッカー選手の位置情報をGPSで取得しており、様々なスポーツで状況データを活用する試みが広がっている。
ところで、特許文献１は、ゲーム展開に対応した実況中継を自動的に行うゲーム実況中継装置を提案している。特許文献１のゲーム実況中継装置では、予め複数のゲーム展開パターンに対応させた所定の実況中継用音声データが音声データ記憶手段に記憶され、ゲームシステムのゲーム展開パターンを判別し、ゲーム展開パターンに対応した音声データの読み出し指令を出力する。
特許文献２は、特許文献１のゲーム実況中継装置と同様に、進行されるゲームの状況に応じた実況内容が規定された実況データをあらかじめ記憶しているが、ゲーム内容に対する着目点に適合するような少なくとも２種類の実況軸が決定され、これらの実況軸に対応する実況データに従って実況内容を決定することで、現実のアナウンサーのように複数の切り口で試合を実況するというような多面的な実況を実現できる装置を提案している。
特許文献３は、機械学習の学習済みモデルに基づいて機能するように構成された音声情報生成部を有することで、実況などの音声出力を、ゲームの状況や実況などの会話の流れに沿って行えるシステムを提案している。
【先行技術文献】
【特許文献】
【０００３】
特開平８－２１５４３３号公報
特開２０１３－１１１１７８号公報
特開２０２１－１９４２２９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１や特許文献２のように、実況データをあらかじめ記憶している場合には、リアルタイム性に優れるが、「次は最終の直線ゾーン、追い抜いていけるか？」のような、状況説明とともに実況者の主観的なコメントを発話させることは難しい。
一方、特許文献３のように、機械学習の学習済みモデルに基づいて音声情報を生成する場合には、状況説明とともに実況者の主観的なコメントを発話させることができるが、リアルタイム性に劣る。
【０００５】
本発明は、状況に対応してある程度定まった発話と柔軟な言語による発話とを異なる処理とすることで、リアルタイムな発話と柔軟性の高い発話を実現することができる実況音声生成システムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
請求項１記載の本発明の実況音声生成システムは、イベント状況について実況音声を出力する実況音声生成システムであって、前記イベント状況についての状況データを取得する入力部１と、前記入力部１で取得した前記状況データによって第１発話データを選択する第１処理部１０と、前記入力部１で取得した前記状況データによって第２発話データを生成する第２処理部２０と、前記第１処理部１０で選択される第１発話データ、及び前記第１発話データを選択するための前記状況データの条件を記憶する第１発話データ記憶部３と、前記第１発話データによる第１音声及び前記第２発話データによる第２音声を生成する音声生成部１１、２１と、前記音声生成部１１、２１で生成された前記第１音声及び前記第２音声を出力する音声出力部２とを備え、前記第１処理部１０では、前記第１発話データ記憶部３から前記第１発話データを選択し、前記第２処理部２０では、第１ＡＩ処理４によって前記第２発話データを生成し、前記音声出力部２では、前記第１音声を、前記第２音声に優先して出力することを特徴とする。
請求項２記載の本発明は、請求項１に記載の実況音声生成システムにおいて、前記音声出力部２では、前記第１音声を出力している間は前記第２音声を出力しないことを特徴とする。
請求項３記載の本発明は、請求項１に記載の実況音声生成システムにおいて、前記第１音声を出力している間に、前記第２発話データが生成されると、生成された前記第２発話データによる前記第２音声を生成することなく、前記第２処理部２０では、新たな前記状況データによる前記第２発話データを生成することを特徴とする。
請求項４記載の本発明は、請求項１に記載の実況音声生成システムにおいて、前記第１音声を出力している間に、前記第２音声が生成されると、生成された前記第２音声を前記音声出力部２から出力することなく、前記第２処理部２０では、新たな前記状況データによる前記第２発話データを生成することを特徴とする。
請求項５記載の本発明は、請求項１に記載の実況音声生成システムにおいて、前記音声出力部２では、前記第２音声を出力している間に、前記第１音声を出力する際には、前記第２音声の出力を停止することを特徴とする。
請求項６記載の本発明は、請求項１に記載の実況音声生成システムにおいて、前記第２処理部２０では、前記第１音声が出力されることをトリガーとして前記第２発話データを生成することを特徴とする。
請求項７記載の本発明は、請求項１に記載の実況音声生成システムにおいて、前記入力部１で取得した前記状況データによって第３発話データを生成する第３処理部３０と、前記第２処理部２０で生成される第２発話データ、及び前記第２発話データが生成される際の前記状況データを関連付けて記憶する第２発話データ記憶部５とを備え、前記音声生成部３１では、前記第３発話データによる第３音声を生成し、前記音声出力部２では、前記音声生成部３１で生成された前記第３音声を出力し、前記第３処理部３０では、前記第２発話データ記憶部５に記憶されたデータを教師データとした第２ＡＩ処理６によって前記第３発話データを生成し、前記音声出力部２では、前記第１音声を、前記第２音声及び前記第３音声に優先して出力することを特徴とする。
請求項８記載の本発明は、請求項７に記載の実況音声生成システムにおいて、前記音声出力部２では、前記第１音声を出力している間は前記第３音声を出力しないことを特徴とする。
請求項９記載の本発明は、請求項７に記載の実況音声生成システムにおいて、前記第１音声を出力している間に、前記第３発話データが生成されると、生成された前記第３発話データによる前記第３音声を生成することなく、前記第３処理部３０では、新たな前記状況データによる前記第３発話データを生成することを特徴とする。
請求項１０記載の本発明は、請求項７に記載の実況音声生成システムにおいて、前記第１音声を出力している間に、前記第３音声が生成されると、生成された前記第３音声を前記音声出力部２から出力することなく、前記第３処理部３０では、新たな前記状況データによる前記第３発話データを生成することを特徴とする。
請求項１１記載の本発明は、請求項７に記載の実況音声生成システムにおいて、前記音声出力部２では、前記第３音声を出力している間に、前記第１音声を出力する際には、前記第３音声の出力を停止することを特徴とする。
請求項１２記載の本発明は、請求項７に記載の実況音声生成システムにおいて、前記第３処理部３０では、前記第１音声が出力されることをトリガーとして前記第３発話データを生成することを特徴とする。
請求項１３記載の本発明の実況音声生成システムは、イベント状況について実況音声を出力する実況音声生成システムであって、コンピュータが、取得した状況データが第１発話データを選択するための条件に一致する場合には、一致する前記第１発話データを選択する第１処理ステップと、前記第１処理ステップで選択された前記第１発話データによる第１音声を生成する第１音声生成ステップと、前記第１音声生成ステップで生成された前記第１音声による出力を指示する第１音声出力指示ステップと、前記第１音声出力指示ステップで指示された前記第１音声を出力する音声出力ステップと、前記第１音声出力指示ステップによる指示が行われると、第１ＡＩ処理４によって第２発話データを生成する第２処理ステップと、前記第２処理ステップで生成された前記第２発話データによる第２音声を生成する第２音声生成ステップと、前記第１音声による出力が行われていなければ、前記第２音声生成ステップで生成された前記第２音声による出力指示を行う第２音声出力指示ステップとを実行し、前記第１音声による出力が行われていれば、前記第２音声生成ステップで生成された前記第２音声による出力を行うことなく、前記第２処理ステップで、新たな前記状況データによる前記第２発話データを生成することを特徴とする。
請求項１４記載の本発明は、請求項１３に記載の実況音声生成システムにおいて、前記第２音声出力指示ステップで前記第２音声による出力を行っている間に、前記第１音声出力指示ステップで前記第１音声による出力が指示されると、前記第２音声による出力を停止して前記第１音声による出力を行うことを特徴とする。
請求項１５記載の本発明の実況音声生成システムは、イベント状況について実況音声を出力する実況音声生成システムであって、コンピュータが、取得した状況データが第１発話データを選択するための条件に一致する場合には、一致する前記第１発話データを選択する第１処理ステップと、前記第１処理ステップで選択された前記第１発話データによる第１音声を生成する第１音声生成ステップと、前記第１音声生成ステップで生成された前記第１音声による出力を指示する第１音声出力指示ステップと、前記第１音声出力指示ステップで指示された前記第１音声を出力する音声出力ステップと、前記第１音声出力指示ステップによる指示が行われると、第１ＡＩ処理４によって第２発話データを生成する第２処理ステップと、前記第２処理ステップで生成された前記第２発話データによる第２音声を生成する第２音声生成ステップと、前記第１音声出力指示ステップによる指示が行われると、第２ＡＩ処理６によって第３発話データを生成する第３処理ステップと、前記第３処理ステップで生成された前記第３発話データによる第３音声を生成する第３音声生成ステップと、前記第１音声による出力が行われていなければ、前記第３音声生成ステップで生成された前記第３音声による出力を行う第３音声出力指示ステップと前記第１音声による出力、及び前記第３音声による出力が行われていなければ、前記第２音声生成ステップで生成された前記第２音声による出力を行う第２音声出力指示ステップとを実行することを特徴とする。
請求項１６記載の本発明は、請求項１５に記載の実況音声生成システムにおいて、前記第１音声による出力が行われていれば、前記第２音声生成ステップで生成された前記第２音声による出力を行うことなく、前記第２処理ステップで、新たな前記状況データによる前記第２発話データを生成することを特徴とする。
請求項１７記載の本発明は、請求項１５に記載の実況音声生成システムにおいて、前記第１音声による出力が行われていれば、前記第３音声生成ステップで生成された前記第３音声による出力を行うことなく、前記第３処理ステップで、新たな前記状況データによる前記第３発話データを生成することを特徴とする。
請求項１８記載の本発明は、請求項１５に記載の実況音声生成システムにおいて、前記第３音声による出力が行われていれば、前記第２音声生成ステップで生成された前記第２音声による出力を行うことなく、前記第２処理ステップで、新たな前記状況データによる前記第２発話データを生成することを特徴とする。
請求項１９記載の本発明は、請求項１５に記載の実況音声生成システムにおいて、前記第２音声出力指示ステップで前記第２音声による出力を行っている間に、前記第１音声出力指示ステップで前記第１音声による出力が指示されると、前記第２音声による出力を停止して前記第１音声による出力を行うことを特徴とする。
請求項２０記載の本発明は、請求項１５に記載の実況音声生成システムにおいて、前記第３音声出力指示ステップで前記第３音声による出力を行っている間に、前記第１音声出力指示ステップで前記第１音声による出力が指示されると、前記第３音声による出力を停止して前記第１音声による出力を行うことを特徴とする。
【０００７】
本発明によれば、第１発話データと第２発話データとを用いることで、リアルタイム性が要求される発話と柔軟性の高い発話とを実況音声として出力することができ、イベント状況をより深く理解することができ、第１音声を第２音声に優先して出力することで、ある程度定まった状況説明をタイムリーに確実に出力し、状況説明の必要が無い期間に柔軟性の高い発話を出力できるので、無音声の期間が少なく自然な実況音声を実現できる。
【図面の簡単な説明】
【０００８】
本発明の一実施例における実況音声生成システムを機能実現手段で表したブロック図
同実況音声生成システムでの処理流れを示すフロー図
同実況音声生成システムでの処理を示す説明図
本発明の他の実施例における実況音声生成システムを機能実現手段で表したブロック図
同実況音声生成システムでの処理流れを示すフロー図
同実況音声生成システムでの第２処理と第３処理との関係を示す説明図
同実況音声生成システムでの第２処理の処理中に第１音声出力が発生した場合を示す説明図
同実況音声生成システムでの第３音声の出力中に第１音声出力が発生した場合を示す説明図
【発明を実施するための形態】
【０００９】
本発明の第１の実施の形態による実況音声生成システムは、イベント状況についての状況データを取得する入力部と、入力部で取得した状況データによって第１発話データを選択する第１処理部と、入力部で取得した状況データによって第２発話データを生成する第２処理部と、第１処理部で選択される第１発話データ、及び第１発話データを選択するための状況データの条件を記憶する第１発話データ記憶部と、第１発話データによる第１音声及び第２発話データによる第２音声を生成する音声生成部と、音声生成部で生成された第１音声及び第２音声を出力する音声出力部とを備え、第１処理部では、第１発話データ記憶部から第１発話データを選択し、第２処理部では、第１ＡＩ処理によって第２発話データを生成し、音声出力部では、第１音声を、第２音声に優先して出力するものである。本実施の形態によれば、第１発話データ記憶部に記憶している第１発話データと、第１ＡＩ処理によって生成される第２発話データとを用いることで、リアルタイム性が要求される発話と柔軟性の高い発話とを実況音声として出力することができ、イベント状況をより深く理解することができる。また、本実施の形態によれば、第１音声を第２音声に優先して出力することで、ある程度定まった状況説明をタイムリーに確実に出力し、状況説明の必要が無い期間に柔軟性の高い発話を出力できるので、無音声の期間が少なく自然な実況音声を実現できる。
【００１０】
本発明の第２の実施の形態は、第１の実施の形態による実況音声生成システムにおいて、音声出力部では、第１音声を出力している間は第２音声を出力しないものである。本実施の形態によれば、ある程度定まった状況説明をタイムリーに確実に出力することができる。
（【００１１】以降は省略されています）

関連特許