TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025108249
公報種別公開特許公報(A)
公開日2025-07-23
出願番号2024002058
出願日2024-01-10
発明の名称処理装置、処理方法及び処理プログラム
出願人NTTドコモビジネス株式会社
代理人弁理士法人酒井国際特許事務所
主分類G10L 15/22 20060101AFI20250715BHJP(楽器;音響)
要約【課題】対話者間でのコミュニケーションを補助する。
【解決手段】処理装置10Bは、第1のユーザと第2のユーザが発した音声データをテキストに変換する音声認識部12と、発話者が発話した音声データを変換したテキストと、発話者を撮像した画像に基づくデータとを基に、テキストを修正するよう訓練された機械学習モデルを用いて、音声認識部12によって変換されたテキストを修正し、修正した第1の修正テキストを、第1のユーザ及び第2のユーザが使用するユーザインターフェースに出力する修正部17Bと、を有する。
【選択図】図18
特許請求の範囲【請求項1】
第1のユーザが発した音声データと、第2のユーザが発した音声データと、の入力を受け付ける音声入力部と、
前記第1のユーザを撮像した画像と、前記第2のユーザを撮像した画像と、の入力を受け付ける画像入力部と、
前記音声入力部が入力を受け付けた前記音声データに対して音声認識を行い、前記音声データをテキストに変換する音声認識部と、
発話者が発話した音声データを変換したテキストと、前記発話者を撮像した画像に基づくデータとを基に、前記テキストを修正するよう訓練された機械学習モデルを用いて、前記音声認識部によって変換されたテキストを修正し、修正した第1の修正テキストを、前記第1のユーザ及び前記第2のユーザが使用するユーザインターフェースに出力する修正部と、
を有することを特徴とする処理装置。
続きを表示(約 2,800 文字)【請求項2】
前記画像入力部が入力を受け付けた前記画像の説明文を生成する生成部をさらに有し、
前記機械学習モデルは、前記発話者が発話した音声データを変換したテキストと、前記発話者を撮像した画像の説明文とが入力されると、前記テキストを修正した修正テキストを出力する言語モデルであり、
前記修正部は、前記言語モデルを用いて、前記音声認識部によって変換されたテキストと、前記生成部によって生成された画像の説明文とを基に、前記音声認識部によって変換されたテキストを修正することを特徴とする請求項1に記載の処理装置。
【請求項3】
前記言語モデルは、前記第1のユーザと前記第2のユーザとの対話に対応させたプロンプトが与えられ、入力されたテキストを、自然な文脈で出てくるテキストに修正した前記第1の修正テキストを生成し、
前記プロンプトは、前記言語モデルが前記第1のユーザ及び前記第2のユーザの会話における発言を補完及び/または修正するタスクを負うことと、過去の会話履歴と現在の状況を示す前記画像の説明文とを基に現在の発言を補完する第1のステップ、前記第1のステップの結果を修正する第2のステップ、前記第2のステップの結果として前記現在の発言を修正したテキストを出力する第3のステップを順次行うことで文章の修正を行うことを指令するとともに、過去の会話履歴と、現在の発言と、現在の状況を示す前記画像の説明文と、を含むことを特徴とする請求項2に記載の処理装置。
【請求項4】
前記言語モデルは、前記第1のユーザと前記第2のユーザとの対話に対応させたプロンプトが与えられ、入力されたテキストを、自然な文脈で出てくるテキストに修正後、指定言語に翻訳した前記第1の修正テキストを生成し、
前記プロンプトは、前記言語モデルが前記第1のユーザ及び前記第2のユーザの会話における発言を翻訳しながら補完及び/または修正するタスクを負うことと、過去の会話履歴と現在の状況を示す前記画像の説明文とを基に現在の発言を補完する第1のステップ、前記第1のステップの結果を修正する第2のステップ、前記第2のステップの結果として前記現在の発言を修正したテキストを指定の言語に翻訳する第3のステップ、前記第3のステップの結果として、翻訳済みの、前記現在の発言を修正したテキストを出力する第4のステップを順次行うことで文章の修正を行うことを指令するとともに、過去の会話履歴と、現在の発言と、現在の状況を示す前記画像の説明文とを含むことを特徴とする請求項2に記載の処理装置。
【請求項5】
任意のユーザによって前記第1の修正テキストの誤りが修正された第2の修正テキストの入力があった場合には前記第2の修正テキストを修正履歴としてデータベースに蓄積し、前記第2の修正テキストの入力がなかった場合には前記第1の修正テキストを修正履歴として前記データベースに蓄積する蓄積部と、
前記データベースに蓄積された修正履歴を再学習用データとして、前記言語モデルのパラメータを最適化する最適化部と、
を有することを特徴とする請求項2に記載の処理装置。
【請求項6】
任意のユーザによって前記第1の修正テキストの誤りが修正された第2の修正テキストの入力があった場合には、前記第2の修正テキストを、前記音声認識部によって変換されたテキスト及び前記画像の説明文をベクトル化した埋め込みベクトルとともに、履歴としてデータベースに蓄積し、前記第2の修正テキストの入力がなかった場合には、前記第1の修正テキストを、前記音声認識部によって変換されたテキスト及び前記画像の説明文をベクトル化した埋め込みベクトルとともに、履歴として前記データベースに蓄積する蓄積部と、
前記第1のユーザ及び/または前記第2のユーザの音声データが新たに入力された場合、前記データベースに蓄積された各履歴のうち、新たに入力された音声データの埋め込みベクトルと類似する埋め込みベクトルを含む前記履歴を検索し、検索した履歴を、参考情報として追加したプロンプトを、前記言語モデルに与える補正部と、
を有することを特徴とする請求項2に記載の処理装置。
【請求項7】
前記ユーザインターフェースは、前記第1のユーザ及び前記第2のユーザが使用する端末装置、前記第1のユーザ及び前記第2のユーザがそれぞれ装着するAR(Augmented Reality)グラスまたはVR(Virtual Reality)ゴーグル、前記第1のユーザ及び前記第2のユーザが前記第1の修正テキストを視認可能であるディスプレイであることを特徴とする請求項1に記載の処理装置。
【請求項8】
処理装置が実行する処理方法であって、
第1のユーザが発した音声データと、第2のユーザが発した音声データと、の入力を受け付ける音声入力工程と、
前記第1のユーザを撮像した画像と、前記第2のユーザを撮像した画像と、の入力を受け付ける画像入力工程と、
前記音声入力工程において入力を受け付けた前記音声データに対して音声認識を行い、前記音声データをテキストに変換する音声認識工程と、
発話者が発話した音声データを変換したテキストと、前記発話者を撮像した画像に基づくデータとを基に、前記テキストを修正するよう訓練された機械学習モデルを用いて、前記音声認識工程において変換されたテキストを修正し、修正した第1の修正テキストを、前記第1のユーザ及び前記第2のユーザが使用するユーザインターフェースに出力する修正工程と、
を含んだことを特徴とする処理方法。
【請求項9】
第1のユーザが発した音声データと、第2のユーザが発した音声データと、の入力を受け付ける音声入力ステップと、
前記第1のユーザを撮像した画像と、前記第2のユーザを撮像した画像と、の入力を受け付ける画像入力ステップと、
前記音声入力ステップにおいて入力を受け付けた前記音声データに対して音声認識を行い、前記音声データをテキストに変換する音声認識ステップと、
発話者が発話した音声データを変換したテキストと、前記発話者を撮像した画像に基づくデータとを基に、前記テキストを修正するよう訓練された機械学習モデルを用いて、前記音声認識ステップにおいて変換されたテキストを修正し、修正した第1の修正テキストを、前記第1のユーザ及び前記第2のユーザが使用するユーザインターフェースに出力する修正ステップと、
をコンピュータに実行させるための処理プログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、処理装置、処理方法及び処理プログラムに関する。
続きを表示(約 1,800 文字)【背景技術】
【0002】
TV番組などへの音声字幕提示は、聴覚障碍者への情報補償を主な目的にその普及が進んだ。やがて、動画内に提示される音声字幕以外の解説などの文字情報が、音声字幕と渾然一体となって活用されはじめるようになると、音声字幕提示は、聴覚障碍者に対してのみならず文字を読むことのできるあらゆる人に対して、人間の音声情報を補完する情報補償の役割を持ち始めるようになった。
【0003】
音声字幕の発達過程では、人間が見聞きした言葉を直接文章に書き起こし、それを画面に文字として貼り付ける形で生成・提供されてきた。技術の発達とともに、音声認識技術のリアルタイム性が向上するにつれ、音声認識によって人間の音声データをテキストデータに変換し、撮影中の動画や字幕表示用のインタフェースなどに、発話と同時的に字幕をレンダリングするリアルタイム字幕システムが登場した。
【0004】
このように現在では、高速な音声認識技術によって発話と同時的に音声字幕が生成され、聴覚障害者のみならず、識字が可能なあらゆる人にとってコミュニケーションを円滑にする役割を持ち始めている。例えば、字幕によって言語コミュニケーションを補助するシステムとして、音声認識を行なって字幕を表示するシステムや、対面の説明員が説明した内容をリアルタイムに字幕で表示するシステム(非特許文献1)がある。
【先行技術文献】
【非特許文献】
【0005】
Ippei Suzuki, et al,“See-Through Captions in a Museum Guided Tour: Exploring Museum Guided Tour for Deaf and Hard-of-Hearing People with Real-Time Captioning on Transparent Display”, ICCHP-AAATE 2022: Computers Helping People with Special Needs pp 542-552, [online]、[2023年12月13日検索]、インターネット<https://link.springer.com/chapter/10.1007/978-3-031-08648-9_64>
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来の字幕表示システムでは、以下の二つの課題がある。
【0007】
第1の課題について説明する。吃音や第二外国語で話す場合など、自分の本当に話したいことを、本来意図した通りに声にだして言葉にできない人物にとって、他者に自分の意図を伝えることは少々の困難を伴う。しかしながら、音声認識によって音声字幕をリアルタイムに表示するシステムは、通常、健常者の淀みの少ない発話や精度の高い音声認識システムを前提とし、そのような前提を満たすことができない状況下で不安定な字幕を表示してしまう。
【0008】
このように、従来の字幕システムでは、はっきりと話せる健常な人物や高精度な音声認識技術を前提としており、音声認識結果が間違ってしまう場合や、吃音やいい間違えをした場合に文脈的に誤りである単語や同音異義語などがそのまま字幕として表示されてしまう。
【0009】
第2の課題について説明する。リアルタイム音声認識システムはマルチモーダルなシステムではなく、音声情報のみをテキストデータに変換するシステムである。人間の発話内容は会話する相手の発話内容のみならず、さまざまな情報に依存してその内容が決まっている。しかしながら、通常のリアルタイム音声認識システムは音声データをテキストに変換することのみで会話内容を認識する。このことは、同音異字、同音異義語、音韻間違えによる単語間違えなど、人間にとって違和感のある音声字幕を表示する原因となる。
【0010】
本発明は、上記に鑑みてなされたものであって、話者間でのコミュニケーションを補助することができる処理装置、処理方法及び処理プログラムを提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

三井化学株式会社
吸音構造体
28日前
三井化学株式会社
遮音構造体
1か月前
富士フイルム株式会社
消音器
4日前
三井化学株式会社
遮音構造体
1か月前
三井化学株式会社
遮音構造体
1か月前
個人
弦楽器用押弦補助具及び弦楽器
1か月前
林テレンプ株式会社
防音カバー
1か月前
積水化学工業株式会社
吸音構造体
今日
ヤマハ株式会社
弦楽器用の支持装置
4日前
富士フイルム株式会社
消音器付き風路
4日前
株式会社総合車両製作所
吸音パネル
27日前
株式会社JVCケンウッド
車載装置
1か月前
株式会社レゾナック
吸音材及び車両部材
20日前
個人
電気自動車等の「接近音」における最適な「音の種類」
1か月前
株式会社HOWA
遮音構造
1か月前
カシオ計算機株式会社
楽器
1か月前
株式会社第一興商
カラオケ装置
28日前
個人
電子管楽器
1か月前
株式会社JVCケンウッド
情報処理装置及び情報処理方法
28日前
株式会社第一興商
カラオケ装置
13日前
株式会社第一興商
カラオケ装置
27日前
有限会社舞システム企画
介護情報生成システム
4日前
ヤマハ株式会社
鍵盤装置
5日前
ヤマハ株式会社
連打判定装置および方法、プログラム
14日前
株式会社コルグ
電子楽器用アナログエフェクタ
26日前
シャープ株式会社
制御装置、電気機器、およびシステム
7日前
ヤマハ株式会社
発音制御装置
1か月前
トヨタ自動車株式会社
制御装置
8日前
トヨタ自動車株式会社
電気自動車
1か月前
AOBAENERGY株式会社
サービス提供機器
1か月前
トヨタ自動車株式会社
音響式遮音材の製造方法
1か月前
本田技研工業株式会社
音声認識方法および音声認識装置
6日前
井関農機株式会社
作業車の操縦者用騒音低減装置
27日前
ローランド株式会社
鍵盤装置および鍵の揺動の規制方法
28日前
コニカミノルタ株式会社
音声変換装置、音声変換方法および音声変換プログラム
12日前
ローランド株式会社
鍵盤装置および押鍵情報の検出方法
28日前
続きを見る