発明の詳細な説明【技術分野】 【0001】 本発明は、処理装置、処理方法及び処理プログラムに関する。 続きを表示(約 1,800 文字)【背景技術】 【0002】 TV番組などへの音声字幕提示は、聴覚障碍者への情報補償を主な目的にその普及が進んだ。やがて、動画内に提示される音声字幕以外の解説などの文字情報が、音声字幕と渾然一体となって活用されはじめるようになると、音声字幕提示は、聴覚障碍者に対してのみならず文字を読むことのできるあらゆる人に対して、人間の音声情報を補完する情報補償の役割を持ち始めるようになった。 【0003】 音声字幕の発達過程では、人間が見聞きした言葉を直接文章に書き起こし、それを画面に文字として貼り付ける形で生成・提供されてきた。技術の発達とともに、音声認識技術のリアルタイム性が向上するにつれ、音声認識によって人間の音声データをテキストデータに変換し、撮影中の動画や字幕表示用のインタフェースなどに、発話と同時的に字幕をレンダリングするリアルタイム字幕システムが登場した。 【0004】 このように現在では、高速な音声認識技術によって発話と同時的に音声字幕が生成され、聴覚障害者のみならず、識字が可能なあらゆる人にとってコミュニケーションを円滑にする役割を持ち始めている。例えば、字幕によって言語コミュニケーションを補助するシステムとして、音声認識を行なって字幕を表示するシステムや、対面の説明員が説明した内容をリアルタイムに字幕で表示するシステム(非特許文献1)がある。 【先行技術文献】 【非特許文献】 【0005】 Ippei Suzuki, et al,“See-Through Captions in a Museum Guided Tour: Exploring Museum Guided Tour for Deaf and Hard-of-Hearing People with Real-Time Captioning on Transparent Display”, ICCHP-AAATE 2022: Computers Helping People with Special Needs pp 542-552, [online]、[2023年12月13日検索]、インターネット<https://link.springer.com/chapter/10.1007/978-3-031-08648-9_64> 【発明の概要】 【発明が解決しようとする課題】 【0006】 従来の字幕表示システムでは、以下の二つの課題がある。 【0007】 第1の課題について説明する。吃音や第二外国語で話す場合など、自分の本当に話したいことを、本来意図した通りに声にだして言葉にできない人物にとって、他者に自分の意図を伝えることは少々の困難を伴う。しかしながら、音声認識によって音声字幕をリアルタイムに表示するシステムは、通常、健常者の淀みの少ない発話や精度の高い音声認識システムを前提とし、そのような前提を満たすことができない状況下で不安定な字幕を表示してしまう。 【0008】 このように、従来の字幕システムでは、はっきりと話せる健常な人物や高精度な音声認識技術を前提としており、音声認識結果が間違ってしまう場合や、吃音やいい間違えをした場合に文脈的に誤りである単語や同音異義語などがそのまま字幕として表示されてしまう。 【0009】 第2の課題について説明する。リアルタイム音声認識システムはマルチモーダルなシステムではなく、音声情報のみをテキストデータに変換するシステムである。人間の発話内容は会話する相手の発話内容のみならず、さまざまな情報に依存してその内容が決まっている。しかしながら、通常のリアルタイム音声認識システムは音声データをテキストに変換することのみで会話内容を認識する。このことは、同音異字、同音異義語、音韻間違えによる単語間違えなど、人間にとって違和感のある音声字幕を表示する原因となる。 【0010】 本発明は、上記に鑑みてなされたものであって、話者間でのコミュニケーションを補助することができる処理装置、処理方法及び処理プログラムを提供することを目的とする。 【課題を解決するための手段】 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する