TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
10個以上の画像は省略されています。
公開番号
2025132531
公報種別
公開特許公報(A)
公開日
2025-09-10
出願番号
2024030164
出願日
2024-02-29
発明の名称
文字列分割装置、文字列分割システム、語彙群生成方法、およびプログラム
出願人
株式会社リコー
代理人
個人
,
個人
主分類
G06F
16/35 20250101AFI20250903BHJP(計算;計数)
要約
【課題】既存の語彙群に基づいて新たな語彙群を効率的に生成できるようにすること。
【解決手段】文字列分割装置は、識別子が対応付けられた複数の語彙を有する語彙群と、文字列を取得する取得部と、語彙群に基づいて、取得部によって取得された文字列を複数の語彙に分割する文字列分割手段と、文字列分割手段によって得られた複数の語彙を出力する出力部と、既存の語彙群に基づいて、新たな語彙群を生成する生成部とを備え、複数の語彙の各々は、埋め込みベクトルが対応付けられており、生成部は、新たな語彙群に含まれる複数の語彙のうち、既存の語彙群との共通部分に含まれている語彙については、既存の語彙群に含まれている当該語彙に対応付けられている埋め込みベクトルを、変更することなく新たな語彙群の当該語彙に対応付ける。
【選択図】図6
特許請求の範囲
【請求項1】
識別子が対応付けられた複数の語彙を有する語彙群と、
文字列を取得する取得部と、
前記語彙群に基づいて、前記取得部によって取得された前記文字列を複数の語彙に分割する文字列分割手段と、
前記文字列分割手段によって得られた前記複数の語彙を出力する出力部と、
既存の前記語彙群に基づいて、新たな前記語彙群を生成する生成部と
を備え、
前記複数の語彙の各々は、埋め込みベクトルが対応付けられており、
前記生成部は、
前記新たな語彙群に含まれる複数の語彙のうち、前記既存の語彙群との共通部分に含まれている語彙については、前記既存の語彙群に含まれている当該語彙に対応付けられている前記埋め込みベクトルを、変更することなく前記新たな語彙群の当該語彙に対応付ける
ことを特徴とする文字列分割装置。
続きを表示(約 1,900 文字)
【請求項2】
前記生成部は、
前記新たな語彙群に含まれる複数の語彙のうち、前記既存の語彙群との共通部分に含まれている語彙については、識別子を変更することなく、前記新たな語彙群に複製し、前記既存の語彙群との共通部分に含まれていない語彙については、任意の識別子を割り当てて、前記新たな語彙群に追加する
ことを特徴とする請求項1に記載の文字列分割装置。
【請求項3】
前記生成部は、
前記新たな語彙群に含まれる複数の語彙のうち、前記既存の語彙群との共通部分に含まれていない語彙については、前記既存の語彙群に含まれている語彙のうち、前記新たな語彙群に含まれない語彙の識別子を割り当てて、前記新たな語彙群に追加する
ことを特徴とする請求項1に記載の文字列分割装置。
【請求項4】
前記生成部は、
前記新たな語彙群に含まれる複数の語彙のうち、前記既存の語彙群との共通部分に含まれていない語彙については、当該語彙を前記既存の語彙群に基づいて複数の語彙に分割し、前記既存の語彙群に含まれている当該複数の語彙に対応付けられている複数の前記埋め込みベクトルの平均値を、前記新たな語彙群の当該語彙に対応付ける
ことを特徴とする請求項1に記載の文字列分割装置。
【請求項5】
前記既存の語彙群および前記新たな語彙群は、言語単位で生成されている
ことを特徴とする請求項1から4のいずれか一項に記載の文字列分割装置。
【請求項6】
前記既存の語彙群および前記新たな語彙群は、用語単位で生成されている
ことを特徴とする請求項1から4のいずれか一項に記載の文字列分割装置。
【請求項7】
前記文字列分割手段によって得られた前記複数の語彙の識別子を機械学習モデルへ出力することにより、前記機械学習モデルによる前記複数の語彙の識別子に対する処理結果を取得する
ことを特徴とする請求項1から4のいずれか一項に記載の文字列分割装置。
【請求項8】
識別子が対応付けられた複数の語彙を有する語彙群と、
文字列を取得する取得部と、
前記語彙群に基づいて、前記取得部によって取得された前記文字列を複数の語彙に分割する文字列分割手段と、
前記文字列分割手段によって得られた前記複数の語彙を出力する出力部と、
既存の前記語彙群に基づいて、新たな前記語彙群を生成する生成部と
を備え、
前記複数の語彙の各々は、埋め込みベクトルが対応付けられており、
前記生成部は、
前記新たな語彙群に含まれる複数の語彙のうち、前記既存の語彙群との共通部分に含まれている語彙については、前記既存の語彙群に含まれている当該語彙に対応付けられている前記埋め込みベクトルを、変更することなく前記新たな語彙群の当該語彙に対応付ける
ことを特徴とする文字列分割システム。
【請求項9】
複数の語彙の各々に識別子が対応付けられて構成され、文字列分割手段によって文字列を複数の語彙に分割する際に使用される語彙群を生成する語彙群生成方法であって、
既存の前記語彙群に基づいて、新たな前記語彙群を生成する語彙群生成工程を含み、
前記複数の語彙の各々は、埋め込みベクトルが対応付けられており、
前記語彙群生成工程では、
前記新たな語彙群に含まれる複数の語彙のうち、前記既存の語彙群との共通部分に含まれている語彙については、前記既存の語彙群に含まれている当該語彙に対応付けられている前記埋め込みベクトルを、変更することなく前記新たな語彙群の当該語彙に対応付ける
ことを特徴とする語彙群生成方法。
【請求項10】
複数の語彙の各々に識別子が対応付けられて構成され、文字列分割手段によって文字列を複数の語彙に分割する際に使用される語彙群を生成するプログラムであって、
コンピュータを、
既存の前記語彙群に基づいて、新たな前記語彙群を生成する生成部として機能させ、
前記複数の語彙の各々は、埋め込みベクトルが対応付けられており、
前記生成部は、
前記新たな語彙群に含まれる複数の語彙のうち、前記既存の語彙群との共通部分に含まれている語彙については、前記既存の語彙群に含まれている当該語彙に対応付けられている前記埋め込みベクトルを、変更することなく前記新たな語彙群の当該語彙に対応付ける
ことを特徴とするプログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、文字列分割装置、文字列分割システム、語彙群生成方法、およびプログラムに関する。
続きを表示(約 1,700 文字)
【背景技術】
【0002】
下記非特許文献1には、日本語に対応していないモデルを日本語に対応させる目的で、トークナイザーが有する既存のモデルに対し、日本語語彙を追加する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、特許文献1の技術は、既存のモデルに日本語語彙を追加するために、新たなモデルの語彙数が既存のモデルの語彙数+日本語語彙の語彙数となるため、LLM(Large Language Models)の識別子の数が増えることでメモリコストが増加するといった問題が生じる。また、他の方法として、日本語語彙の新たなモデルを作り直す方法が考えられるが、この場合、新たなモデルを効率的に生成することができない。
【0004】
本発明は、上述した従来技術の課題を解決するため、既存の語彙群に基づいて新たな語彙群を効率的に生成できるようにすることを目的とする。
【課題を解決するための手段】
【0005】
上述した課題を解決するために、一実施形態に係る文字列分割装置は、識別子が対応付けられた複数の語彙を有する語彙群と、文字列を取得する取得部と、語彙群に基づいて、取得部によって取得された文字列を複数の語彙に分割する文字列分割手段と、文字列分割手段によって得られた複数の語彙を出力する出力部と、既存の語彙群に基づいて、新たな語彙群を生成する生成部とを備え、複数の語彙の各々は、埋め込みベクトルが対応付けられており、生成部は、新たな語彙群に含まれる複数の語彙のうち、既存の語彙群との共通部分に含まれている語彙については、既存の語彙群に含まれている当該語彙に対応付けられている埋め込みベクトルを、変更することなく新たな語彙群の当該語彙に対応付ける。
【発明の効果】
【0006】
一実施形態に係る文字列分割装置によれば、既存の語彙群に基づいて新たな語彙群を効率的に生成できる。
【図面の簡単な説明】
【0007】
一実施形態に係る文字列分割システムのシステム構成の一例を示す図
一実施形態に係るサーバおよびのハードウェア構成図
一実施形態に係るサーバの機能ブロック図
一実施形態に係るサーバの機能ブロック図
一実施形態に係るサーバが備えるトークナイザーによる文字列分割処理の概念図
一実施形態に係るサーバが備える生成部による生成処理の概念図
一実施形態に係るサーバが備える生成部による生成処理の一例を示す図
一実施形態に係るサーバが備える生成部による生成処理の手順の一例を示すフローチャート
一実施形態に係るサーバが備える語彙群の一例(第1例)を示す図
一実施形態に係るサーバが備える語彙群の一例(第2例)を示す図
一実施形態に係るサーバが備える生成部によるベクトル設定処理の手順の一例を示すフローチャート
一実施形態に係るサーバが備える生成部によるベクトル設定処理の一例を示す図
一実施形態に係るサーバが備えるトークナイザーと機械学習モデルとの連携の構成の一例(第1例)を示す図
一実施形態に係るサーバが備えるトークナイザーと機械学習モデルとの連携の構成の一例(第2例)を示す図
【発明を実施するための形態】
【0008】
以下、図面を参照して、本発明の一実施形態について説明する。
【0009】
(文字列分割システム10のシステム構成の一例)
図1は、一実施形態に係る文字列分割システム10のシステム構成の一例を示す図である。
【0010】
図1に示す文字列分割システム10は、サーバ12およびPC14を備える。サーバ12およびPC14は、通信ネットワーク16を介して、互いに通信可能に接続されている。通信ネットワーク16としては、例えば、LAN、インターネット等が用いられる。
(【0011】以降は省略されています)
この特許をJ-PlatPat(特許庁公式サイト)で参照する
関連特許
株式会社リコー
綴じ装置
12日前
株式会社リコー
塗装装置
1か月前
株式会社リコー
ユニット
1か月前
株式会社リコー
画像形成装置
17日前
株式会社リコー
画像形成装置
1か月前
株式会社リコー
映像表示装置
6日前
株式会社リコー
履帯式走行体
13日前
株式会社リコー
画像形成装置
13日前
株式会社リコー
液体吐出装置
13日前
株式会社リコー
画像形成装置
17日前
株式会社リコー
画像形成装置
24日前
株式会社リコー
画像投射装置
25日前
株式会社リコー
画像形成装置
12日前
株式会社リコー
画像形成装置
4日前
株式会社リコー
液体吐出装置
1か月前
株式会社リコー
画像形成装置
1か月前
株式会社リコー
画像形成装置
3日前
株式会社リコー
水力発電装置
1か月前
株式会社リコー
情報処理システム
6日前
株式会社リコー
投薬管理システム
4日前
株式会社リコー
カラー画像形成装置
18日前
株式会社リコー
測定装置および測定方法
5日前
株式会社リコー
測定装置および測定方法
5日前
株式会社リコー
測定装置および測定方法
5日前
株式会社リコー
電子機器および通信方法
1か月前
株式会社リコー
給送装置及び画像形成装置
13日前
株式会社リコー
現像装置及び画像形成装置
25日前
株式会社リコー
個片モジュールの製造方法
1か月前
株式会社リコー
ジョブ設定調整メカニズム
1か月前
株式会社リコー
樹脂粒子およびその製造方法
4日前
株式会社リコー
測定装置および状態測定方法
5日前
株式会社リコー
塗装装置、及び塗装システム
17日前
株式会社リコー
画像形成装置及び画像形成方法
26日前
株式会社リコー
液体吐出ヘッド、液体吐出装置
5日前
株式会社リコー
媒体搬送装置及び画像形成装置
23日前
株式会社リコー
画像形成装置及び画像形成方法
26日前
続きを見る
他の特許を見る