TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025133195
公報種別公開特許公報(A)
公開日2025-09-11
出願番号2024030985
出願日2024-03-01
発明の名称検索装置、検索方法及びプログラム
出願人NTT株式会社,学校法人早稲田大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06F 8/70 20180101AFI20250904BHJP(計算;計数)
要約【課題】或るソースコードに関連するソースコードを特定する精度を向上させること。
【解決手段】検索装置は、或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成するように構成されている説明文生成部と、それぞれの前記説明文の特徴量を算出するように構成されている特徴量算出部と、前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価するように構成されている類似性評価部と、前記類似性の評価の結果に基づく情報を出力するように構成されている出力部と、を有する。
【選択図】図8
特許請求の範囲【請求項1】
或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成するように構成されている説明文生成部と、
それぞれの前記説明文の特徴量を算出するように構成されている特徴量算出部と、
前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価するように構成されている類似性評価部と、
前記類似性の評価の結果に基づく情報を出力するように構成されている出力部と、
を有することを特徴とする検索装置。
続きを表示(約 860 文字)【請求項2】
前記説明文生成部は、前記第1のソースコード及び前記第2のソースコードのそれぞれのソースコードついて、当該ソースコードと、当該ソースコードの説明文の生成を要求するテキストとを前記大規模言語モデルへ入力するように構成されている、
ことを特徴とする請求項1記載の検索装置。
【請求項3】
前記第2のソースコードは、前記ソフトウェアに関するソースコードを所定の処理単位に分割したソースコードである、
ことを特徴とする、
請求項1記載の検索装置。
【請求項4】
前記第1のソースコードは、前記ソフトウェアに関する機能変更に応じた修正が適用されたソースコードである、
ことを特徴とする請求項1記載の検索装置。
【請求項5】
或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成する説明文生成手順と、
それぞれの前記説明文の特徴量を算出する特徴量算出手順と、
前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価する類似性評価手順と、
前記類似性の評価の結果に基づく情報を出力する出力手順と、
をコンピュータが実行することを特徴とする検索方法。
【請求項6】
或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成する説明文生成手順と、
それぞれの前記説明文の特徴量を算出する特徴量算出手順と、
前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価する類似性評価手順と、
前記類似性の評価の結果に基づく情報を出力する出力手順と、
をコンピュータに実行させることを特徴とするプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、検索装置、検索方法及びプログラムに関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
日本でのIT人材は不足している。その解決法の一つとして、大規模言語モデル(LLM)を用いたソフトウェアの開発の支援が挙げられる。現在、LLMによるコード生成能力は飛躍的に上昇しており、単一のソースコード(以下、単に「コード」という。)の理解や生成の精度は高い。しかし、実際のソフトウェア開発に近いリポジトリレベルでの研究は少なく、LLMによるリポジトリレベルのコード生成の能力は非常に低い。ここで、リポジトリレベルのコードとは、例えば、複数人によって開発が行われる複数の機能を有するソフトウェアに関する複数のコードの大規模な集合をいう。リポジトリレベルでのバグ修正ベンチマークSWE-benchのバグ解決率はわずか1.96%にとどまる。リポジトリレベルでのコード関連タスク(コード生成、コード修正、コード理解、コード検索等、通常プログラミング業務においてコードに関連して行われるタスク全般)では多くのファイルの参照が必要となる。
【0003】
一方で、LLMのほとんどはTransformerベースのモデルであるため、入力長に制限があり、多くのファイルを入力できない。通常、バグ修正や機能変更等では、当該バグや当該機能変更等に関連する一部のコードのみを修正すればよい。そこで、全てのコードではなく、一部のコードのみをLLMに入力することで、LLMの入力超の制限に対処可能であると考えられる。
【先行技術文献】
【非特許文献】
【0004】
Tianyang Liu, Canwen Xu, and Julian McAuley、"Repobench: Benchmarking repository-level code autocompletion systems"、arXiv preprint arXiv:2306.03091, 2023
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、大規模なコード集合の中から、或るバグ修正や機能変更等に関連する複数のコード(以下、「関連コード」という。)を人手で特定するのは容易ではない。そこで、人手で特定可能な一部のコードに基づくコード検索によって関連コードを特定することが考えられる。
【0006】
コード検索の既存研究では、LLMでコード生成を行いたいコード及びそれに関連しうる検索対象のコード候補それぞれの特徴量(言語モデルの埋め込み表現など)を取得し、特徴量に基づいて類似度が計算される。
【0007】
しかし、コード検索の精度は、SWE-benchやリポジトリレベルのコード補完・検索ベンチマークであるRepoBench(非特許文献1)などでも高くない。したがって、コード検索の既存技術を用いても、高い精度で関連コードを特定するは困難である。
【0008】
本発明は、上記の点に鑑みてなされたものであって、或るソースコードに関連するソースコードを特定する精度を向上させることを目的とする。
【課題を解決するための手段】
【0009】
そこで上記課題を解決するため、検索装置は、或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成するように構成されている説明文生成部と、それぞれの前記説明文の特徴量を算出するように構成されている特徴量算出部と、前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価するように構成されている類似性評価部と、前記類似性の評価の結果に基づく情報を出力するように構成されている出力部と、を有する。
【発明の効果】
【0010】
或るソースコードに関連するソースコードを特定する精度を向上させることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

NTT株式会社
光デバイス
2日前
NTT株式会社
信号送信装置
3日前
NTT株式会社
光信号処理装置
4日前
NTT株式会社
試験装置および試験方法
1か月前
NTT株式会社
分類装置、および分類方法
1か月前
NTT株式会社
量子計算装置、及び制御装置
1か月前
NTT株式会社
通信システム、及び通信方法
11日前
NTT株式会社
音声抽出装置及び音声抽出方法
16日前
NTT株式会社
光増幅器及び光増幅器監視方法
1か月前
NTT株式会社
足場を構築する施工方法及び治具
1か月前
NTT株式会社
無線通信方法及び無線通信システム
25日前
NTT株式会社
秘匿計算システム及び秘匿計算方法
2日前
NTT株式会社
秘匿計算システム及び秘匿計算方法
2日前
NTT株式会社
検索装置、検索方法及びプログラム
2日前
NTT株式会社
推論装置、推論方法、及びプログラム
29日前
NTT株式会社
イオン伝送装置、及びイオン伝送方法
4日前
NTT株式会社
情報処理装置、方法およびプログラム
2日前
NTT株式会社
データ解析装置、方法およびプログラム
2日前
NTT株式会社
単一光子生成装置、及び単一光子生成方法
15日前
NTT株式会社
生成システム、生成装置、および生成方法
19日前
NTT株式会社
周期検出装置、周期検出方法及びプログラム
15日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
19日前
NTT株式会社
情報処理装置、情報処理方法及びプログラム
26日前
NTT株式会社
置局設計装置、置局設計方法及びプログラム
1か月前
NTT株式会社
配送計画装置、配送計画方法、及びプログラム
1か月前
NTT株式会社
量子計算装置、量子計算方法、及びプログラム
1か月前
NTT株式会社
移動ロボット、移動量推定方法、及びプログラム
1か月前
NTT株式会社
通信制御システム、通信制御方法及びプログラム
1か月前
NTT株式会社
画像処理装置、画像処理方法及び画像処理プログラム
29日前
NTT株式会社
修辞構造解析装置、修辞構造解析方法及びプログラム
24日前
NTT株式会社
情報処理装置、情報処理方法および情報処理プログラム
24日前
富士通株式会社
データ転送制御装置および情報処理装置
1か月前
NTT株式会社
簡易な方法で光ファイバをセンサ化するシステム及び方法
1か月前
富士通株式会社
データ転送制御装置および情報処理装置
1か月前
NTT株式会社
電気刺激装置、電気刺激システム、電気刺激方法及びプログラム
26日前
NTT株式会社
伝送システム、送信装置、受信装置、伝送方法およびプログラム
1か月前
続きを見る