人工知能が日本の司法試験に挑戦! ChatGPT有料版の正答率は何%?GPT-4による追試結果も

人工知能が日本の司法試験に挑戦! ChatGPT有料版の正答率は何%?GPT-4による追試結果も

この記事では、誰でも利用可能な人工知能(AI)として話題のChatGPTの有料版「ChatGPT Plus」を使って、日本の司法試験の択一式問題に解答させたプロセスと結果をレポートします。既に米国の司法試験をクリアするタスク処理能力を有するとされるAGIは、日本の司法試験問題に正答できるのでしょうか?GPT-4による追試結果も追記しています。

ChatGPTとは?—米国の司法試験の合格レベルに到達した人工知能(AI)

ChatGPTとは、米国のベンチャー企業OpenAIが開発した、GPT(Generative Pretrained Transformer)と呼ばれる大規模な言語モデルを組み込んだ、対話型の人工知能(Artificial Intelligence)です。

英語圏で開発され英語圏のデータをベースに人間が入力したテキストに回答を出力しますが、日本語テキストによる質問に対しても、まるで日本人とチャットしているような自然な言葉使いで答えてくれます。この言語モデルのうち、GPT-3を組み込んだバージョンが2022年11月30日に、GPT-4を組み込んだバージョンが2023年3月15日に公開されて以降、その高度な応答ぶりが注目を集めています。

言語モデルとは、「入力した文に続く可能性の高い単語を予測して出力する」仕組みのこと。例えば、「故意に人を殺すと死刑になる」という文章を分解し、言語モデルに「故意に人を殺すと」と入力したときに、「死刑」と出力するように学習させ、さらに「故意に人を殺すと死刑」という入力に対しては、「になる」と出力するよう学習していきます。

このようにして、人間が正解を入力していく「教師あり学習」ではなく、データさえあればAI自身が強化学習を重ねて精度を高めていく「教師なし学習」ができるのが、GPTのような言語モデルの特徴となっています。

自然な言葉で会話しつつタスクをこなしてくれるとなると、人間の困りごとに関する相談、特に法律分野の相談への活用も期待されるところです。米国では、司法試験問題(Uniform Bar Exam)をGPT3.5に解答させたところ、すでに合格レベルに達したとのニュースも出てきました。

法律用語の複雑な性質とGPT-3.5の一般的なタスクパフォーマンスに関する学習を考えると、GPT-3.5のような最先端のLLMが、法律タスクに成功できるかどうかは未知の問題である。

この問題を評価するために研究チームは、NCBE(National Conference of Bar Examination)が実施しているMBE(Multistate Bar Examination、全州共通の選択式司法試験)で、GPT-3.5を実験的に試験し評価した。

結果、GPT-3.5は最高のプロンプトとパラメータを使用した場合、50.3%の平均正解率を達成し、ベースライン(ランダム予測)の推測率25%を大幅に上回り、証拠法(Evidence)と不法行為法(Torts)の2科目で平均合格率を超えた。

さらに、開発元のOpen AIのリサーチ結果によれば、2023年3月に公開されたGPT-4版では、推論能力の向上により、Uniform Bar Examで上位10%に相当する成績を出せるまでに成長したと発表されています。

GPT-4によって推論能力が向上したことで、米国司法試験(Uniform Bar Exam)の正答率が劇的に改善

GPT-4によって推論能力が向上したことで、米国司法試験(Uniform Bar Exam)の正答率が劇的に改善

現状のChatGPTに日本の司法試験問題を解かせるとどうなるのか?

こうなると、日本の司法試験にも合格できるのかは、誰もが興味を持つのではないでしょうか。早速、ChatGPTに(GPT3/4がまだ学習データを持っていないはずの)令和4年の司法試験問題を入力してみます。

ChatGPTに(GPT3がまだ学習データを持っていないはずの)令和4年の司法試験問題を入力

ChatGPTに令和4年の司法試験問題を入力

試しに何問かの過去問を順次入力してみると、ChatGPTは、以下のような回答を返してきます。

法的な質問への回答をはぐらかそうとするChatGPT(回答事例その1)

法的な質問への回答をはぐらかそうとするChatGPT(回答事例その1)

法的な質問への回答をはぐらかそうとするChatGPT(回答事例その2)

法的な質問への回答をはぐらかそうとするChatGPT(回答事例その2)

司法試験の問題だけに限らず、なんらかの法的な論点・問題をはらむ質問を投げかけると、多くの場合ChatGPTはこのように、回答をせずに回避しようとします。

残念なことに、日本では米国と違いAIに学習させるのに適したデータ形式では裁判例等の法律情報が公開されていません。加えて、昨年AI契約書レビューの適法性が話題になったように、弁護士・弁護士法人ではない民間企業が提供するサービスが実際の事件について法律的な見解を述べるようなプログラムを提供すると、弁護士法72条違反を問われるという問題もあります。

その意味で、ChatGPTの回答が回答を忌避しようとするのは、「日本において最も適法・適切な優等生的回答」と言えるかもしれません。

「深津式プロンプト・システム」で日本の司法試験を嫌がるChatGPT Plus(有料版)に解答させることに成功

しかし、ここで終わってしまっては面白くありません。

判例データがほとんど公開されていない、そして弁護士法上違法性があるという障害を乗り越えて、ChatGPTが持ち合わせるデータだけで、あくまで試験問題としてなんとか割り切った回答をさせる方法はないものでしょうか?

ChatGPTの活用方法に詳しい THE GUILDの深津貴之さんがYouTubeで公開されている「深津式プロンプト・システム」

ChatGPTの活用方法に詳しい THE GUILDの深津貴之さんがYouTubeで公開されている「深津式プロンプト・システム」

これを実現すべく、編集部では、より高機能で利用頻度等の制約の少ない有償版の「ChatGPT Plus」を契約。

  • 東京大学法学部の首席レベルの優秀な学生が
  • 法律相談ではなく、あくまで試験問題への解答として
  • 判例データ等を用いずに

ChatGPT Plusに司法試験の問題に対する解答を必ず出力させるための命令プロンプトを作成。令和4年司法試験の民法の択一試験の全37問を、以下のような形で入力してみました。

ChatGPT Plusに司法試験の問題に対する解答を必ず出力させるための命令プロンプト

ChatGPT Plusに司法試験の問題に対する解答を必ず出力させるための命令プロンプト

すると、先ほどまで意地でも回答することを回避しようとしてきたChatGPT Plusが、

司法試験回答タスク用プロンプトに従って解答するChatGPT Plus

司法試験回答タスク用プロンプトに従って解答するChatGPT Plus

と、プロンプトに書いた指示・制約条件に従って、素直に回答を返してくれるようになったのです。

ChatGPT Plusによる日本の司法試験問題正答率は?

GPT-3による正答率は30%

こうして安定稼働するようになった司法試験回答タスク用プロンプト・システムを使って、まずはGPT-3に令和4年司法試験の民法択一問題全37問への解答を出力させてみました。

設問No正答解答正誤
121×
234×
343×
415×
525×
644
711
855
933
1051×
1144
1231×
1321×
1423×
1533
1643×
1744
1835×
1924×
2043×
2145×
2255
2342×
2434×
2542×
2654×
2731×
2833
2932×
3034×
3144
3234×
3354×
3451×
3532×
3654×
3744

司法試験委員会が発表した正答とChatGPT Plusによる解答とを照合すると、37問中11問に正解する結果となりました。現状のChatGPT 有料版の能力は、日本の司法試験の合格最低ラインと言われる55%をはるかに下回り、足切りラインと言われる40%をも切ってしまうという、残念な結果にとどまりました。

一方で、一連の問題への解答ぶりを見ていると、日本の民法の択一試験問題の特徴でもある「複数の選択肢の中から、正しい肢/誤った肢の”組み合わせ”を選ばせる」ことが普通にできているのには驚かされます。

これまでの一般的なAIチャットボットでは、このような長文、かつ複数の論点を持つ質問に対して答えを返すこと自体が不可能でした。そのため、多くの場合、人間がチャットボットにとって答えやすくなるよう、質問を加工する必要がありました。

対してChatGPTでは、そうした人間による質問文の加工すら必要なく、司法試験委員会が公開しているファイルから丸ごとコピーアンドペーストするだけで、きちんと回答を返します。それ自体が大きな進歩と言えます。

GPT-4を使った追試では正答率が41%に向上、思考過程を自ら解説するまでに進化

2023年3月15日、GPT-3の少なくとも数倍の性能を持つと言われるGPT-4が、ChatGPT有料版ユーザー向けにリリースされました。

同じ令和4年民法択一試験の問題を解かせると、どの程度正答率が上がるのでしょうか。早速試してみます。

設問No正答解答正誤
122
233
344
413×
522
644
715×
852×
935×
1053×
1144
1235×
1322
1425×
1533
1642×
1745×
1835×
1922
2043×
2144
2253×
2345×
2434×
2542×
2653×
2733
2833
2933
3033
3144
3234×
3353×
3452×
3534×
3653×
3745×

米国の司法試験にはトップ合格可能なGPT-4も、日本の司法試験にはまだ苦戦するようで、ようやく足切りラインを超える41%の正答率という結果になりました。日本の司法試験は判例をベースに選択肢の正誤を検討させる問題が多いにもかかわらず、米国等諸外国に比べると裁判のIT化に遅れをとり、判例データの公開が進んでいないことも、合格点に及ばない原因の一つかもしれません。

一方で、20問目の解答を超えたあたりから、指示をしていないにもかかわらず、ChatGPT自ら解答を導くに至る思考プロセスを披露し出すなど、AIとしての確かな進化の片鱗も確認できました。

指示をしていないにもかかわらず、解答を導くに至る思考プロセスを披露し出したGPT-4

指示をしていないにもかかわらず、解答を導くに至る思考プロセスを披露し出したGPT-4

実際にこうしてChatGPTとの「対話」を繰り返していると、今後、日本の裁判のIT化により判例データの公開が進み、GPTの言語モデルが学習対象として利用できるデータセットさえ充実すれば、正答率は間違いなく上昇するだろうという確信が湧いてきます。

ChatGPTの有力対抗馬「Perplexty」には根拠文献を表示する機能も

そう感じるのは、ChatGPTの有力対抗馬と目される「Perplexty」が実用に耐えうるものとなってきたのも、理由の一つです。

GPT-3が2022年までの自然言語データをベースにした機械学習の結果で回答をしているだけで、「わからないことをAI自らが検索する」ことをしていないのに対し、Perplextyは、AIを検索エンジンとして用い、確からしい出典・引用文献を明示して回答を作成してくれる点に特徴があります。

ChatGPTの有力対抗馬と目される「Perplexty」

ChatGPTの有力対抗馬と目される「Perplexty」

試しに、令和4年民法択一試験の第1問の選択肢の正否を検索にかけてみると、インターネット上で公開されている司法試験の模範回答や、地方自治体による法制度解説の説明を根拠として複数引用してくれているのがわかります。このような引用文献を簡単に探りあてて教えてくれるだけでも、ありがたいと感じるユーザーは多いはずです。

こうした探索型AIはウェブサイトの記述の正確性・信頼性に依拠する部分が多く、またChatGPTのような大規模な言語モデルも持ち合わせていないものですが、これら2つが組み合わされば、「AIに質問すると、信頼できるソースから根拠を探り当て、それを参考にわかりやすく正確に回答してくれる」世界が実現します。

実際、マイクロソフトが2023年2月7日に発表した検索エンジン「Bing」の新バージョンにもGPT-4が統合され、さらにこのChat GPIの人気ぶりに危機感を抱いたGoogleも、同じく2月7日に会話型AI「BARD」公開に踏み切りました。AIがタスクをこなす能力が日本の文系最高峰の資格試験合格レベルに達する時代は、すぐそこに迫っています。

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中