LLMの学習データとは?AIの答えが決まる仕組み

Fundamentals-02-10 基礎知識

LLM(大規模言語モデル)の学習データとは、LLMが言葉の使われ方や文脈のつながりを学ぶために使う大量のテキストやコードなどのデータのことです。

AIの答えは、自然に見えるぶん、どこまで信じていいのか迷います。「この情報は入力して大丈夫か」「この回答は何を根拠にしているのか」。特に仕事で使う場面では、その判断が難しい。

実際のところ、LLMは文章を丸暗記しているわけでも、質問のたびにネットを検索しているわけでもありません。学習した「言葉のつながりのパターン」をもとに、その場で回答を組み立てています。この仕組みを知らないまま使い続けると、もっともらしい嘘(ハルシネーション)に気づかなかったり、業務で扱える情報の線引きが曖昧になったりします。

この記事では、学習データの基礎から、混同しやすい「事前学習・ファインチューニング・RAG」を解説します。AIの答えの根拠と限界を把握するための基礎として、LLMが何を学び、何を知らないのかを確認していきましょう。

【関連記事|A02】LLMとは?GPTの仕組み・学習データ・使い方までを一気に理解する

【1】LLMの学習データとは何か

LLMの学習データは、AIの中に入っている”辞書”や”百科事典”ではありません。近いのは、言葉の癖や文脈の流れを身につけるための材料です。ここを知らないと、AIの答えを検索結果のように扱ってしまいます。

LLMが自然な日本語で返答できるのは、この学習データを通じて「次に来る言葉として何が最も適切か」という確率的なパターンを、膨大な回数繰り返して学んでいるからです。

LLMの学習データは何を指す言葉か

LLMの学習データとは、AIにとっての「知識の源泉」となるものです。ウェブサイト、書籍、ニュース記事、論文、プログラミングのソースコードなど、人間が作り出してきた多様なテキスト情報がその対象となります。

ただ、学習データを「検索用のデータベース」と考えると少しズレます。LLMの内部に百科事典がそのまま保存され、必要なページを開いて答えているわけではありません。LLMは学習データを通じて、「この言葉の次にはこの表現が来ることが多い」「この文脈ではこうした回答が期待されている」といった、言葉同士の統計的な関係性を抽出して取り込んでいます。

学習データがAIの基礎になる理由

学習データがLLMの土台と呼ばれるのは、文章を生成する能力を形作る直接の材料になるからです。

モデルの仕組みだけでは、自然な文章は生まれません。どんな言葉がどんな場面で使われるのかを、先に大量のデータから学ぶ必要があります。LLMの学習プロセスでは、与えられたデータの中から言葉の組み合わせや論理の展開パターンを導き出し、「重み(パラメータ)」という数値として蓄積していきます。

たとえば「空が」という言葉の後に「青い」が続くのか「曇っている」が続くのか。その判断基準は、この学習データから作られます。私たちがLLMの回答に人間らしさを感じるのは、土台となるデータに人間の思考や表現のクセが網羅されているからです。

学習データだけで賢さは決まらない

「データが多ければ多いほどLLMは賢くなる」と思われがちですが、一定の量を超えると、単純な増量よりも「質の選び方」が重要になります。

不正確な情報や偏った意見ばかりが含まれるデータをいくら読み込ませても、信頼できる回答は得られません。データが最新であっても、言葉の裏にある論理構造を正しく抽出できなければ、支離滅裂な回答を返すこともあります。見るべきなのはデータ量だけではありません。どんなデータを使い、不要なノイズをどれだけ落とし、モデルがそれをどう学んだのか。そこまで含めて、LLMの答え方は変わります。

この時点で気になるのは、「では、どんなデータを学んでいるのか」ですよね。

【2】LLMはどんなデータから学んでいるのか

LLMの学習データは、人間がこれまでに作り出してきた膨大なテキスト情報の集積です。ウェブサイト、書籍、プログラムのコードなどが材料になり、それらを「言葉のつながりのパターン」として吸収することで、回答を生成する力を得ています。

Web・書籍・コードなどが材料になる

LLMの学習データには、ウェブページ、書籍、論文、ニュース記事、プログラムコードなどが含まれます。種類の違うデータを組み合わせることで、日常的な会話から専門的な要約、プログラミングの補助まで、幅広い出力に対応しやすくなります。

ウェブページには、百科事典的な説明からニュース、ブログのような口語表現まで含まれます。書籍や論文は、長い文章の組み立て方や専門的な言い回しを学ぶ材料になります。ソースコードは少し性質が違い、文法の正確さや手順の並べ方を学ぶ材料です。

公開データと非公開データの違い

一般にLLMは、インターネット上で公開されているウェブ情報や書籍、論文、コードなどを含む大規模なデータから学習します。ただし、ChatGPTなどの個別モデルの学習データの内訳は、すべてが詳細に公開されているわけではありません。確認できるのは、開発企業が公開している説明やデータポリシーの範囲に限られます。

一方で、企業が自社専用のツールを構築する際には、社内マニュアルや過去の商談記録といった非公開データを組み合わせて活用することもあります。一般的な知識は公開データから、自社特有の業務知識は非公開データから補う、といった使い分けです。

日本語データが少ないと何が起きるか

多くのグローバルモデルでは、英語データに比べて日本語データの量や質が限られやすいとされています。そのため、日本語特有の言い回しや敬語、日本の商習慣、文化的な前提を十分に拾いきれていない場合があります。

ただし、日本語の回答精度はデータの量だけで決まるわけではありません。データの質や、日本語に適したモデルの調整方法、評価用データの充実度など、複数の要因が合わさって精度が決まります。最近では、日本語の特性をより深く反映させた国産LLMの開発も進んでいます。

LLMが学ぶのは言葉のつながり

LLMが学習しているのは、単語そのものの暗記というよりも「文脈の中での言葉の使われ方」です。

たとえば、「吾輩は猫である。名前は……」という文章が学習データに多く含まれていれば、LLMは「『名前は』の次には『まだ無い』が来る確率が高い」と学習します。LLMが何かを「知っている」ように見えるのは、入力された文脈に対して、蓄積したパターンから確率的にありえそうな言葉を繋いでいる結果です。

主要データセット名で具体像をつかむ

LLMの開発でよく使われるデータの集合体を「データセット」と呼びます。代表的なものを整理すると、LLMがどのような情報を元に構築されているかが見えてきます。

データセット名主な内容・特徴注意点
Common Crawlインターネット上の膨大なクロールデータ。世界最大級の規模。広告や重複、質の低いページも含まれる。
C4Common Crawlにフィルタリングを行い、整理されたテキストデータ。フィルタリングの基準により情報の偏りが生じる可能性がある。
The Pile書籍、論文、GitHub、Wikipediaなど多様な情報の集合体。専門性が高く、論理的な文章の学習に適している。
The Stackプログラミング言語のコードに特化した巨大なデータセット。ライセンス(著作権)の扱いに留意が必要。

これらのデータセットは、単体で使われるというより、目的に応じて組み合わせられます。どのデータを多めに配合するかで、モデルの得意分野も変わってきます。

学習データが得意不得意を生む理由

LLMに得意・不得意があるのは、学習データの構成や偏りが一因です。

プログラミングコードを多く学習したモデルは、コードの補完やエラー原因の推測が得意になりやすい。逆に、特定のトピックに関するデータが少なければ、その分野の質問に対しては不自然な回答を返す可能性が高まります。制度、法律、医療、契約のように判断を間違えると困る領域では、LLMの回答だけで完結させないほうが安全です。公式サイトや専門家の確認を挟む前提で使うほうが、実際には扱いやすくなります。

【3】学習データは丸暗記ではない

LLMは、学習データをそのままの形で保存しているわけではありません。AIが回答を生成するプロセスは、蓄積された膨大な文章を「検索」して「切り貼り」することではなく、学習によって得たパターンをもとに、その場で新しい文章を組み立てる作業です。

LLMは文章をそのまま保存しない

LLMが学習を終えたとき、その内部に元のウェブサイトや書籍のテキストファイルが残っているわけではありません。LLMは学習を通じて、文章の構造や意味のパターンを「重み(パラメータ)」という数値の集まりに変換して記憶します。

LLMは、学習データを検索用の文書ファイルとして保存しているわけではありません。とはいえ、学習データに含まれていた表現が、条件によって出力に近い形で現れる可能性はあります。「丸暗記ではないが、完全に無関係でもない」と見るのが近いです。

ChatGPTは毎回ネット検索していない

ChatGPTなどの対話型AIを使っていると、あたかも裏側でGoogle検索をして答えを探しているように見えるかもしれません。しかし、LLMの基本機能としては、ユーザーから質問を受けた瞬間にインターネットへアクセスしているわけではありません。

ブラウジング機能などを使わない場合、LLMは学習済みモデルの内部にある情報をもとに回答します。学習後に起きた出来事は、外部情報を参照しない限り正確には扱えません。そのため、学習が終わった後に起きた最新のニュースについて質問しても、正確に答えることはできません。

学習データとパラメータの違い

ここで「学習データ」と「パラメータ」の違いを整理しておきます。

学習データはLLMが学ぶための「材料(情報源)」です。パラメータは、その材料から学んだパターンがモデル内部に反映された「数値の重み(調整結果)」です。

モデルの規模を表す際によく使われる「数千億パラメータ」といった言葉は、それだけ複雑で繊細な言葉のつながりを保持できる仕組みの大きさを指しています。学習データは入力される情報であり、パラメータは学習後にモデルの中へ残る成果物です。

【深掘り記事|A02-02】LLMのパラメータとは?モデルの“賢さ”を左右する数字の意味

同じ質問でもAIごとに答えが違う理由

同じ質問をしても、サービスによって回答が異なるのは、それぞれが学んだ「学習データの配合」と「パラメータの調整方法」が違うからです。

あるモデルはプログラミングコードを重点的に学んでいるかもしれませんし、別のモデルは対話データをより多く取り込んでいるかもしれません。私たちが感じる「性格」の違いは、学習データの構成だけでなく、学習後の調整や安全設計にも左右されます。同じような質問でも、サービスごとに答え方が違うのはそのためです。

もっともらしい誤回答が出る理由

AIが事実とは異なることを、あたかも真実のように答えてしまう現象を「ハルシネーション」と呼びます。

これは、LLMが「事実の正確性」をチェックする装置ではなく、「次に続く確率が高い言葉」を繋げる仕組みだからこそ起きます。情報が少ない領域では、LLMは足りない部分を推測で補いやすくなります。その結果、存在しない名称や、もっともらしい説明を作ってしまうことがあります。丸暗記ではないからこそ柔軟に文章を作れる一方で、事実関係がゆらぎやすいという側面があるのです。

こうしたLLMの特性を踏まえると、次に気になるのは「では、どう補えばいいのか」です。

【4】事前学習・調整・RAGの違いを分ける

LLMを実務で活用する際によく耳にする「事前学習」「ファインチューニング」「RAG」は、それぞれLLMに知識を与える「タイミング」と「方法」が異なります。これらを混同すると、「自社データを学習させたはずなのに、古い情報が混ざる」といったミスマッチが起きます。それぞれが何を変えるのかを整理しておくと、ツール選びの判断がしやすくなります。

事前学習はLLMの基礎体力を作る

事前学習とは、LLMが世の中に出る前に行われる、大規模なデータを使った最初期のトレーニングのことです。この段階で、文章の続き方、質問への返し方、論理のつなげ方など、幅広い出力の基本部分が作られます。

事前学習には膨大な計算リソースと時間が必要なため、一般的なユーザーや企業がゼロから行うことはほとんどありません。すでに事前学習が済んだChatGPTやClaudeなどのモデルを利用するのが一般的です。

【深掘り記事|A02-03】LLMの仕組みを図解で理解する|言語モデルが文章を生成する流れ

ファインチューニングは用途に寄せる

ファインチューニング(微調整)とは、事前学習済みのモデルに対して、特定の目的や分野に特化したデータを追加で読み込ませ、回答の質を調整する工程です。

ファインチューニングで変えやすいのは、専門用語への反応や回答の型です。たとえば、FAQに近い受け答えを安定させたい、特定の文体で返したい、といった場面で使われます。回答のトーンや形式を一定に保ちたい場合に向いている手法です。

RAGは外部情報を参照して補う

RAG(検索拡張生成)は、LLMが回答を生成する際に、外部のデータベースやファイルを「その場で検索して参照する」仕組みです。厳密にはLLMに新しい知識を「学習」させているわけではありません。

イメージとしては、試験会場に教科書を持ち込んで調べながら解答するようなものです。LLMは与えられた資料の中から該当する箇所を見つけ出し、それをもとに文章を組み立てます。学習データには含まれていない最新情報や、社内の機密マニュアルに基づいた回答をさせたい場合に向いています。

学習と参照を混同しない見方

違いを見るときは、モデル自体が変わるのか、回答時に外部情報を参照するだけなのかで分けるとわかりやすいです。事前学習やファインチューニングはモデル側に影響しますが、RAGは基本的にモデル自体を書き換えはしません。

項目事前学習ファインチューニングRAG(外部参照)
目的言語の基礎知識の習得特定の分野・形式への特化最新・個別情報の正確な反映
使うデータ巨大な公開データ専門的な追加データ自社資料や最新ニュース
モデルの変化新しく作成される更新(書き換え)される変化しない
向いている用途汎用的な知能の開発専門用語の理解・口調の固定社内FAQ・最新情報の検索

最新の社内資料を根拠に答えさせたい場合は、RAGで資料を参照させるほうが向いています。一方で、回答の口調や形式を一定にしたい場合は、ファインチューニングが選択肢になります。どちらが優れているかではなく、目的に応じて使い分ける考え方です。

【5】学習データの質が回答精度を左右する

学習データは、多ければよいというわけではありません。広告だらけのページ、重複した文章、古い情報、文脈が切れたテキストが混ざれば、LLMの回答にもその荒さが出ます。この章では、その「質」の中身を分けて見ていきます。

データ量だけでは精度は決まらない

一定の量を超えると、単純な増量よりも質が重要になります。

たとえば、同じ文章が何度も重複していたり、広告文や意味の薄いページが多く混ざっていたりすると、モデルはそのノイズまで学んでしまいます。データ量が増えても、中身が荒ければ回答も荒れやすくなります。ここで言う質の高いデータとは、内容が正確なことだけではありません。重複が少ないこと、ノイズが除かれていること、文脈が壊れていないことも含まれます。

データ配合でモデルの傾向が変わる

LLMの得意分野や回答の傾向は、学習データの配合比率によって大きく変わります。

ソースコードを多めに配合すればプログラミングに強いモデルになりやすく、対話データを増やせば親しみやすい話し方に寄りやすくなります。開発者は、数学、コード、一般常識といった異なるジャンルをどのようなバランスで混ぜ合わせるかを緻密に計算しています。ただし、最終的な口調や安全性は学習後の調整にも左右されるため、データ配合は「傾向を作る一因」と捉えるのが自然です。

前処理とアノテーションで質を上げる

生のデータは、そのままだとノイズも多く、LLMにとって扱いやすい形ではありません。不要な情報を落とし、表記をそろえ、必要に応じてラベルを付けることで、ようやく学習に使いやすいデータになります。

工程内容・目的回答品質への影響
クリーニング重複、広告、意味のない記号などの除去回答からノイズが減り、一貫性が増す
正規化表記揺れ(例:サーバーとサーバ)の統一知識の結びつきが正確になる
フィルタリング有害な内容や偏った情報の排除安全で中立的な回答が可能になる
アノテーションデータに「正解」や「意図」のラベルを貼る複雑な指示への理解度が向上する

古い学習データは古い回答につながる

LLMには「ナレッジカットオフ」と呼ばれる知識の期限があります。学習を終えた時点までのデータしか持っていないため、それ以降に起きた出来事については基本的に知りません。

たとえば、2024年までのデータで学習を終えたモデルに、2025年の出来事について尋ねても、「存在しません」と答えたり、過去の情報を混ぜて作り話をしたりすることがあります。業務で使う際には、そのモデルがいつまでのデータを元にしているかを把握しておくと、誤った判断を避けやすくなります。

偏った学習データは回答にも出る

学習データに偏り(バイアス)があると、LLMの回答にもその傾向が反映されます。

インターネット上の文章には、特定の文化圏への偏りや、性別・職業に対するステレオタイプが含まれていることが少なくありません。LLMは善悪を自ら判断しているわけではなく、あくまでデータの中にある「傾向」を学びます。これを防ぐために、最新のモデルではデータの選別や、学習後のガードレール設置に多大な労力が注がれています。

データ品質はハルシネーションにも関わる

ハルシネーションも、学習データの品質と深く関わっています。

データの中に矛盾する情報が混ざっていたり、特定のトピックに関する情報が極端に少なかったりすると、LLMは足りない部分を推測で補いやすくなります。その結果、存在しない名称や、もっともらしい説明を作ってしまうことがあります。「何が正しいか」が明確な高品質データで学習している領域ほど、回答は安定します。逆に、情報が薄い領域では誤回答のリスクが上がります。

【6】LLMの限界を前提に安全に使う

LLMの仕組みが少し見えてくると、次に気になるのは使うときの線引きです。社内資料を入力していいのか。AIの答えをそのまま資料に使っていいのか。その判断に必要なポイントを整理します。

入力したデータはどう扱われるのか

ユーザーがChatGPTなどの対話型AIに入力したプロンプトやデータは、サービスの提供元によって扱いが異なります。

以前は「無料版は学習に使われ、有料版は使われない」といった大まかな分類もありましたが、現在はサービス、プラン、設定、利用する地域によってもルールが変わります。気をつけたいのは、入力した機密情報や個人情報が、あとからモデル改善に使われるケースです。サービスごとに扱いが違うため、業務で使う前にデータ利用設定と規約を確認しておきます。

回答時の利用と学習利用は違う

混同しやすいのが、「回答のために一時的に読み込むこと」と「将来のモデルのために学習すること」の違いです。

推論(回答時の利用)は、ユーザーの質問に答えるために入力された文章を一時的に解析することです。回答を返すために必須の工程です。学習(モデルの改善)は、そのデータをLLMの仕組みそのものに定着させることです。

見るべき点は、入力データがその場の回答だけに使われるのか、モデル改善のために保存・利用されるのかです。この2つを分けるだけでも、使ってよい情報の線引きがしやすくなります。

機密情報を入れる前に確認すること

プラン名だけでは、安全かどうかは判断しきれません。業務データを扱う前に見るべきなのは、次の4点です。

確認すべきポイント内容の例
学習利用の有無入力データがモデルの改善(再学習)に使われない設定になっているか
データの保存期間サーバー上にどの程度の期間、会話履歴が残る仕組みか
管理者の制御組織の管理者が一括で履歴のオフや利用制限をかけられるか
社内ルール自社のセキュリティポリシーで許可されている環境か

たとえ学習に利用されない規約であっても、サービス提供側のサーバーを介することに変わりはありません。個人情報のマスキングなどの配慮も合わせて検討します。

著作権と個人情報で注意すること

AIの文章を公開するなら、まず既存の著作物に近すぎないかを見ます。特定の作家や作品を指定して生成させた場合は特に注意が必要です。

もうひとつは個人情報です。入力するときに余計な個人情報を含めないこと、出力に第三者の情報が混じっていないこと。学習データに含まれる古い個人情報が「事実」として回答に混じってしまう可能性もあるため、公開前に人間による確認を挟みます。この2点は、公開前に見ておきたい部分です。

学習データを知ると聞き方も変わる

LLMが知らない情報を無理に答えさせるより、必要な資料をこちらで渡す。RAGの仕組みを応用して「この資料(最新データ)を元に要約して」と、判断の材料をこちらから与える使い方が効果的です。これだけでも、もっともらしい作り話はかなり避けやすくなります。

AIの回答を確認して使う判断軸

回答をどこまで信用してよいか迷ったときは、情報の種類によって確認の優先度を分けます。

論理・構成案(比較的使いやすい領域)は、文章の要約、翻訳、プログラミング、アイデア出しなどです。ただし、元資料の読み違いや重要情報の抜けは起こりうるため、目を通す必要があります。

事実・数値(厳重な確認が必要な領域)は、固有名詞、日付、統計数値などです。固有名詞、日付、統計数値は、AIの回答だけで確定しないほうが安全です。公式サイトや一次資料と照らし合わせてから使う前提にします。

データ枯渇と合成データの今後

近年は、高品質な人間由来の学習データをどれだけ確保できるのかも論点になっています。そのため、AIが生成した「合成データ」を学習に使う手法や、より少量のデータで効率よく学ぶ技術が注目されています。

学習データの仕組みがわかると、AIの答えを少し冷静に見られるようになります。得意そうな回答でも、最新情報や数値は確認する。知らないはずのことを断言していたら疑う。そのくらいの距離感が、実際にはいちばん使いやすいはずです。

【深掘り記事|G02-03】AI技術トレンドまとめ|マルチモーダル・RAG・エージェントは何が変わるのか

編集後記

LLMの学習データという言葉は、少し無機質に聞こえます。ただ、その中身を覗いてみると、そこには私たち人間がこれまでに積み上げてきた言葉の断片がぎっしりと詰まっています。Webの世界に長く身を置いてきましたが、かつては単なる「情報の束」だったデータが、今やこうして対話の相手になることに、日々驚きと面白さを感じています。

AIは、わかってくるほど便利です。ただ、何でも知っているわけではありません。こちらが少し疑いながら、必要なところで資料を見に戻る。そのくらいの距離感が、今のところいちばん付き合いやすいと感じています。あまり難しく考えすぎず、新しい時代の相棒と適切な距離感で対話を重ねてみてください。

参照・参考サイト

IBM・大規模言語モデル(LLM)とは
https://www.ibm.com/jp-ja/think/topics/large-language-models

ブレインパッド・大規模言語モデル(LLM)のエンジン:データセットの解説
https://www.brainpad.co.jp/doors/contents/01_tech_2023-06-02-163008/

国立情報学研究所・約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4」を公開
https://www.nii.ac.jp/news/release/2026/0403.html

IBM・検索拡張生成(RAG):事実に基づくデータによるLLMの強化
https://www.ibm.com/jp-ja/think/architectures/patterns/genai-rag

OpenAI ヘルプセンター・データコントロールに関する FAQ
https://help.openai.com/ja-jp/articles/7730893-data-controls-faq

文化庁・AIと著作権について
https://www.bunka.go.jp/seisaku/chosakuken/aiandcopyright.html

執筆者|飛蝗
SEO改善、情報収集、記事構成の設計から、ブログの見出し画像プロンプトの作成まで、日々の制作業務に生成AIを幅広く取り入れています。検索意図の整理や文章リライトだけでなく、SWOT分析などのマーケティング領域でもAIを活用し、判断の精度を高める取り組みを続けています。 記事の内容は、一次情報や最新の技術動向を確認しながら整理し、読者が実践で迷わないように構造化しています。生成AIを“特別な技術”ではなく、創作や業務を前に進めるための実用的な道具として届けていくことを大切にしています。
飛蝗をフォローする
基礎知識
シェアする
飛蝗をフォローする

コメント

タイトルとURLをコピーしました