生成AIの記事を読んでいると、LLM、RAG、トークン、ハルシネーションといった言葉が次々と出てきて、一つ調べるたびにまた別の新しい知らない言葉が増えていく。そのうち「意味はなんとなくわかったけれど、つながりが見えない」という状態に入りやすくなります。
このページは、そのつながりを整理するためにある。一語ずつ意味を覚える用語集としてではなく、「どの言葉がどの場面で登場し、何と関係しているか」の全体を見渡せるツールとして使ってほしいです。
最初に用語全体を5つに分類して俯瞰し、次に特によく使われる10語をまとめています。混同されやすい言葉の違いは比較で示し、最後に実務で出てくる用語と注意点をまとめていますので、最初から順に読んでもいいし、気になる章から拾い読みしても構いません。
先に全体像が見えていると、あとで個別の用語に出会ったときに、なんの話なのか見当がつきやすくなります。
【1】生成AI用語集の読み方を最初に整理する
この章では、この記事をどう読むと理解が早いかを先に示します。
生成AI用語は「つながり」を先につかんでおくこと
生成AIの記事で用語に迷いやすいのは、言葉が孤立しているのではなく、互いに意味を支え合う作りになっているからです。「RAGとは何か」を調べようとすると「推論」や「学習データ」の話が出てくる。一語を調べるたびに別の言葉が増えていくのは、そういう仕組みになっているためです。
だから、一語ずつ追いかけるより、先に全体像を知っておくほうがよいです。このページでは用語の厳密な深掘りまではせず、「その言葉がどの場面で出てくるのか、ざっくりどういうものか」の想像がつくことを目指しています。
AI・機械学習・深層学習・生成AIの位置関係を知る
生成AIの記事で最初に混乱しやすいのが、「AI」「機械学習」「深層学習」「生成AI」の関係です。これらは同じようにみえて実は違うものです。
大きな枠から順に整理すると、AIの中に機械学習があり、機械学習の中に深層学習があり、その応用として生成AIがある、ということなんです。
| 概念 | 位置づけ | 一言で言うと |
|---|---|---|
| AI(人工知能) | 最も広い概念 | 人間の知的な働きをコンピュータで再現する技術全般 |
| 機械学習 | AIの一分野 | データから規則やパターンを自動で学ぶ手法 |
| 深層学習(ディープラーニング) | 機械学習の一手法 | 人間の神経回路を模した多層構造で学習する技術 |
| 生成AI | 深層学習の応用 | テキスト・画像・音声などを新たに生成できるAI |
この階層を先に知っておくと、「LLM」「GPT」「AIモデル」などといった言葉が出たときに、どの層の話かを判断しやすくなります。
【関連記事|A01】生成AIとは何か?仕組み・種類・できることをまとめて学べる基礎ガイド
最初にしっておく用語と後からでOKな用語を分ける
生成AIに関する用語は数十語以上ありますが、最初から全部を知っておく必要はありません。
まず覚えておきたいのは、生成AI・AIモデル・LLM・学習データ・推論・プロンプト・トークン・コンテキスト・RAG・ハルシネーションの10語です。生成AIの記事や業務でほぼ必ず登場する言葉で、これらの位置づけがわかると、前後の文脈を追いやすくなります。
逆に、ファインチューニングの技術的な詳細、パラメータの設計、モデルのアーキテクチャといった話は、生成AIを使いこなす段階で少しずつ知っておけば十分なことが多いです。最初の段階では、まずは知っておいて欲しい基本の用語をおさえておきましょう。
【2】生成AIの全体像を5分類でつかむ
生成AIの用語は、大きく5つのカテゴリに分けて見るとわかりやすいです。
①AIの土台となる概念、②モデルの種類、③学習と推論の仕組み、④使うときの用語、⑤精度改善と注意点、の5つです。
個々の用語の定義は次章で整理しますので、ここでは「どこに何があるか」の全体像をつかむことを目的にして読んでください。
①AIの土台——従来のAIと生成AIの役割の違い
まず押さえておきたいのは、「従来のAI」と「生成AI」の役割の違いです。
従来のAIは、スパムメールの判定・画像の識別・売上の予測など、与えられたデータに対して「分類」「判定」「予測」を行うことを主な役割としていました。生成AIはこれとは異なり、テキスト・画像・音声・コードなどを新しく「作り出す」方向に能力が向いています。
この違いを先に知っておくと、「生成AI」という言葉が出るたびに「何かを作る側のAIの話だ」と文脈を整理しやすくなります。
【関連記事|A01-02】生成AIでできること総まとめ|文章・画像・動画はどこまで作れるのか?
②モデルの種類——生成AI・AIモデル・LLMの位置関係
「生成AI」「AIモデル」「LLM」は記事の中で入れ替わって登場することが多いですが、指している範囲はそれぞれ違います。
最も広い概念が「生成AI」で、その中に「テキスト生成に特化したAIモデル」がある。その代表格が「LLM(大規模言語モデル)」という入れ子の構造です。ChatGPTやGemini、Claudeといったツールは、LLMを中核として動いている生成AIサービスです。
【関連記事|A01-05】生成AIの種類と特徴|文章・画像・動画モデルの違いがひと目でわかる
③学習と推論の仕組み——モデルが動く二つのフェーズ
ここでよくあるのが、学習と推論を同じものだと思ってしまうことです。この二つはまったく別のフェーズを指しています。
学習データ・パラメータ・推論の3語は、「モデルがどう育ち、どう動くか」を見るための言葉です。モデルを育てるのが学習、育てたモデルを使うのが推論、という順番で理解しておくと一番わかりやすいです。
【関連記事|A01-01】生成AIの仕組みをやさしく解説|モデルが答えをつくる流れとは?
④使うときの用語——ユーザーがAIとやり取りする言葉
使い始めてすぐに目につくのが、プロンプト・トークン・コンテキストの3語です。どれも「入力したあと、AIの中で何が起きているか」に関わっています。
プロンプトは人間が書く指示、トークンはモデルが処理する単位、コンテキストはモデルが参照できる情報の範囲、という役割の違いがあります。実際に生成AIを使い始めると、この3語は特に意識する場面が増えてきます。
⑤精度改善と注意点——出力の質と信頼性に関わる言葉
RAG・ハルシネーション・ファインチューニングは、「生成AIを正しく使う・評価する」なかで登場することが多い言葉です。
RAGとファインチューニングは精度を高めるための手法、ハルシネーションは生成AIが持つ誤出力のリスクを指します。使う側として知っておきたい「精度と信頼性」の話がここに集まっています。
5分類で見る用語のつながり
5つのカテゴリを、生成AIを実際に使う流れにそってみてみると、用語同士のつながりが見えやすくなります。
開発者が大量の学習データを使ってAIモデルのパラメータを調整する(学習)。ユーザーは完成したモデルにプロンプトを入力し、モデルはトークン単位で処理して回答を出す(推論)。回答の精度を高めるためにRAGで外部情報を参照することもある。出力にはハルシネーションが含まれる可能性があるため、重要な内容はファクトチェックが必要になる。
このフローを頭に置いておくと、それぞれの用語が「どの場面の言葉か」を判断しやすくなります。
【関連記事|A01-03】生成AIの歴史|ブレイクスルーを生んだ技術と時代の流れ
【3】まず知っておきたい重要10語
生成AIの用語は数多くありますが、最初から全部を覚える必要はありません。この章では、生成AIの記事や業務で特によく登場する重要10語を一語ずつ整理します。前章の5分類で位置づけを確認しながら読むと、それぞれの言葉がどの場面の話かをつかみやすいと思います。
重要10語の一覧
| # | 用語 | ひと言で言うと | 分類 |
|---|---|---|---|
| 1 | 生成AI | テキスト・画像などを新たに生み出すAI | ①AIの土台 |
| 2 | AIモデル | データを学習して判断・生成をこなす仕組み | ②モデルの種類 |
| 3 | LLM | 大量のテキストを学習した大規模な言語モデル | ②モデルの種類 |
| 4 | 学習データ | AIモデルが学習するために使われるデータ群 | ③学習と推論 |
| 5 | パラメータ | 学習を通じて調整されるモデル内部の数値群 | ③学習と推論 |
| 6 | 推論 | 学習済みモデルが入力に対して出力を生成する処理 | ③学習と推論 |
| 7 | プロンプト | AIに与える指示や質問のテキスト | ④使うときの用語 |
| 8 | トークン | AIがテキストを処理する際の最小単位 | ④使うときの用語 |
| 9 | コンテキスト | AIが回答時に参照できる情報の範囲 | ④使うときの用語 |
| 10 | RAG | 外部データを検索して回答精度を高める手法 | ⑤精度改善と注意点 |
ハルシネーションはその次の11語目として合わせて押さえておきたい言葉です。重要10語の理解が整ったあとに確認するとつながりやすいです。
生成AI・AIモデル・LLM
生成AIは、文章や画像などを新しく作り出せるAIの総称です。ChatGPTやGemini、Claudeのようなサービスがここに入ります。「判定する」ではなく「作り出す」ことに特化している点が従来のAIとの大きな違いです。
AIモデルは、その裏側で動いている仕組みそのものを指します。生成AIの中核を担うエンジン、と考えるとつかみやすいです。ChatGPTであれば「GPT-4o」、Claudeであれば「Claude 3.5 Sonnet」などが具体的なAIモデルの名称にあたります。
LLM(大規模言語モデル)は、大量のテキストデータを学習し、文章の生成・要約・翻訳・質問応答などを行えるAIモデルの一種です。Large Language Modelの略で、現在のテキスト系生成AIの多くはLLMを中心として動いています。
三つの関係を整理すると、LLMはAIモデルの一種であり、LLMを使ったシステムが生成AIとして提供される、という入れ子の構造になります。
学習データ・パラメータ・推論
学習データとは、AIモデルが学習するために使われる大量のテキスト・画像・音声などのデータのことです。LLMの場合、ウェブページ・書籍・論文・コードなど膨大な量のテキストが使われており、モデルの能力はこの学習データの質と量に大きく依存します。
パラメータとは、AIモデルが学習を通じて調整する内部の数値群のことです。「どの言葉の次にどの言葉が来やすいか」といった傾向を膨大な数値として蓄積していくイメージで、LLMが「大規模」と呼ばれる背景にはこの数の多さがあります。記事によってさまざまな数値が出てきますが、モデルや情報の更新時期によって変わるため、そこだけ追っても全体像はつかみにくいです。「モデルの中で調整される膨大な数値」くらいに思っておけば十分です。
推論とは、学習済みのAIモデルが新しい入力(プロンプト)に対して出力を生成する処理のことです。ChatGPTに質問を送り、回答が返ってくるまでの動きがこれにあたります。学習がモデルを「育てる」フェーズなら、推論は育てたモデルを「使う」フェーズです。
【関連記事|A01-06】AIモデルとは?パラメータ・学習データから理解する基礎知識
プロンプト・トークン・コンテキスト
プロンプトとは、生成AIに与える指示・質問・依頼などのテキストのことです。「この文章を要約してください」「〇〇について300字で説明してください」というAIへの指示がプロンプトにあたります。書き方によって出力の質が大きく変わるため、実務では特に意識される言葉です。
トークンとは、AIモデルがテキストを処理する際の最小単位のことです。英語では単語に近い単位で分割されますが、日本語では数文字単位になることが多く、英語よりトークン効率を意識したほうがよい場面があります。処理コストや入力上限に直結するため、使い続けるうちに想像以上に頻繁に意識する言葉になります。
コンテキスト(文脈)とは、AIモデルが回答を生成する際に参照できる情報の範囲のことです。会話の履歴や追加で渡した資料がコンテキストに含まれます。参照できる情報量には上限があり、これを「コンテキストウィンドウ」と呼びます。長い文書を丸ごと貼り付けたときに「途中から内容を参照できていない」という現象が起きる場合、このコンテキストウィンドウの上限が関係していることが多いです。
【関連記事|B01】プロンプトの作り方|思考の型・設計手順・使い回し方までを総まとめ
RAGとハルシネーション
RAG(Retrieval-Augmented Generation)とは、回答を生成する時に外部のデータベースや文書を検索して、その内容を参照してから出力を生成する手法のことです。日本語では「検索拡張生成」とも呼ばれます。通常のLLMが学習データの範囲でしか回答できないのに対し、RAGを使うと最新情報や社内文書などをリアルタイムで探しながら回答をもらうことができます。
ハルシネーションとは、生成AIが事実と異なる情報を、あたかも正しいかのように出力してしまう現象のことです。AIがよく嘘をつくとはこれのことです。例えば存在しない書籍の書名や誤った数値を自然な文体で出力するケースがこれで、「知らないから答えない」のではなく「それらしく答えてしまう」点が問題になります。会議資料や社外向け文章にそのまま使う前に、元の情報を確認する手間は残しておきたいところです。
重要10語を押さえたら次へ進む
この章で整理した10語は、それぞれ技術的に深掘りできる言葉でもあります。まずは「どの分類に属していて、何と関係しているか」がわかれば十分です。より正確な技術定義を確認したい場合は、OpenAI・Google・Anthropicなどの公式ドキュメントを参照するとよいでしょう。
【4】よく混同する生成AI用語の違い
意味は調べたことがあっても、「で、あの言葉と何が違うの?」という疑問が残りやすい言葉があります。この章では、特に混同されやすい言葉のペアを取り上げ、その違いで整理します。定義の説明は前章でしましたので、ここでは「どう違うか」絞って解説します。
AIと生成AIの違い
AIと生成AIは、言葉が似ているぶん混ざりやすいです。整理すると、AIが広い箱で、生成AIはその中でも「作る」側の技術です。
AIは認識・判断・予測・生成まで含む広い概念で、生成AIはその中の「新しいコンテンツを作り出す」能力に特化した技術です。日常会話では混用されることも多いですが、記事の文脈では「AIという大きなカテゴリの中に生成AIがある」という包含関係として読むと整理しやすいです。
AIモデルとLLMの違い
LLMはAIモデルの一種です。ここが逆になると、用語の位置関係が一気にわかりにくくなります。
AIモデルは画像分類・音声認識・テキスト生成など、あらゆる用途のモデルを含む総称です。LLMはその中の一種で、テキスト処理に特化した大規模なモデルを指します。「LLM=テキストを扱うAIモデルの代表格」と押さえておくと混乱しにくいです。
学習と推論の違い
学習と推論は、同じAIモデルの話でも、まったく別のフェーズです。
学習はモデルを「育てる」フェーズで、大量のデータをもとに内部パラメータを調整していく処理です。一般のユーザーが日常的に関わるものではなく、主にモデルを開発・提供する側が担う工程です。推論は育てたモデルを「使う」フェーズで、ユーザーがプロンプトを送り、回答が返ってくるまでの処理がこれにあたります。
学習は向こう側、推論はこっち側と認識しておくとよいです。
この二段階の構造を意識しておくと、ファインチューニングやRAGといった改善手法の話も理解しやすくなります。
プロンプトとトークンの違い
どちらも「入力」に関わる言葉ですが、指している層が違います。
プロンプトは人間が意味を持って書く入力の単位、トークンはモデルがプロンプトを処理する際に分割する内部の単位です。ユーザーが意識するのはプロンプトの内容ですが、モデルが実際に処理するのはトークンの列になります。「人間が書く入力=プロンプト」「モデルが処理する単位=トークン」と層を分けて理解しておくとよいでしょう。
RAGとファインチューニングの違い
どちらも精度を高める手法ですが、アプローチの向きがまったく異なります。RAGは外から情報を足す方法で、ファインチューニングはモデルそのものを調整する方法です。まずこの向きの違いが見えていれば十分です。
| 観点 | RAG | ファインチューニング |
|---|---|---|
| 何を変えるか | モデルには手を加えず、参照情報を補う | モデル自体のパラメータを調整する |
| 向いている用途 | 最新情報・社内文書の参照 | 特定ドメインへの最適化 |
| 導入コスト | 比較的低い | 高い(学習コスト・専門知識が必要) |
| 情報の鮮度 | リアルタイムで更新可能 | 学習時点の情報に依存する |
ハルシネーションとファクトチェックの違い
この二つは、現象と対処のセットとして理解するとわかりやすいです。
ハルシネーションはAIが起こす誤出力の現象で、ファクトチェックはその出力を一次情報と照合して正確性を確認する作業です。LLMは「次に来る確率の高い言葉を選んで文章を生成する」構造で動いているため、知識として持っていない情報を問われても、もっともらしい文章を生成しようとしてしまいます。うそをつくのがハルシネーション、その事実確認がファクトチェックということです。
この章で扱った違いの早見表
| 混同されやすいペア | 違いのポイント |
|---|---|
| AI / 生成AI | AIが広い概念、生成AIはその中の「作り出す」能力に特化した技術 |
| AIモデル / LLM | LLMはAIモデルの一種。テキスト処理に特化した大規模なモデルを指す |
| 学習 / 推論 | 学習はモデルを育てるフェーズ、推論は育てたモデルを使うフェーズ |
| プロンプト / トークン | プロンプトは人間が書く入力、トークンはモデルが処理する内部の単位 |
| RAG / ファインチューニング | RAGは外部情報を補う手法、ファインチューニングはモデル自体を調整する手法 |
| ハルシネーション / ファクトチェック | ハルシネーションはAIの誤出力現象、ファクトチェックはそれを確認する作業 |
【5】実務で出る用語と注意点を押さえる
生成AIを仕事で使い始めると、意味を調べる機会が増えるのが「リスクや注意点に関わる用語」です。この章では、会議やツール画面で出てくる実務用語と、ビジネス利用で知っておきたい安全まわりの言葉を整理します。深い制度論や運用ガイドには立ち入らず、「見かけたときに意味がわかる」レベルを目標にしています。
会議やツール画面で出る実務用語
APIとは、外部のシステムやサービスと機能を連携するための接続インターフェースのことです。「ChatGPTのAPIを使って社内ツールに組み込む」といった形で登場することが多く、生成AIの機能を自社のシステムと繋ぎ合わせる手段として使われます。
システムプロンプトとは、ユーザーが入力するプロンプトとは別に、AIの動作や役割を事前に設定するための指示文のことです。「あなたはカスタマーサポート担当です。丁寧な言葉で回答してください」といった前提設定がこれにあたります。ツールの管理者側が設定するケースが多いです。
コンテキストウィンドウとは、AIモデルが一度の処理で参照できる情報量の上限のことです。会話の履歴・追加した資料・プロンプトの全体がこの範囲に収まる必要があり、上限を超えた情報はモデルに届かなくなります。長い文書を扱う業務では意識しておきたい制約です。
マルチモーダルとは、テキスト・画像・音声・動画など、複数の種類のデータを組み合わせて入力・処理・生成できる生成AIの能力のことです。画像を読み込んで内容を説明させる、音声で質問して文字で回答を受け取るといった使い方がこれにあたります。業務で導入するモデルを選ぶ際、マルチモーダルに対応しているかどうかが判断ポイントになる場面が増えています。
安全利用に関わる用語
オプトアウトとは、入力データをAIの学習に使わせない設定や手続きのことです。反対に利用に同意することをオプトインと呼びます。個人情報や機密情報を扱う前に、使っているサービスが学習にどうデータを扱うのかを先に見ておくと安心です。サービスや契約プランによって仕様が異なるため、一次情報での確認が基本になります。
プロンプトインジェクションとは、悪意のある第三者が意図的に細工した入力をAIに与えることで、本来の設定とは異なる動作を引き起こそうとする攻撃手法のことです。社内文書を読み込んで回答させるRAGシステムや、ウェブ上の情報を取得して処理するエージェントでは、このリスクが特に注意が必要な領域になります。個人利用では直接的なリスクは限定的ですが、業務でAIシステムを設計・運用する立場では知っておきたい概念です。
著作権・個人情報・機密情報の線引き
この三つは「生成AIを使えるかどうか」ではなく、「何を入力してよいかを決めるための判断軸」として押さえておくとわかりやすいです。
著作権については、AI生成コンテンツの権利帰属や、学習データに含まれる著作物の利用をめぐる議論が続いています。業務でAI生成コンテンツを商用利用する際は、利用規約の確認と法的な動向の把握が必要になります。
個人情報については、氏名・住所・メールアドレスなど特定の個人を識別できる情報を生成AIに入力することは、個人情報保護の観点からリスクを伴います。個人情報を含む業務では、企業向けプランやオンプレミス環境の利用が推奨されることが多いです。
機密情報については、未発表の事業計画・顧客情報・財務データなどを一般向けのサービスに入力することは、情報漏洩のリスクにつながります。多くの企業では、社内ガイドラインで機密情報の入力を禁止または制限しています。
【関連記事|A01-04】生成AIの注意点|誤情報・著作権・プライバシーをどう扱うか?
実務用語の早見表
| 用語 | 実務での意味づけ |
|---|---|
| API | 生成AIの機能を自社システムに組み込むための接続手段 |
| システムプロンプト | AIの動作や役割を事前に設定する指示文 |
| コンテキストウィンドウ | AIが一度に参照できる情報量の上限 |
| マルチモーダル | テキスト以外のデータも扱えるAIの能力 |
| オプトアウト | 入力データを学習に使わせない設定や手続き |
| プロンプトインジェクション | 外部データ経由でAIを誤作動させる攻撃リスク |
| 著作権/個人情報/機密情報 | 何を入力してよいかを判断するための実務上の基準 |
安全に使ううえで、まず気にしたいのはこの二つです。入れていい情報かどうか。出てきた答えをそのまま使っていいかどうか。ここを外さなければ、大きな事故は起こしにくいです。
【関連記事|C01】生成AIの使い方|文章作成・会議・自動化まで“仕事で使いこなす”実践ガイド
まとめ
ここまで読んで、用語の位置関係が少しでも見えてきたなら、このページの役割は果たせています。
この記事では、生成AIの用語を全体像から順に整理してきました。5分類で全体像をつかみ、重要10語の位置づけを確認し、混同しやすい言葉の違いを比較し、実務で出る用語と注意点を押さえました。
最初から全部を覚えなくていいです。まずはよく出てくる言葉が出てきたときに、どういった類の話かがわかれば十分です。細かい技術用語は、その後に必要になったタイミングで理解していけば、自然につながっていきます。
特に「生成AI・LLM・プロンプト・トークン・コンテキスト・RAG・ハルシネーション」の7語の位置づけがわかると、生成AIに関する記事や社内の議論をかなり追いやすくなります。
編集後記
用語は増え続けますが、先に地図があるだけで追いかけ方はかなり変わります。
生成AIの記事を読んでいたり社内の会話などで、知らない言葉に出会うたびに隠れてスマホでぽちぽちと調べたり、という経験は珍しくないと思います。このページがそういったことを減らす手助けになれていたら嬉しいです。
参照・参考サイト
NEDO・「AI」知っておきたい基礎知識
https://www.nedo.go.jp/activities/introduction_100028_01.html
Google for Developers・大規模言語モデルの概要 | Machine Learning
https://developers.google.com/machine-learning/crash-course/llm?hl=ja
AWS・RAG とは何ですか? – 検索拡張生成 AI の説明
https://aws.amazon.com/jp/what-is/retrieval-augmented-generation/
IPA・テキスト生成AIの導入・運用ガイドライン
https://www.ipa.go.jp/jinzai/ics/core_human_resource/final_project/2024/generative-ai-guideline.html
OpenAI・モデルのパフォーマンスを向上させるためのデータの使用方法
https://openai.com/ja-JP/policies/how-your-data-is-used-to-improve-model-performance/
文化庁・AIと著作権について
https://www.bunka.go.jp/seisaku/chosakuken/aiandcopyright.html

コメント