回帰・分類・クラスタリングが問われる理由と全体像
AIF-C01では、AIとMLの基本を「用語として知っている」だけではなく、「そのユースケースならどの手法を選ぶか」を整理できることが前提として扱われやすいです。実務でも試験でも、迷いが生まれるのはアルゴリズム名を知らないからではなく、設問の言い回しが似ていて、目的が混ざって見えるからです。
まず大枠を揃えます。
- 回帰:連続値を予測する。売上金額、需要量、温度、所要時間など「数そのもの」を当てにいく
- 分類:カテゴリを予測する。解約するしない、不正か正常か、故障の種類など「ラベル」を当てにいく
- クラスタリング:正解ラベルがない状態で、似ているもの同士をグルーピングする。顧客セグメント、行動パターンの類型化など
ここで重要なのは、分類とクラスタリングがどちらも「グループ分け」に見えることがある点です。分類は正解ラベルがあり、クラスタリングは正解ラベルがない。この一本で、設問の半分は整理できます。
AIF-C01対策で評価の高いUdemy講座をまとめて確認できます。👇
セール時は1,500円前後で購入できることもあります。
まずここだけ 3秒で判定する最短チェックリスト
設問で迷ったら、次の順番で確認します。文章のどこかに必ずヒントがあります。
チェック1 予測したい答えは何か
- 数そのもの → 回帰
- 種類や状態 → 分類
- まだ名前のないまとまり → クラスタリング
チェック2 正解ラベルはあるか
- 過去データに「正解」が付いている(解約フラグ、不正フラグ、故障ラベルなど)→ 回帰か分類
- 正解が付いていない(似た行動の集団を見つけたい、特徴の近いものをまとめたい)→ クラスタリング
チェック3 目的は予測か理解か
- 未来や未知を当てたい → 回帰・分類
- まず現状を整理して、セグメントや構造を把握したい → クラスタリング(その後に分類へ進むことも多い)
チェック4 出力の形を想像する
- 42.7、1200、0.13のような連続値 → 回帰
- A/B/C、不正/正常、故障1/2/3 → 分類
- グループ1〜k、似た者同士の塊 → クラスタリング
このチェックリストは暗記より強いです。設問の単語が難しくても、最終的に欲しい出力の形はだいたい想像できます。
回帰を選ぶ判断基準 数値を当てるだけでは足りない
回帰は「数を予測する」と言われますが、試験で引っかかりやすいのは、数が出てきても回帰とは限らないケースです。判断ポイントをもう一段だけ深くします。
回帰の典型パターン
- 需要予測:来月の販売数、明日のアクセス数、在庫が切れるまでの日数
- 価格や金額の推定:顧客の生涯価値、次回購入金額、保険料の見積もり
- 時間や量の見積もり:配送時間、作業時間、消費電力
このとき、評価指標のイメージもセットにすると迷いが減ります。回帰では、予測値と正解値のズレを測るために RMSE や MAE などが使われやすい、という方向感です。
回帰っぽいのに分類かもしれない分岐点
たとえば「リスクスコアを算出する」という言い回し。スコアは数なので回帰に見えますが、設問の目的が「不正か正常かを判定したい」であれば、内部的に確率やスコアを出していても本質は分類です。
このときの見分け方はシンプルで、スコアを最終成果物として使うのか、判定のための中間値なのかを見ます。
- 最終的に「不正判定の自動化」が目的 → 分類
- 最終的に「スコアそのものを意思決定に使う(優先順位付け、限度額調整)」→ 回帰寄りの設計もあり得る
試験では「何を当てたいか」を問われるので、スコアという単語に引っ張られず、最終アウトプットを取りにいくのがコツです。
分類を選ぶ判断基準 境界が曖昧なときの考え方
分類は「ラベルを当てる」です。ここでいうラベルは2択とは限りません。2択なら二値分類、複数なら多クラス分類です。
分類の典型パターン
- 二値分類:解約するしない、不正か正常か、故障するしない
- 多クラス分類:問い合わせカテゴリの自動振り分け、商品のジャンル分類、画像の種類判定
分類を見抜く設問の言い回し
次の表現が出たら、分類を疑って良いことが多いです。
- 「判定する」「識別する」「振り分ける」「どれに該当するか」
- 「AかBか」「正常か異常か」
- 「カテゴリ」「ラベル」「クラス」
一方で、「ランキングする」「優先度を付ける」という言い回しは、分類にも回帰にも寄り得ます。ここで分岐点になるのが、クラスが決まっているかどうかです。
- 優先度が高・中・低の3種類に振り分けたい → 分類
- 優先度スコアを0〜100で付けたい → 回帰寄り
分類で混乱しやすいポイント 確率の扱い
分類モデルは「クラス」だけでなく「確率」を出すことがよくあります。設問に「確率」「スコア」と書かれていても、最終的にクラスを選ぶなら分類です。
ここも、出力の形を想像するのが最短です。
クラスタリングを選ぶ判断基準 正解ラベルがない問題の読み方
クラスタリングは、教師なし学習の代表例として扱われます。ラベルがないデータから、似たもの同士の塊を見つけます。
クラスタリングの典型パターン
- 顧客セグメンテーション:購買頻度、単価、閲覧行動が似ている顧客群を見つけたい
- 行動パターンの類型化:アプリ利用ログから「使い方のタイプ」を発見したい
- 似ている商品のグループ化:特徴量から近い商品をまとめ、棚割りや推薦の材料にする
クラスタリングを見抜く設問の言い回し
- 「グループに分けたいが、正解はない」
- 「傾向を見つけたい」「パターンを発見したい」
- 「セグメントを作りたい」「類似した集団を抽出したい」
ここで大事なのは、クラスタリングの目的が「分類の代わり」ではないことです。クラスタリングは 発見や整理のための一歩目になりやすい。例えば、最初は顧客をクラスタリングしてセグメントを作り、後から「新規顧客がどのセグメントに入るか」を分類モデルで予測する、という流れも自然です。
なお、代表的なアルゴリズムの一例として k-means は「データを k 個のグループに分ける」考え方です。細部の数式暗記よりも、「似ているもの同士を固める」直感を持っておくのが役に立ちます。
迷いやすい設問パターンの分岐点 似ている言い回しをほどく
最後に、AIF-C01の学習で混乱しやすい「言い回しの罠」を、分岐点として整理します。
分岐点 スコアリングは回帰か分類か
- 「不正の可能性が高い取引を検出したい」→ 分類
- 「顧客にリスクスコアを付け、スコアに応じて限度額を調整したい」→ 回帰寄り
ポイントは、最終成果物がクラスか数値かです。
分岐点 セグメント分けは分類かクラスタリングか
- 「過去に付けた顧客ランク A/B/C を予測したい」→ 分類(ラベルあり)
- 「購買行動から自然な顧客タイプを見つけたい」→ クラスタリング(ラベルなし)
ポイントは、正解ラベルがあるかです。
分岐点 予測と理解のどちらが主目的か
- 「来月の需要を当てて発注量を決めたい」→ 回帰
- 「需要が似ている店舗をまとめて施策を考えたい」→ クラスタリング
ポイントは、未来を当てたいのか、構造を整理したいのかです。
指標と評価のざっくり対応
試験対策としては、指標を丸暗記するより「何を良くしたい指標か」を押さえるのが安全です。
- 回帰:予測値と正解値のズレが小さいほど良い(RMSE など)
- 分類:正しく当てた割合や、取り逃しと誤検知のバランス(精度、再現率などの考え方)
- クラスタリング:正解ラベルがないので、グループのまとまり具合や分離の良さ、ビジネス的な解釈のしやすさが重要になる
体系的に学ぶ教材の一例
回帰・分類・クラスタリングは、短い定義だけで終えると、設問文の表現が変わった途端に迷いやすい分野です。
一度、ユースケースから「何を予測するか」「ラベルはあるか」「出力は何か」を軸にして、関連する評価の考え方までまとめて押さえると、知識がバラけにくくなります。
体系的に学べる教材の一例として、AIF-C01のDomain 1(AI/ML基礎)をカバーしつつ、回帰・分類・クラスタリングの使い分けをユースケースで整理してくれるUdemy講座を活用するのも方法のひとつです。講義形式で「設問の読み替え」を何度も見られると、独学の取りこぼしが減りやすい印象があります。
AIF-C01対策で評価の高いUdemy講座をまとめて確認できます。👇
セール時は1,500円前後で購入できることもあります。
まとめ
回帰・分類・クラスタリングで迷うときは、アルゴリズム名ではなく「出力の形」と「正解ラベルの有無」を先に確定させるのが近道です。
回帰は連続値を当てる、分類はラベルを当てる、クラスタリングはラベルなしで似た者同士をまとめる。この三つを、設問の言い回しから判定できるようになると、AIF-C01のAI/ML基礎で混乱しやすいポイントが一気に整理されます。
スコアリングやセグメント分けのように紛らわしい表現が出ても、「最終成果物は数かクラスか」「ラベルはあるか」「目的は予測か理解か」の3点に戻れば、判断のブレはかなり小さくなります。

