機械学習の評価指標を最短で整理 精度 再現率 適合率 F1 ROC AUCをユースケースで使い分け

AWS

評価指標が大事になる理由 AIF-C01で混乱しやすいポイント

機械学習は「当たっているかどうか」を測れないと改善も運用もできません。特にAIF-C01では、細かい計算よりも「この状況ならどの指標を優先するか」「その指標は何を表しているか」を問われやすく、意味の理解がそのまま得点力につながります。

ここで最初に押さえたいのは、評価指標は万能ではないということです。たとえば分類モデルでよく見る**Accuracy(精度)**は、AWSのドキュメントでも「正しく分類された割合」と説明されています。
ただし、データの偏りが大きいとAccuracyが高くても実用的ではないことがあります。たとえば不正検知で「99%は正常、1%が不正」のようなデータで、全部を正常と予測してもAccuracyは99%になってしまいます。現場の感覚としては「それ、検知できてないよね」となります。

評価指標を理解するコツは、モデルの目的を先に決めることです。

  • 見逃しを減らしたいのか(本当は陽性なのに陰性と判定するのが困る)
  • 誤検知を減らしたいのか(本当は陰性なのに陽性と判定するのが困る)
  • しきい値を変えながらバランスを取りたいのか(運用で調整したい)

この「困りごと」から逆算すると、精度・再現率・適合率・F1・ROC/AUCが自然に並びます。


AIF-C01対策で評価の高いUdemy講座をまとめて確認できます。👇
セール時は1,500円前後で購入できることもあります。

まず混同行列で全体像をつかむ 正解と間違いの種類を言葉で整理

評価指標の話は、混同行列がわかると一気にスッキリします。計算は後回しで大丈夫なので、まずは間違いの種類を言葉で押さえましょう。

二項分類(例:病気あり/なし、不正/正常、スパム/非スパム)を例にします。

  • TP(True Positive):本当は陽性で、予測も陽性(当たり)
  • TN(True Negative):本当は陰性で、予測も陰性(当たり)
  • FP(False Positive):本当は陰性なのに、予測が陽性(誤検知)
  • FN(False Negative):本当は陽性なのに、予測が陰性(見逃し)

ここで重要なのは、FPとFNはどちらも「外れ」ですが、現場では痛みが違うことが多い点です。

  • 医療のスクリーニングなら、**見逃し(FN)**が致命的になりやすい
  • 迷惑メールフィルタなら、重要メールを迷惑に入れる**誤検知(FP)**が致命的になりやすい
  • 不正検知なら、誤検知が増えると運用負荷が上がり、見逃しが増えると損失が出る

この「FPとFNのどっちが嫌か」を言語化できると、指標選びは半分終わりです。


精度 適合率 再現率 F1を意味で理解する 不均衡データの落とし穴も

ここからが本題です。Accuracy(精度)だけでなく、Precision(適合率)とRecall(再現率)をセットで捉えるのが王道です。AWSのAPIリファレンスでも、二項分類のメトリクスとしてAccuracyに加えてPrecision、Recall、F1、AUCなどが並んでいます。

Accuracy(精度)

Accuracyは「全体のうち当たった割合」です。AWSのドキュメントでも、正しく分類された数の比率として説明されています。
ただし、さきほどの不正検知のようにクラス不均衡があると高く見えてしまうことがあります。

使いどころの感覚

  • クラス比率がそこまで偏っていない
  • 「だいたい当たっていればOK」な用途(ただし後述の指標も確認したい)

Precision(適合率)

適合率は「陽性だと予測したもののうち、どれだけ本当に陽性だったか」です。
言い換えると、誤検知(FP)をどれだけ抑えられているかに敏感です。

  • 迷惑メール判定で「迷惑」と出したものが、実は重要メールだと困る
    → 適合率を重視したくなる

覚え方

  • Precisionは「当てた自信」
  • 陽性と宣言するなら、外してほしくない

Recall(再現率)

再現率は「本当の陽性のうち、どれだけ拾えたか」です。AWSのSageMaker関連ドキュメントでも、再現率は「実際の陽性をどれだけ見つけたか」という趣旨で説明されています。
言い換えると、見逃し(FN)をどれだけ減らせるかに敏感です。

  • 病気のスクリーニングで見逃しがあると後で取り返しがつかない
    → 再現率を重視したくなる

覚え方

  • Recallは「取りこぼし防止」
  • 陽性を漏らさないことが優先

F1(F1スコア)

F1は、適合率と再現率のバランスを見るための指標です。AWSのSageMaker Canvasの指標説明でも、F1は適合率と再現率の調和平均として説明されています。
現場感としては、「誤検知も見逃しも両方困る」状況で使いやすいまとめ指標です。

ただし注意点

  • F1が良いからといって、FPとFNのどちらの痛みも同じとは限りません
  • たとえば金融の不正検知は見逃しの損失が大きい一方、誤検知は運用負荷が増える
    → F1だけで判断せず、Precision/Recallも一緒に見るのが安全です

「精度が高いのに使えない」典型パターン

AIF-C01学習者が混乱しやすいのはここです。Accuracyが高いのに現場で怒られるケースは、だいたい次のどちらかです。

  • クラス不均衡で、TNが大量にある
  • しきい値が固定されていて、用途に合うバランスになっていない

次は、しきい値を扱う指標であるROC/AUCに進みます。


ROC曲線とAUC しきい値のトレードオフを掴む

ROC/AUCは、最初はとっつきにくいですが、ポイントは「しきい値を動かしたらどうなるか」を見ているだけです。

多くの分類モデルは「陽性っぽさ」を確率やスコアで返します。そこに対して、たとえば0.5を境に陽性/陰性を決めるのがしきい値です。しきい値を下げれば陽性判定が増え、上げれば減ります。結果として、FPとFNのバランスが変わります。

ROC曲線とは何か

ROC曲線は、しきい値を動かしたときの挙動を可視化するものとして、SageMakerのドキュメントでも「TPRとFPRのトレードオフを理解し、最適なしきい値を見つける」用途が説明されています。
ざっくり言うとこうです。

  • 見逃しを減らす方向(再現率を上げる方向)に寄せると、誤検知も増えやすい
  • 誤検知を減らす方向(適合率を上げる方向)に寄せると、見逃しも増えやすい

この「どっちもゼロにしたいけど難しい」現実を、しきい値の連続的な変化として捉えるのがROC曲線です。

AUCとは何か

AUCはROC曲線の下の面積で、AWSのSageMaker(Autopilot)の説明でも「すべての分類しきい値にわたるモデル性能の集約的な尺度」として説明されています。
また、Amazon Machine LearningのドキュメントではAUCを「陽性に高いスコア、陰性に低いスコアを付けられる能力」として説明しています。

AUCの感覚的な理解

  • AUCが高いほど、陽性と陰性をうまく“並べ替え”できている
  • 運用でしきい値を調整する前提なら、AUCは比較に便利

注意点

  • AUCが良くても、特定の運用点(たとえば誤検知率を1%以下にしたい)では期待通りでない場合があります
  • その場合は、運用条件に沿ったPrecision/Recallや、しきい値の再調整が必要になります

目的別にどれを見るかの実務テンプレ AWSで指標を見る場面と学び方

最後に「結局どれを選ぶの?」を、現場で使えるテンプレにしておきます。試験でも実務でも、これが判断の軸になります。

指標選びのテンプレ

次の質問に答えるだけで、優先指標がだいたい決まります。

  • 見逃し(FN)が痛い
    • 例:病気の取りこぼし、危険物検知、不正の見逃し
    • 優先:再現率(Recall)、次点でF1
  • 誤検知(FP)が痛い
    • 例:重要メールをスパム扱い、本人確認で弾きすぎ、審査の無駄が増える
    • 優先:適合率(Precision)、次点でF1
  • 両方痛い、もしくは全体比較をまずしたい
    • 優先:F1、状況によってAUCも比較に使う
  • しきい値を運用で調整する前提、モデルの分離性能を見たい
    • 優先:ROC/AUC(ただし運用点のPrecision/Recallも確認)

AWSで目にする指標の例

AIF-C01の学習では、AWS上で「どんな場面で指標が出てくるか」を知っておくと、単語が現実の画面と結びついて覚えやすくなります。

  • SageMaker Autopilotは、AccuracyやAUCなどの分類メトリクスを扱い、AUCをしきい値全体で集約した尺度として説明しています。
  • SageMaker Canvasでも、F1やAUCなどのメトリクス説明が用意されています。
  • 運用フェーズでは、モデル品質の監視で分類問題に応じたメトリクスを計算し、ドリフト検知に役立てる考え方が説明されています。

ここで大事なのは「AWSのどのサービスが何点取れるか」ではなく、評価指標がモデル開発だけでなく運用でも必要になるという流れを押さえることです。評価は一回きりではなく、リリース後も継続して見ていくものだからです。

学び方のコツ 計算より意味重視で仕上げる

評価指標は、計算ができるより「言葉で説明できる」ほうが強いです。おすすめの練習は次の2つです。

  • 混同行列のFPとFNを見て「どっちが痛いか」を毎回言語化する
  • Precision/Recall/F1/AUCを、ユースケースにひもづけて一文で説明する
    • 例:再現率は見逃しを減らす指標
    • 例:適合率は誤検知を減らす指標
    • 例:AUCはしきい値全体での分離性能の比較に向く

体系的に整理したい場合は、AIF-C01向けの入門講座や問題演習を、学習の土台として使うのも手です。UdemyにもAI/MLの基礎から評価指標まで一通りつながる講座があるので、「断片知識になって混乱する」状態を避けたい人には相性が良いと思います。


AIF-C01対策で評価の高いUdemy講座をまとめて確認できます。👇
セール時は1,500円前後で購入できることもあります。

まとめ

評価指標は、暗記科目に見えて、実は「目的から逆算する思考の型」です。まず混同行列でFP(誤検知)とFN(見逃し)を言葉で整理し、どちらのコストが大きいかを決めます。そのうえで、誤検知を抑えたいなら適合率、見逃しを抑えたいなら再現率、両方のバランスならF1を見ます。

さらに、運用でしきい値を調整する前提やモデルの分離性能を比較したいならROC/AUCが役に立ちます。AWSでもSageMaker AutopilotやCanvasなどでAccuracy、Precision、Recall、F1、AUCといった指標が登場し、AUCはしきい値全体にわたる性能の集約として説明されています。

AIF-C01対策としては、計算に深入りするより「このユースケースなら何を優先するか」を説明できる状態を目指すのが近道です。

タイトルとURLをコピーしました