AWS Certified Machine Learning Engineer - Associate
Associate / ベンダー資格(AWS)
どんな試験か
AWS上で機械学習モデルの構築・トレーニング・デプロイ・運用を担うMLエンジニア向けのアソシエイト資格です。SageMakerを中心としたMLOpsの実装力と、データエンジニアリングの基礎が問われます。
出題傾向
MLソリューションのためのデータ準備 28%
MLモデル開発 26%
MLワークフローのデプロイメントとオーケストレーション 22%
ML ソリューションのモニタリング・メンテナンス・セキュリティ 24%
公式試験ガイド(MLA-C01)に基づく出題比率。SageMaker、Bedrockなど多数のAWS MLサービスがスコープ。
サンプル問題(3問)
公式の過去問は非公開のため、MLA-C01の出題傾向に沿った例題を掲載しています。AWS公式の「Exam Prep Official Practice Question Set」(AWS Skill Builderで無料)も活用できます。
問1
SageMakerで分類モデルを訓練したところ、訓練データでの精度は95%、検証データでの精度は60%だった。汎化性能を高めるための対処として最も適切なものはどれか。
A. 訓練エポック数をさらに増やす
B. 学習率を大きくする
C. ドロップアウトやL2正則化などの正則化を加え、必要なら訓練データを拡張する
D. 訓練データを少なくする
B. 学習率を大きくする
C. ドロップアウトやL2正則化などの正則化を加え、必要なら訓練データを拡張する
D. 訓練データを少なくする
答えを見る
正解:C
訓練と検証の精度に大きな乖離(95%と60%)があるのは典型的な過学習(オーバーフィッティング)です。対処は「モデルの自由度を下げる正則化」と「データを増やしてパターンを学ばせる」が基本。SageMakerのビルトインアルゴリズムにも正則化パラメータが用意されています。 Aは過学習を悪化させます。Bは学習率を上げると収束しにくくなるだけで過学習対策にはなりません。Dはデータを減らすとさらに過学習が進みます。
訓練と検証の精度に大きな乖離(95%と60%)があるのは典型的な過学習(オーバーフィッティング)です。対処は「モデルの自由度を下げる正則化」と「データを増やしてパターンを学ばせる」が基本。SageMakerのビルトインアルゴリズムにも正則化パラメータが用意されています。 Aは過学習を悪化させます。Bは学習率を上げると収束しにくくなるだけで過学習対策にはなりません。Dはデータを減らすとさらに過学習が進みます。
問2
SageMakerでデプロイした本番モデルが時間経過とともに予測精度が低下する現象が起きている。原因として最も可能性が高く、その対処として適切な仕組みはどれか。
A. インスタンスタイプが小さすぎる。より大きなインスタンスに変更する
B. 入力データの統計的性質が変化している(データドリフト)。SageMaker Model Monitorを使って継続監視する
C. ネットワークの帯域不足。VPCエンドポイントを追加する
D. モデルファイルが破損している。再アップロードする
B. 入力データの統計的性質が変化している(データドリフト)。SageMaker Model Monitorを使って継続監視する
C. ネットワークの帯域不足。VPCエンドポイントを追加する
D. モデルファイルが破損している。再アップロードする
答えを見る
正解:B
モデルの精度が「時間経過とともに」低下する現象は、データドリフト(本番入力データの分布が訓練時と変わってくる)の典型例です。例えばECサイトで季節商品やトレンドが変わると入力データの分布が変化します。SageMaker Model Monitorは入力データと予測の分布変化を検知し、再学習のきっかけを通知できます。 Aは性能問題でレイテンシは変わっても精度には影響しません。Cも同様にネットワークは精度と無関係。Dはモデルファイル破損ならそもそも予測が動きません。
モデルの精度が「時間経過とともに」低下する現象は、データドリフト(本番入力データの分布が訓練時と変わってくる)の典型例です。例えばECサイトで季節商品やトレンドが変わると入力データの分布が変化します。SageMaker Model Monitorは入力データと予測の分布変化を検知し、再学習のきっかけを通知できます。 Aは性能問題でレイテンシは変わっても精度には影響しません。Cも同様にネットワークは精度と無関係。Dはモデルファイル破損ならそもそも予測が動きません。
問3
CSVファイルに格納された大量のデータをSageMakerで訓練する前に、欠損値補完・カテゴリ変数のエンコーディング・正規化などの前処理を行いたい。コードを最小限にし、再現性のある前処理パイプラインを作るために最も適切なサービスはどれか。
A. SageMaker Data Wrangler
B. AWS Lambda関数を10個並べて1つずつ処理する
C. EC2インスタンスを起動してshellスクリプトでgrep/awkを使う
D. S3 Batch Operationsで全ファイルを変換する
B. AWS Lambda関数を10個並べて1つずつ処理する
C. EC2インスタンスを起動してshellスクリプトでgrep/awkを使う
D. S3 Batch Operationsで全ファイルを変換する
答えを見る
正解:A
SageMaker Data Wranglerは、GUI/ノートブックから前処理ステップ(欠損値補完・エンコーディング・正規化など)を組み立てられる専用ツールです。300以上の組み込み変換が用意され、再現性のあるパイプラインとしてエクスポートできるためMLOpsとの相性も良好です。 Bは開発・運用負荷が高すぎる。Cはアドホックで再現性が低い。DはS3 Batch Operationsはオブジェクトレベルの操作で、データ変換の用途には適していません。
SageMaker Data Wranglerは、GUI/ノートブックから前処理ステップ(欠損値補完・エンコーディング・正規化など)を組み立てられる専用ツールです。300以上の組み込み変換が用意され、再現性のあるパイプラインとしてエクスポートできるためMLOpsとの相性も良好です。 Bは開発・運用負荷が高すぎる。Cはアドホックで再現性が低い。DはS3 Batch Operationsはオブジェクトレベルの操作で、データ変換の用途には適していません。
向いている人
・AWS上でMLパイプラインを構築するエンジニア
・AWS AI Practitionerの次のステップを目指す方
・MLOps領域のキャリアを目指す方
学習リソース
公式
AWS認定公式サイト AWS Skill Builder (公式学習プラットフォーム) 問題集
AWS認定機械学習エンジニア-アソシエイト問題集 講座
Udemy AWS認定機械学習エンジニア対策講座