（第3回）MLS-C01 復習メモ

SageMakerとアルゴリズムは“使う理由”が説明できるか

MLS後半で一気に情報量が増えるのが、
SageMaker関連サービスとアルゴリズム周りです。

名前だけ追うと破綻しますが、
「どの工程で、何を楽にするためのサービスか」
で整理すると、だいぶ頭が軽くなります。

Amazon SageMakerは「ML工程の分業ツール群」

SageMakerは単一サービスではなく、
前処理・学習・評価・デプロイを分業するための集合体です。

MLSでは
「この作業、人が書く？サービスに任せる？」
という視点で問われます。

SageMaker Data Wranglerは前処理特化

Data Wranglerは、
EDAから前処理までをGUI寄りで一気に進めるためのサービスです。

特徴としては、

・欠損値処理
・エンコーディング
・外れ値の可視化
・クイックモデルビジュアライゼーション

などが一通り揃っています。

試験で引っかかりやすいのは、
「Notebookで書くか、Data Wranglerを使うか」。

コードを書くこと自体が目的でなければ、
Data Wranglerを選ぶのが正解になるケースが多いです。

多重共線性と可視化の話

Data Wrangler絡みでよく出るのが多重共線性。

これは
特徴量同士が強く相関している状態
を指します。

対処法として出てくるのが、

・主成分分析（PCA）
・特異値分解（SVD）
・VIF（分散拡大係数）

ここで重要なのは、
精度を上げるためというより
「モデルを安定させる」目的だという点。

LASSOが選択肢に出る場合も、
特徴量選択が目的かどうか
を意識すると切りやすいです。

SageMaker Autopilotは「最短距離」

Autopilotは、
特徴量処理からモデル選択までを自動化するサービス。

MLS的には
「時間がない」「ベースラインを作りたい」
という条件がつくと、ほぼこれ一択です。

自分が間違えたのは、
「カスタマイズできない＝不適切」
と思い込んでいた点。

実際には、
最初の比較用モデルを作る
という文脈では非常に強力です。

SageMaker Clarifyは公平性チェック専用

Clarifyは
バイアス検出と説明可能性のためのサービス。

・DPL
・CDD
・CI

といった指標と一緒に出題されます。

ここは暗記というより、
「学習前後、どちらで使うか」
がポイント。

学習前 → データバイアス
学習後 → モデルバイアス

という整理で覚えると楽です。

エンドポイントは単一かマルチか

SageMakerのエンドポイントは、

・単一モデルエンドポイント
・マルチモデルエンドポイント

の2種類。

マルチモデルは
「モデル数が多い」「同時利用は少ない」
という条件で選びます。

常時高トラフィックなら、
単一モデルの方が安定します。

DeepARは“時系列まとめ役”

DeepARは、
多数の時系列をまとめて学習できる点が強み。

ARIMAとの違いは、

・複数系列を一気に扱える
・外部特徴量を使える

という点です。

試験では
「大量の時系列」「需要予測」
というワードが出たら、
かなりの確率でDeepARです。

Object DetectionとSSD

SageMaker Object Detectionでは、
SSD（Single Shot MultiBox Detector）がよく登場します。

特徴は、

・1回の推論で検出
・高速
・リアルタイム向き

ここでResNetやImageNetが絡んでくる場合、
事前学習モデルの利用
という文脈になります。

BlazingTextとK-Meansは“軽さ”が武器

BlazingTextは
テキスト分類や類似度計算向け。

・Word2Vec系
・高速
・大規模向き

K-Meansは
クラスタ数が事前に決まっている
という前提条件つきで有効です。

「未知クラス発見」ではなく、
「分けるだけ」のケース向き。

XGBoostは万能だが理由が必要

XGBoostは勾配ブースティング系。

精度が高いから選ぶ
ではなく、

・表形式データ
・非線形
・特徴量が多い

といった条件が揃っているか
を確認する必要があります。

協調フィルタリング系アルゴリズム

・因数分解機
・ニューラル協調フィルタリング

は、
レコメンド文脈で登場します。

ユーザー×アイテムの
疎行列
というワードが出たら、
この辺を疑います。

このあたりまで来ると、
MLSは完全に
「知ってるか」より
「説明できるか」の試験です。

サービス名を覚えるより、
「なぜそのサービスを選ぶのか」
を一言で言えるか。

そこが分かれるラインだと感じました。

行き詰まったら、
一度ちゃんと体系的にまとめられた教材で
全体像を見直すのもアリです。

次回は、
CloudSearchやComprehendなどの
「地味だけど落としやすいAWS AIサービス」と、
APIの使い分けを中心にまとめる予定です。

ここを雑にすると、
最後にじわっと点を落とします。

Amazon SageMakerは「ML工程の分業ツール群」

SageMaker Data Wranglerは前処理特化

多重共線性と可視化の話

SageMaker Autopilotは「最短距離」

SageMaker Clarifyは公平性チェック専用

エンドポイントは単一かマルチか

DeepARは“時系列まとめ役”

Object DetectionとSSD

BlazingTextとK-Meansは“軽さ”が武器

XGBoostは万能だが理由が必要

協調フィルタリング系アルゴリズム

コメント

コメントを残すコメントをキャンセル

投稿をさらに読み込む

（最終回）MLS-C01 復習メモ

（第4回）MLS-C01 復習メモ