AWS StepFunctionsでCrawlerの実行結果を判定する

StepFunctsionsからGlue Crawlerを実行するステートには、「完了まで待つ」のような同期する仕組みが用意されていません。

そのため、StepFunctsions内でGlue Crawlerのエラーハンドリングするには、Crawlerを実行後に定期的に実行が完了したか確認し、完了したら結果を判定するという一連のフローを実装する必要があります。

この記事では、StepFunctsions内でGlue Crawlerのエラーハンドリングする一連のフローを作成する方法を解説します。

StepFunctsionsでGlue Crawlerのエラーハンドリングを実装
1. ステートマシンを作成
エラー時にCrawlerの実行からリドライブしたい場合
まとめ

■■■スポンサーリンク■■■

StepFunctsionsでGlue Crawlerのエラーハンドリングを実装

ステートマシンを作成

Glue Crawlerをエラーハンドリンしたフローは以下のようになります。

①StartCrawler：Grawlerを実行する
②wait：一定時間待機
③GetCrawler：Grawlerの情報を取得
④実行状況の確認（choice）：Crawlerの実行が完了しているか確認
⑤実行結果の確認（choice）：Crawlerの実行結果を確認

それぞれのステートの設定値は以下以下のように設定しています。

①StartCrawler

実行するCrawlerの名称を設定します。

②wait

Crawlerの状態を取得しに行くまで待機する秒数を設定します。
長い秒数を設定すると、待機時間も長くなり、ステートマシン自体の処理時間が遅くなる原因にもなるため、短い秒数を設定したほうがよさそうです。

③GetCrawler

Crawlerの情報を取得するために、[引数]には「①StartCrawler」に設定したCrawlerと同じ名称を設定します。

[出力]ではOutputというキーでGetCrawlerのレスポンス情報を取得するように設定します。

ちなみに、GetCrawlerでは、以下のようなレスポンスが返却されます。

{
  "Crawler": {
    "Classifiers": [],
    "CrawlElapsedTime": 0,
    "CreationTime": "2025-12-19T01:33:40Z",
    "DatabaseName": "test-db",
    "LakeFormationConfiguration": {
      "AccountId": "",
      "UseLakeFormationCredentials": false
    },
    "LastCrawl": {
      "LogGroup": "/aws-glue/crawlers",
      "LogStream": "test-crawler",
      "MessagePrefix": "77e6e213-9e3b-4485-a9b2-950d9f332284",
      "StartTime": "2026-01-02T02:58:31Z",
      "Status": "SUCCEEDED"
    },
    "LastUpdated": "2025-12-19T01:33:40Z",
    "LineageConfiguration": {
      "CrawlerLineageSettings": "DISABLE"
    },
    "Name": "test-crawler",
    "RecrawlPolicy": {
      "RecrawlBehavior": "CRAWL_EVERYTHING"
    },
    "Role": "service-role/xxxxxxxxx",
    "SchemaChangePolicy": {
      "DeleteBehavior": "DEPRECATE_IN_DATABASE",
      "UpdateBehavior": "UPDATE_IN_DATABASE"
    },
    "State": "READY",
    "TablePrefix": "test-",
    "Targets": {
      "CatalogTargets": [],
      "DeltaTargets": [],
      "DynamoDBTargets": [],
      "HudiTargets": [],
      "IcebergTargets": [],
      "JdbcTargets": [],
      "MongoDBTargets": [],
      "S3Targets": [
        {
          "Exclusions": [],
          "Path": "s3://bucket/trn/"
        }
      ]
    },
    "Version": 1
  }
}