AWS Glue と Amazon Athena を使用するゲノミクス 3 次分析とデータレイクは、大規模な分析のためのゲノムデータを準備するスケーラブルな環境を AWS に作成したり、ゲノムデータレイクに対する双方向性のクエリを実行できます。これは、IT インフラストラクチャアーキテクト、管理者、データサイエンティスト、ソフトウェアエンジニア、および DevOps プロフェッショナルが、ゲノミクスデータ変換に使用されるライブラリを構築、パッケージ化、およびデプロイするのに役立ちます。また、ゲノミクスデータの準備とカタログ化のためのデータ取り込みパイプラインをプロビジョニングし、ゲノミクスデータレイクに対してインタラクティブなクエリを実行します。
二次分析からのデータ出力は、大規模かつ複雑になる場合があります。たとえば、バリアントコールファイル (VCF) はビッグデータに最適化されたファイル形式 (Parquet など) に変換し、既存のゲノミクスデータセットに組み込む必要があります。ユーザーが必要なデータを見つけて、意味が一貫している定義済みのデータモデル内で操作できるように、データカタログを適切なスキーマとバージョンで更新する必要があります。コホートを構築し、データを集計し、注釈ソースからのデータで結果セットを強化するには、注釈データセットと表現型データを処理、カタログ化し、既存のデータレイクに取り込む必要があります。データガバナンスと詳細なデータアクセスコントロールで、データを保護しながら、研究およびインフォマティクスコミュニティに十分なデータアクセスを提供できます。AWS Glue と Amazon Athena を使用するゲノミクス 3 次分析とデータレイクは、このプロセスを簡素化します。
このガイダンスは、ゲノミクスデータレイクを提供し、AWS Glue ETL とクローラーを使用してゲノミクスと注釈の取り込みパイプラインを設定し、Amazon Simple Storage Service (Amazon S3) にゲノミクスデータレイクを設定します。これは、Amazon Athena を使用してゲノミクスデータレイク上でデータ分析と解釈を行い、Jupyter ノートブック内から薬物反応レポートを作成する方法を示します。