AWSの仕組みがキーワードベースで理解できるようまとめてみた9
公開日: 2022/11/30
更新日: 2022/11/11
AWSの仕組みがキーワードベースで理解できるようまとめてみました
1. データレイク
データレイクとは、あらゆる種類のデータを保存できる一元化されたリポジトリ(保管場所)です。
リレーショナルデータベースに蓄積されているような構造化データ、テキスト・画像・映像のような非構造化データを、そのままの形で保存できるため、事前にデータを構造化しておくことが不要で、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなのタイプの分析を実行するために活用できます。
AWSは、データレイクを構築するための様々なサービスを提供しています。
リレーショナルデータベースに蓄積されているような構造化データ、テキスト・画像・映像のような非構造化データを、そのままの形で保存できるため、事前にデータを構造化しておくことが不要で、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなのタイプの分析を実行するために活用できます。
AWSは、データレイクを構築するための様々なサービスを提供しています。
10. スナップショット
スナップショットとは、ある時点でのサーバーのディスク状態を丸ごと保存した、ファイルやフォルダなどの集合です。
丸ごと保存するので、データやソフトウェアだけでなく、OSや設定情報などすべてを含みます。
スナップショットは、ソフトウェアやOSの更新時に、何かあった時すぐ戻せるようにバックアップとしてとることが多いですが、AWSでは自作のAMIを作るためにも使われます。
AWSでは、EBSボリュームのデータをスナップショットとして保存することができます。
ただ1度目のスナップショットでは丸ごと保存しますが、2度目以降は差分(増分)バックアップで保存します。
これは、スナップショットを作成するのに要する時間が短くなり、データを複製しないことで、スナップショットの料金を節約することができる仕組みになっています。
そのため、スナップショットを削除すると、そのスナップショット固有のデータのみが削除されます。
これは、1度目のデータに関しても同じで、2度目のデータの差を見て、1度目固有の部分のみ消去します。
スナップショットはマネジメントコンソールからボリューム単位(ストレージ丸ごと)で選択し、作成します。
この作成したスナップショットを元にEBSボリュームを作れば、新しいボリュームは元となったボリュームのコピーとなるわけです。
AWIを作成したい場合は、スナップショットから作成します。
なお、データサイクルマネージャーを使用すると、スナップショットの作成・削除が自動化できます。
スナップショットを定期的に作成することで、サーバーが壊れてしまった時のリスク対策ができます。
スナップショットの料金は、作成したスナップショットの分量単位(GB単位)でかかります。
スナップショットの保存先
スナップショットのデータ保存先はS3ですが、スナップショットのファイルをユーザが自由にダウンロードできるわけではありません。
ユーザーがS3を使用するときの領域とは別の、見ることができない場所に保存されます。 そのかわり、S3料金もかかりません。
丸ごと保存するので、データやソフトウェアだけでなく、OSや設定情報などすべてを含みます。
スナップショットは、ソフトウェアやOSの更新時に、何かあった時すぐ戻せるようにバックアップとしてとることが多いですが、AWSでは自作のAMIを作るためにも使われます。
AWSでは、EBSボリュームのデータをスナップショットとして保存することができます。
ただ1度目のスナップショットでは丸ごと保存しますが、2度目以降は差分(増分)バックアップで保存します。
これは、スナップショットを作成するのに要する時間が短くなり、データを複製しないことで、スナップショットの料金を節約することができる仕組みになっています。
そのため、スナップショットを削除すると、そのスナップショット固有のデータのみが削除されます。
これは、1度目のデータに関しても同じで、2度目のデータの差を見て、1度目固有の部分のみ消去します。
スナップショットはマネジメントコンソールからボリューム単位(ストレージ丸ごと)で選択し、作成します。
この作成したスナップショットを元にEBSボリュームを作れば、新しいボリュームは元となったボリュームのコピーとなるわけです。
AWIを作成したい場合は、スナップショットから作成します。
なお、データサイクルマネージャーを使用すると、スナップショットの作成・削除が自動化できます。
スナップショットを定期的に作成することで、サーバーが壊れてしまった時のリスク対策ができます。
スナップショットの料金は、作成したスナップショットの分量単位(GB単位)でかかります。
スナップショットの保存先
スナップショットのデータ保存先はS3ですが、スナップショットのファイルをユーザが自由にダウンロードできるわけではありません。
ユーザーがS3を使用するときの領域とは別の、見ることができない場所に保存されます。 そのかわり、S3料金もかかりません。
11. Amazon DLM
Amazon DLM(データライフサイクルマネージャー) とは、Amazon EBS ボリュームをバックアップする為のスナップショットの生成 → 保存 → 削除のライフサイクルを自動化して、以下のようなメリットがあるサービスです。
定期的なバックアップスケジュールを実施して貴重なデータを保護する。
監査担当者または社内のコンプライアンスが必要とするバックアップを保持する。
古いバックアップを削除してストレージコストを削減する。
定期的なバックアップスケジュールを実施して貴重なデータを保護する。
監査担当者または社内のコンプライアンスが必要とするバックアップを保持する。
古いバックアップを削除してストレージコストを削減する。
12. Cron
読み方はクーロンです。
Cronとは元々Linuxのサーバーにおいてスケジュールを指定することができる機能です。
特定の時間や頻度でとあるアプリケーションを実行したい、という際に設定を行う機能です。
Cron式の書き方
AWSで指定できるCron式の基本形は* * * * * *と「*」が6つ並んだ状態で、それぞれが半角スペース空いています。
この「*」を必要に応じて数字に置き換えて任意のスケジュールを指定します。
順番は「分→時間→日→月→曜日→年」です。
1番目の*:分を0 059の整数で指定します。
2番目の*:時間を0 023の整数で指定します。
3番目の*:日を1 031の整数で指定します。
4番目の*:月を1 012の整数で指定します。
5番目の*:曜日を1 07の整数で指定します(1が日曜日)
6番目の*:年を1970 02199の整数で指定します。
基本は指定したいものだけを指定する、です。
つまり、指定したくないパラメーターは「*」のままでいいということです。
また、一定の間隔を指定したい場合は/を用いて表記します(25分毎の場合は/25と記載します)
【例1】毎月の25日の18時30分に実行するジョブ
30 18 25 * * *
【例2】毎週月曜日の10時15分に実行するジョブ
15 10 * * 1 *
【例3】2021年12月21日の0時0分に実行するジョブ
0 0 21 12 * 2021
【例4】毎時5分に実行するジョブ
5 * * * ? *
【例5】5分毎に実行するジョブ
*/5 * * * ? *
【例6】2時間毎に実行するジョブ
0 */2 * * ? *
【例7】月~金曜日の21時15分に実行するジョブ
15 12 ? * 1-5 *
※注意事項
cron 式の[日] フィールドと[曜日] フィールドを同時に指定することはできません。
一方のフィールドに値 (または *) を指定する場合、もう一方のフィールドで ? (疑問符) を使用する必要があります。
? (疑問符) ワイルドカードはいずれかを意味します。
[日] フィールドに 7 と入力し、7 日が何曜日であってもかまわない場合、[曜日] フィールドに ? を入力できます。
Cronとは元々Linuxのサーバーにおいてスケジュールを指定することができる機能です。
特定の時間や頻度でとあるアプリケーションを実行したい、という際に設定を行う機能です。
Cron式の書き方
AWSで指定できるCron式の基本形は* * * * * *と「*」が6つ並んだ状態で、それぞれが半角スペース空いています。
この「*」を必要に応じて数字に置き換えて任意のスケジュールを指定します。
順番は「分→時間→日→月→曜日→年」です。
1番目の*:分を0 059の整数で指定します。
2番目の*:時間を0 023の整数で指定します。
3番目の*:日を1 031の整数で指定します。
4番目の*:月を1 012の整数で指定します。
5番目の*:曜日を1 07の整数で指定します(1が日曜日)
6番目の*:年を1970 02199の整数で指定します。
基本は指定したいものだけを指定する、です。
つまり、指定したくないパラメーターは「*」のままでいいということです。
また、一定の間隔を指定したい場合は/を用いて表記します(25分毎の場合は/25と記載します)
【例1】毎月の25日の18時30分に実行するジョブ
30 18 25 * * *
【例2】毎週月曜日の10時15分に実行するジョブ
15 10 * * 1 *
【例3】2021年12月21日の0時0分に実行するジョブ
0 0 21 12 * 2021
【例4】毎時5分に実行するジョブ
5 * * * ? *
【例5】5分毎に実行するジョブ
*/5 * * * ? *
【例6】2時間毎に実行するジョブ
0 */2 * * ? *
【例7】月~金曜日の21時15分に実行するジョブ
15 12 ? * 1-5 *
※注意事項
cron 式の[日] フィールドと[曜日] フィールドを同時に指定することはできません。
一方のフィールドに値 (または *) を指定する場合、もう一方のフィールドで ? (疑問符) を使用する必要があります。
? (疑問符) ワイルドカードはいずれかを意味します。
[日] フィールドに 7 と入力し、7 日が何曜日であってもかまわない場合、[曜日] フィールドに ? を入力できます。
13. AWSome Day
「AWSome Day」とは、「AWSクラウドジャーニー」の一環で、AWSの基礎知識を「ワンデー(1日)」で体系的に学習することができるトレーニングイベントです。
AWSに所属する「テクニカルインストラクター」が、各セッションの講師を務めます。
各セッションでは、AWS上の主要サービスを段階的に学習できるように構成されています。
加えて、AWSの導入を検討している初心者向け基礎知識として、サービスの料金請求、料金モデル、「ルートアカウント」などのアカウントマネジメントなど、実際の導入に直接的に役立つ内容となっています。
AWSに所属する「テクニカルインストラクター」が、各セッションの講師を務めます。
各セッションでは、AWS上の主要サービスを段階的に学習できるように構成されています。
加えて、AWSの導入を検討している初心者向け基礎知識として、サービスの料金請求、料金モデル、「ルートアカウント」などのアカウントマネジメントなど、実際の導入に直接的に役立つ内容となっています。
14. AWS Black Belt Online Seminar
AWS Black Belt Online Seminarは、アマゾンウェブサービスジャパン株式会社が主催するオンラインセミナーです。
製品別、サービス別、ソリューション別、業種別のそれぞれのテーマで、そのテーマのスペシャリストが講義を行います。
新しいAWSサービスを利用する際には、まずAWS Black Belt Online Seminarの内容に目を通すことで、そのサービスについて広く効率よく理解することができます。
また、オンライン開催のため会場まで足を運ぶ必要がなく、全国どこからでも気軽に参加できます。
各講義は1時間で、事前に申し込みを行うことにより無料でライブ聴講も可能です。
また、講義終了後はPDF、スライド、動画が「AWSクラウドサービス活用資料集」として公開されますので、当日参加できなかった場合でも後から視聴することができます。
製品別、サービス別、ソリューション別、業種別のそれぞれのテーマで、そのテーマのスペシャリストが講義を行います。
新しいAWSサービスを利用する際には、まずAWS Black Belt Online Seminarの内容に目を通すことで、そのサービスについて広く効率よく理解することができます。
また、オンライン開催のため会場まで足を運ぶ必要がなく、全国どこからでも気軽に参加できます。
各講義は1時間で、事前に申し込みを行うことにより無料でライブ聴講も可能です。
また、講義終了後はPDF、スライド、動画が「AWSクラウドサービス活用資料集」として公開されますので、当日参加できなかった場合でも後から視聴することができます。
2. AWS Lake Formation
AWS Lake Formationは、安全なデータレイクを数日で簡単にセットアップできるサービスです。
実はデータレイクを構築するには、設定や管理に関わる複雑で時間のかかる手作業のタスクが数多く必要になりますが、AWS Lake Formationを利用すれば、データが配置される場所と適用するデータアクセスおよびセキュリティポリシーを定義するだけで、AWS上で簡単にデータレイクを作成することができます。
実はデータレイクを構築するには、設定や管理に関わる複雑で時間のかかる手作業のタスクが数多く必要になりますが、AWS Lake Formationを利用すれば、データが配置される場所と適用するデータアクセスおよびセキュリティポリシーを定義するだけで、AWS上で簡単にデータレイクを作成することができます。
3. Amazon EMR
Amazon EMRとは、Apache HadoopやApache Sparkなどのオープンソースツールを利用した、ビッグデータの分析が可能なAWSのサービスです。
一言で言うとマネージド型 Hadoop フレームワークです。
ビッグデータは文字通り膨大なデータを表します。
ただ、量だけにとどまらず、文字、音声、画像、動画など、データの形態も様々です。
このため、データに応じて柔軟に、しかも高速処理で対応できるようにする必要があります。
Amazon EMRはGoogleのフレームワークであるMapReduceをベースに実装されています。
また、Amazon EMRの処理結果をAmazon S3をはじめとしたAWSの他のサービスと連携できます。
※データの加工(データカタログの作成)の役割
※データの分析の役割
一言で言うとマネージド型 Hadoop フレームワークです。
ビッグデータは文字通り膨大なデータを表します。
ただ、量だけにとどまらず、文字、音声、画像、動画など、データの形態も様々です。
このため、データに応じて柔軟に、しかも高速処理で対応できるようにする必要があります。
Amazon EMRはGoogleのフレームワークであるMapReduceをベースに実装されています。
また、Amazon EMRの処理結果をAmazon S3をはじめとしたAWSの他のサービスと連携できます。
※データの加工(データカタログの作成)の役割
※データの分析の役割
4. Amazon Redshift
Amazon Redshiftとは、AWSが提供するデータウェアハウスサービスです。
データウェアハウス(DWH)というのは、さまざまなデータ源からデータを収集・統合・蓄積し、分析のため保管しておくシステムです。
伝統的なRDBMSとは違って、継続的な書き込みや更新には向いておらず、一括でデータを書き込み分析のため大容量データを読み出すという処理に最適化されています。
その結果として、たとえばRDB設計における正規化はデータウェアハウスでは重視されず、読み出しの高速化のためにあえて正規化しないでデータを格納することもあります。
Amazon Redshiftでは、並列コンピューティングをサポートしており、大量のデータを短時間で読み出し・分析することが可能です。
インターフェースとしては、BIツールやPostgreSQLクライアントから操作することができます。
このサービスに含まれているRedshift Spectrumを使用すると、S3に保存されているエクサバイト規模の構造化データまたは非構造化データに対して直接SQLクエリを実行できます。
Amazon Redshiftに必要なコストは、従来のソリューションと比較して10分の1です。
1時間あたりわずか0.25USDの小規模から開始して、1テラバイトにつき年間1,000USDの料金であるペタバイト規模のデータ処理までスケールアウトできます。
※データの分析の役割
データウェアハウス(DWH)というのは、さまざまなデータ源からデータを収集・統合・蓄積し、分析のため保管しておくシステムです。
伝統的なRDBMSとは違って、継続的な書き込みや更新には向いておらず、一括でデータを書き込み分析のため大容量データを読み出すという処理に最適化されています。
その結果として、たとえばRDB設計における正規化はデータウェアハウスでは重視されず、読み出しの高速化のためにあえて正規化しないでデータを格納することもあります。
Amazon Redshiftでは、並列コンピューティングをサポートしており、大量のデータを短時間で読み出し・分析することが可能です。
インターフェースとしては、BIツールやPostgreSQLクライアントから操作することができます。
このサービスに含まれているRedshift Spectrumを使用すると、S3に保存されているエクサバイト規模の構造化データまたは非構造化データに対して直接SQLクエリを実行できます。
Amazon Redshiftに必要なコストは、従来のソリューションと比較して10分の1です。
1時間あたりわずか0.25USDの小規模から開始して、1テラバイトにつき年間1,000USDの料金であるペタバイト規模のデータ処理までスケールアウトできます。
※データの分析の役割
5. Amazon Athena
「Amazon Athena」とは、「データ分析」ができるAWS(Amazon Web Services)のサービスの一つです。
Amazon Athenaを使用すると、標準的なSQLクエリを使用してS3やGlacierで直接、簡単にデータを分析できます。
Athenaはサーバーレスであるため、インフラストラクチャをセットアップして管理する必要はありません。
データに対してすぐにクエリを実行して数秒で結果を取得でき、料金が発生するのは実行したクエリに対してのみです。
操作は簡単で、AmazonS3にあるデータを指定し、スキーマを定義し、標準的なSQLを使用してクエリの実行を開始するだけです。
多くの場合、数秒で結果が出てきます。
この実行結果を参照しながらデータ分析を進めていきます。
※データの分析の役割
Amazon Athenaを使用すると、標準的なSQLクエリを使用してS3やGlacierで直接、簡単にデータを分析できます。
Athenaはサーバーレスであるため、インフラストラクチャをセットアップして管理する必要はありません。
データに対してすぐにクエリを実行して数秒で結果を取得でき、料金が発生するのは実行したクエリに対してのみです。
操作は簡単で、AmazonS3にあるデータを指定し、スキーマを定義し、標準的なSQLを使用してクエリの実行を開始するだけです。
多くの場合、数秒で結果が出てきます。
この実行結果を参照しながらデータ分析を進めていきます。
※データの分析の役割
6. Amazon QuickSight
読みは「アマゾンクイックサイト」です。
どのようなサービスなのかというと、AWSで使える高速クラウドBIサービスツールの事です。
簡単に情報を可視化することが可能で、分析に関する専門家がいなくとも、Amazon QuickSightを利用すれば比較的簡単にデータ解析が可能です。
完全マネージド型のサービスであり、ダッシュボードを簡単に作成・公開できます。
またダッシュボードはあらゆるデバイスからアクセスすることが可能なのも特徴です。
Amazon QuickSightを利用すれば主に以下のことができます。
・Get started quickly
サインインした後、データソースを選択すれば最初のビジュアルが作成されます。
・Access data from multiple sources
AWSデータソースに接続またはファイルのアップロードが可能です。
・Take advantage of dynamic visualizations
選択したフィールドに基づいたスマートビジュアルが作成されます。
・Get answers fast
大規模なデータセットから迅速にビジュアルを作成できます。
・Tell a story with your data
データダッシュボードやポイントインタイムビジュアルの作成が可能です。
※データの可視化の役割
どのようなサービスなのかというと、AWSで使える高速クラウドBIサービスツールの事です。
簡単に情報を可視化することが可能で、分析に関する専門家がいなくとも、Amazon QuickSightを利用すれば比較的簡単にデータ解析が可能です。
完全マネージド型のサービスであり、ダッシュボードを簡単に作成・公開できます。
またダッシュボードはあらゆるデバイスからアクセスすることが可能なのも特徴です。
Amazon QuickSightを利用すれば主に以下のことができます。
・Get started quickly
サインインした後、データソースを選択すれば最初のビジュアルが作成されます。
・Access data from multiple sources
AWSデータソースに接続またはファイルのアップロードが可能です。
・Take advantage of dynamic visualizations
選択したフィールドに基づいたスマートビジュアルが作成されます。
・Get answers fast
大規模なデータセットから迅速にビジュアルを作成できます。
・Tell a story with your data
データダッシュボードやポイントインタイムビジュアルの作成が可能です。
※データの可視化の役割
7. EC2ーインスタンスファミリー
インスタンスファミリーとは、インスタンスタイプが「m5a.large」の場合、先頭部分の「m」になります。
インスタンスファミリーは「汎用」「コンピューティング最適化」「メモリ最適化」「ストレージ最適化」「高速コンピューティング」の5種類があり、それぞれ特徴が異なります。
たとえば基本的なタイプである「汎用」の場合、インスタンスファミリーは「tシリーズ」や「m5」「m6」「a1」などです。
インスタンスファミリーは「汎用」「コンピューティング最適化」「メモリ最適化」「ストレージ最適化」「高速コンピューティング」の5種類があり、それぞれ特徴が異なります。
たとえば基本的なタイプである「汎用」の場合、インスタンスファミリーは「tシリーズ」や「m5」「m6」「a1」などです。
8. EC2ーインスタンス世代
インスタンス世代とは、インスタンスタイプが「m5a.large」の場合「5」の部分になります。
インスタンス世代は数字が大きいほど新しい世代となるため、たとえば「m5」と「m4」であれば前者の方が新しい世代になります。
基本的に新しい世代になるほど性能が高く、価格も安価になっていくという傾向があります。 EC2ー追加機能 追加機能とは、インスタンスタイプが「m5a.large」の場合「a」の部分になります。
追加機能はないタイプもありますが、CPUをIntel製からAMD製やAWS Graviton製に変更したり、ネットワークを強化するなどの変更が行われた場合には追加機能が記載されます。
たとえばCPUをAMD製に変更した場合、追加機能は「a」、メモリ搭載量を強化した場合追加機能は「e」になります。
インスタンス世代は数字が大きいほど新しい世代となるため、たとえば「m5」と「m4」であれば前者の方が新しい世代になります。
基本的に新しい世代になるほど性能が高く、価格も安価になっていくという傾向があります。 EC2ー追加機能 追加機能とは、インスタンスタイプが「m5a.large」の場合「a」の部分になります。
追加機能はないタイプもありますが、CPUをIntel製からAMD製やAWS Graviton製に変更したり、ネットワークを強化するなどの変更が行われた場合には追加機能が記載されます。
たとえばCPUをAMD製に変更した場合、追加機能は「a」、メモリ搭載量を強化した場合追加機能は「e」になります。
9. EC2ーインスタンスサイズ
インスタンスサイズとは、インスタンスタイプが「m5a.large」の場合、最後の「large」の部分になります。
インスタンスサイズには複数のサイズが用意されており、「nano」「micro」「medium」「small」「large」「xlarge」「2xlarge」のようにサイズが大きくなっていきます。
たとえば「m5a」の場合、「large」以降のインスタンスサイズから選択可能です。
インスタンスサイズには複数のサイズが用意されており、「nano」「micro」「medium」「small」「large」「xlarge」「2xlarge」のようにサイズが大きくなっていきます。
たとえば「m5a」の場合、「large」以降のインスタンスサイズから選択可能です。