メインコンテンツへスキップ
  1. Posts/

【Redshiftとは】awsをわかりやすく解説【データウェアハウス VS データレイク】

loading · loading ·

Amazon Redshiftとは大規模なデータを格納するためのデータの貯蔵庫であり、別名データウェアハウス(DWH)と呼ばれています。

RedshiftはEC2のように個人開発で使う機会は少なく、使ったことがないとイメージが湧きづらいサービスだと思います。

そのため、Amazon Redshift未経験の方でもわかりやすいように本記事で解説できればと思います。

AWSのデータウェアハウスサービス Amazon Redshiftとは?
#

Alt text
Redshiftとは?
RedshiftとはAWSから提供されているデータウェアハウス(DWH)サービスです。

データウェアウェアハウス(DWH)とはデータの貯蔵庫と直訳されますが、一言で言うと分析用途で使われるデータの貯蔵庫です。

Alt text
データウェアハウスとは?

様々なデータソースからETL処理(分析等目的でデータを抽出・変換・出力する処理のこと)し、Redshiftに分析用に加工されたデータを格納します。

そしてRedshiftに蓄積された膨大なデータを利用し、データの解析やビジネスの戦略等に用いることができます。

また、Redshiftのメリットとしては下記のような項目が挙げられます。

  • コストパフォーマンスが良い
  • 膨大なデータに対して高速なクエリを実行できる
  • 他のAWSサービスとの連携がしやすい
  • ネット上に多くの学習資料がありキャッチアップしやすい

一般的なデータベースとデータウェアハウスの違いとは?
#

データベースとデータウェアハウスは「データを格納する」という意味で共通していることから違いがよくわからないと聞くことがあります。

確かにデータを格納・保持するのは同じですが、データの保存目的、保存期間が異なります。

下記にそれぞれデータベースの特徴、データウェアハウスの特徴を列挙します。

一般的なデータベースの特徴とは?
#

まずは一般的なデータベースの特徴を下記の通り列挙いたします。

  • データの保存を目的とし、必要に応じてデータの取得・更新・作成・削除を行う
  • 長期的・膨大なデータの保存は向いていない(クエリ処理時間増につながるため)
  • 上記理由から、適宜データの削除・集約が必要となる

データウェアハウスの特徴とは?
#

続いてデータウェアハウスの特徴を列挙します。

  • データの長期的な保存に向いている
  • RDBMSでありテーブルを組み合わせてでのデータ取得が可能
  • 高コストのストレージを使用しクエリを実行できる
  • 膨大な量のデータ(ビッグデータ)の保存に向いている
  • 貯蔵したデータからBIツール(Tableau等)でデータの可視化を行う
  • 可視化したデータから分析を行い、効果的な意思決定を行う
  • 膨大なデータに対し高速なクエリを実行できるよう最適化されている
  • 想定ユーザはビジネスアナリスト

データレイク(DataLake)とデータウェアハウス(DWH)の違いとは?
#

Alt text
データレイクとデータウェアハウスの違いとは?
データウェアハウスと対比されるサービスとしてデータレイクというサービスがあります。

どちらも膨大なデータを格納するという点で共通していますが、詳細な違いを説明する場合説明が難しいと思います。

また、AWSではデータレイク構築のサービスとしてAWS Lake Formationというサービスがあります。
(実際にデータレイクと呼ばれるデータの貯蔵先はAmazon S3にデータを格納します。)

今回の記事ではAWS Lake Formationの説明は省略させていただきます。

それではデータウェアハウスとデータレイクの違いについて明確にしていきましょう。

データレイクの特徴とは?
#

では早速データレイクの説明をしていきます。

簡単に言うと、データレイクとは加工しない大量の生のデータを保存するデータの貯蔵庫です。

Alt text
データレイクとは?

データレイクには下記のような特徴があります。

  • 様々なタイプのデータ(画像や動画、バイナリデータ等)を格納
  • 膨大なデータの貯蔵・格納に向いている
  • 低コストのストレージを使用しクエリを実行できる
  • 貯蔵したデータをそのまま使える場合もある
  • 貯蔵したデータをAWS Glue等で加工し使う場合もある
  • 貯蔵したビッグデータは機械学習等で用いられる
  • 想定ユーザはデータサイエンティスト

データウェアハウスとの大きな違いはデータの利用用途と格納するデータの種類です。
まとめると下記がデータウェアハウス(Redshift)とデータレイク(Lake Formation + S3)の利用シーンです。

  • データをBIツール等で可視化しビジネスを分析するならRedshift
  • 機械学習のための学習データの貯蔵ならデータレイク(Lake Formation + S3)

さいごに
#

ここまでお読みいただきありがとうございました。
私のブログ記事を読んでいる方の中には海外転職・海外移住への興味がある方もいらっしゃるかと思います。

私自身ダナンで働き始めて7年目になりますが、海外就職を実現するために大事なのは英語力と開発現場で働いた経験だと感じました。

もし今後海外移住・海外就職を本気で実現させたい方はぜひこれらのサービスを活用してみてください。

レアジョブ - 実務で使える英語力を身につけよう
#

レアジョブ英会話は英会話力の向上に特化したサービスです。 私の友人もレアジョブを通じて0から学習を続け、現在はベトナム人のエンジニアとも英語でコミュニケーションが取れるレベルまで英会話力を伸ばすことができました。

レアジョブが選ばれる理由は多岐にわたりますが、主な理由としては下記3点が考えられます。

  • 優秀な講師陣:公用語が英語であるフィリピン人の方が講師となり、生きた英語を身につけることができる
  • 豊富な教材: 5,000以上の教材を提供しており、学習者のレベルや目的に応じて最適な教材を選べます。
  • 安心のサポート体制:初心者でも安心して始められるように、日本人カウンセラーが学習のサポートをしてくれます。

海外移住計画の第一歩として、スピーキング力を身につけたいと考えている方は、ぜひこちらの無料体験を試してみてはいかがでしょうか。

Related

【ファッション好き必見】ダナンでおすすめのファッションショップ2選
loading · loading
【flutter】簡単!ナビゲーションバー用アニメーションのやり方を解説!【curved navigation bar】
loading · loading