內容簡介
內容簡介 高い信頼性とハイパフォーマンスを両立するデータプラットフォームの新標準!ビッグデータを最大限活用する仕組みと運用法を徹底解説【本書の概要】本書は、高い信頼性とハイパフォーマンスを両立する、OSSのストレージレイヤソフトウェアであるDelta Lakeの入門書です。セットアップから実際の操作手順、実行例まで、データ分析に携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説を行います。【本書で学べること】・最新のデータ管理およびデータエンジニアリング手法・ACIDトランザクションが大規模なデータレイクにどのように信頼性をもたらすのか・データレイクに対してストリーミングジョブとバッチジョブを同時に実行する方法・テーブルの削除、更新、マージ方法・タイムトラベルを使用したロールバックによるデータバージョンの調査方法・メダリオンアーキテクチャに従ったストリーミングデータ品質パイプラインの構築方法【本書の対象読者】・データ分析に携わる方・Delta Lakeの基本事項、用語、始め方などを知りたい方・最新のレイクハウスアーキテクチャの機能とメリットについて学びたいデータ担当者・Apache Sparkの経験を持つデータ担当者【目次】Chapter 1 データアーキテクチャの進化Chapter 2 Delta Lake入門Chapter 3 Deltaテーブルの基本操作Chapter 4 テーブルの削除、更新、マージChapter 5 パフォーマンス・チューニングChapter 6 タイムトラベルの利用Chapter 7 スキーマの取り扱いChapter 8 ストリーミングデータに対するオペレーションChapter 9 Delta SharingChapter 10 Delta Lake上でのレイクハウス構築※本書は『Delta Lake: Up and Running: Modern Data Lakehouse Architectures with Delta Lake』の邦訳です。 高い信頼性とパフォーマンスを両立する、OSSのストレージレイヤソフトウェアであるDelta Lakeの入門書