A Bridge to the Cloud Damien Contreras ダミアンコントレラ Customer Engineer Specialist, Data Analytics, Google Cloud アジェンダ

A bridge to the Cloud Damien Contreras ダミアンコントレラ Customer Engineer Specialist, Data Analytics, Google Cloud アジェンダ 1 2 4 5 6 はじめに移行する前の DWHの移行 GCP と連動データの表示準備についてはじめに 01 移行する前に| データウェアハウスの欠点リアルタイムの負担は受データ増加けられないコストデータ形式対応外セルフサービス分析が難しいベンダーロックインの心スタースキーマとディメン配表ションとファクト表に合わせる移行する前に | データレイクの欠点コストクラスターのリソースのバージョンアップバランス複数のデータレイクが構築パートナー、人材採用が困される難移行する前に | Google Cloud の価値コストパフォーマン弾力性のある構セキュリティースが良いサイロはないサーバーレスでNo-ops ANSI SQL-2011 移行をする前に考えること 02 Partners Cloud plan & cloud deploy 移行する前に | 社内にスキルはない場合グーグルの支援パートナーと BigQuery のスター Google リソースがターパック協力し合う https://cloud.google.com/partner s/?hl=ja 移行する前に | TCO & ROI アンケートを記入するだけで総所有コストのも計算移行する前に | クラウドで構築サイロ化に 2 3 なっている 1 データセットデータと関連データの Proof of 基盤を構築発見 Concept 誰でも ML を使えれるよう 6 5 4 に機械学習ソースデータを周りのシステム移行と通信用のツールの構築 DWH の移行について03 移行する前に | DWH移行対応 t n r m h o s v b ? Teradata IBM AWS Azure SQL Hadoop Oracle Snowfake Verica SAP BW その他 Netezza Redshif BigQuery t Teradata IBM Netezza から 13 IBM Netezza | アーキテクチャ FPGA CPU メモリー NZSQLコマンド:DML, データダンプ Host FPGA CPU (Linux JDBCコネクター：SQLクエリメモリーサーバ) FPGA CPU Symmetric Multiprocessing メモリー (SMP)複数のマイクロプロセッサ Disk S-Blade Network Enclosure fabric AMPP Massively Parallel Processing Architecture (MPP) 大量な並行処理 IBM Netezza | データタイプ IBM Netezza の 31 タイプを全部 BigQuery でマッピングが出来ます IBM Netezza BigQuery VARCHAR STRING BOOLEANま BigQuery : TRUE / FALSE BOOL たBOOL Netezza : True / False, 1 / 0, yes / no, on / of TIME / TIMETZ / TIME BigQuery : の TIME でタイムゾーンはない TIME_WITH_TI ME_ZONE ARRAY Netezza : VARCHARのデータタイプに保存 IBM Netezza |それ以外の違い IBM Netezza BigQuery テラバイトのスケールまで： TwinFin (all 拡張性 N2001) また Striper (all N2001); 最大：ペタバイト 320 Terabytes Distributed Columnar Database - 圧縮比データモデル Relational DBMS - 圧縮比：1:3 ：1:10 SQL SQL-92とSQL-99のエクステンション SQL-2011 処理エンジン MapReduce Dremel UDF C++ Javascript BigQuery のSQLでストアドプロシージャをストアドプロシージャ NZPLSQL 書くalphaになります A-z, A-Z, 0-9 また underscore “_” 最大フィールド名日本語対応, 最大：128バイト：128 文字 IBM Netezza |チェックリスト ● IBM Netezza のデータタイプを BigQuery のデータタイプにマッピング ● フィールド名のマッピング ● IBM Netezza の SQL からに使用されてるクエリを ANSI SQL-2011に切り替えます ● C++ の UDF を BigQuery の UDF に書き直すストアドプロシージャを他の仕組みで対応 ● データソースのと連携ツールを選択する ○ 最初のデータ移動方法 ○ 定期的なデータ更新方法（差分管理） IBM Netezza |カバレッジデータ量データ形式ペタバイト対応マッピング可能クエリ UDF SQL C++ → Javascript 書き直し可能ストアドプロシージャデータ通信 BigQuery のSQLでストアドプロ JDBCコネクターシージャ（alpha) コマンドラインでデータダンプ Teradata から Teradata | アーキテクチャ Dual CPU CPU O BYNET Interconne メモリー S BTEQコマンド:DML, データダンプ, cts 複数のインスタンスからデータクエリ CPU CPU O メモリー S JDBCコネクター：SQLクエリ CPU CPU O メモリー S Massively Parallel SMP Processing Nodes 大量な並行処理 Server (MPP) Management Teradata MPP 最大：1024 ノード Architecture Teradata | データタイプ Teradata の全てのタイプを BigQuery に Teradata BigQuery VARCHAR STRING INTERVAL_HOUR, INTERVAL_MINUTE, INTERVAL_SECOND, INT64 BigQuery: 期間のデータタイプない INTERVAL_DAY, INTERVAL_MONTH, INTERVAL_YEAR PERIOD(DATE), PERIOD(TIMESTAMP_ WITH_TIME_ZONE), STRING BigQuery: 期間のデータタイプない PERIOD(TIMESTAMP), PERIOD(TIME) Teradata |それ以外の違い Teradata BigQuery 拡張性テラバイトペタバイト Distributed Columnar Database - 圧縮比データモデル Relational DBMS - 圧縮比：最大：1:10 ：1:10 Teradata SQL 一部 SQL-2011 ベース (書き SQL ANSI SQL-2011 直すことは出来ます ) 処理エンジン Dremel UDF SQL Javascript ストアドプロシー BigQuery のSQLでストアドプロシージャを書く SQL ジャ alphaになりますまたアンダースコアードまたアンダースコアー最大フィールド名 A-z, A-Z, 0-9 “_” , A-z, A-Z, 0-9 “_” ル “$”, シャープ “#” 最大：30 文字：128 文字 Teradata |カバレッジデータ量データ形式ペタバイト対応マッピング可能クエリ UDF SQL SQL → Javascript 書き直し可能ストアドプロシージャデータ通信 BigQuery のSQLでストアドプロ JDBCコネクターシージャ（alpha) コマンドラインでダンプ Hadoop から 24 専用のAPI アーキテクチャ JDBCコネクター：SQLク Hadoop | エリ CPU O w o S データウキーバリューメッセージメモリー r エアハウデータベスブローカ k ス e Phoenix CPU Z O r s Spark Hive Hbase Kafka o メモリー S q o N o Tez Slider k o CPU o e O d Yarn：リソース管理 e S e p メモリー p n HDFS : ファイルシステム e m i r CPU O a f メモリー S s ハードウエアー t i e CPU O r メモリー S ソフトエアースタック N Network o d 専用のAPI ハードウェアスタック e Hadoop | GCP Dataproc フルマネージド、Hadoop / Spark、カスタマイズ可能なマシン 90 秒以内で立ち上げて、エフェメラルまたオンデマンドのクラスター秒単位の請求データの暗号化 Hadoop | GCP Dataproc 一時的なクラスタージョブデータクラスター作成処理の結果書込クラスター削除 Bucket み Cloud 削除 Cluster 1 Storage Cloud BigQuery Cloud Dataproc Dataproc Logging & monitoring Stack driver Hadoop | マイグレション選択マトリクスデータウェアハウスの処理 NoSQLを使ってます NoSQL を使ってますかアドホッククエリまたインタラクティブクエリを起動 (Hive, Impala, Kudu, Drill, Druid, AtScale、はい MaprDB, …) HBase を使ってますか Accumulo を使って、移行がしたくないのでそのまま使いたいはいクエリーを書き直しても大丈 Cloud いいえ夫ですかはいいいえ Dataproc Phoenix を使ってますかはいはいいいえ BigQuery また Cloud Cloud BigQuery Bigtable Dataproc Hadoop |チェックリスト ● Hive データタイプを BigQuery のデータタイプにマッピング ● Hive の UDF また SerDe を移行計画 ● Hive に使用されている HQLクエリを ANSI SQL に切り替えます ● HDFS に保存されてるバイナリーファイルの処理プロセスを移行の計画 ● Spark, MapReduce また Pig script のデータ処理の移動計画 ● HBase のデータ移行の計画 ● Zeppelin ノートブックの移行計画 ● Kafa が使われているフローの移行計画 ● Sqoop のスクリプトを基づいて、データソースのと連携ツールを選択する ○ 最初のデータ移動方法 ○ 定期的のデータ更新方法（差分管理） Hadoop |カバレッジデータ量データ形式ペタバイト対応マッピング可能クエリ UDF & Serde SQL SQL / Java → Javascript 書き直し可能データ処理データ通信書き直し可能 JDBCコネクター Dataprocに起動 HDFSのダンプ対応 BigQueryのSQLでストアドプロ専用のAPI シージャ（alpha) GCP との連動 04 GCP のサービスを紹介 32 GCP | Data pipeline 全体図データソース ETL/ESB ランディング・ゾー加工 / 処理蓄積 / DWH 分析活用ン公開ストリーミングデータセット Pub/Sub パートナーのツール / Datafusion / Data Transfer Service バッチ ETL 処理 Legacy EDW BigQuery 他社のツール Cloud storage ELT を SQLで GCP | Cloud Storage 耐久性と高可用性を両立させた BLOB ストレージ（オブジェクトストレージ）安全で耐久性のあるデータ保管容量管理が不要転送中のデータと保存データの暗号化パフォーマンスとコストバランスの取れたストレージクラス BigQuery や Datafow, Dataproc などの分析サービスとの統合 34 GCP | Cloud Pub/Sub 信頼性の高いリアルタイムメッセージングサービスグローバルに設計された高い可用性プロビジョニングが不要で自動処理 At Least Once 配信多彩なパターンで利用が可能 35 連携パターン GCP | データパイプラインの連携ツール選択ソース ETL/ESB ランディング・ゾー加工 / 処理蓄積 / DWH ン ESB / Hadoop ETL S3 Bucket Cloud Cloud BigQuery DWH Pub/Sub Dataflow r RedShift Cloud Dataproc e Exadata Data n Netezza Cloud Fusion t Teradata Storage ... Cloud Dataprep RDBMS Bq load Data Transfer Service GCP | データパイプラインの連携ツール選択今現在、データ連携のツールがすでにあ GCP から（プル）それぞれのデー bq load いいえいいえりますか (ESB, ETL)？タソースに接続したい？ GCP API はいはいカスタムロジックまた複雑なデー GCP に行く時にデータパイプライン（データパイプラインを Java また Cloud タ通信またデータ処理）をで最適にはい No はい GCP Python で書いてコントロールし Dataflow 再構築 ? たい? いいえいいえカスタムロジックまた複雑なデークラウド Sqoop / NiFi + Data パートタフローをビジュアルツールで作はいネーティまたその他 Fusion Spark MR ナーのりたい? ブジョブズの ETL ETL いいえツールツールデータ整理だけが必要、ビジュアルデータ探索したい、ルールベーはい Dataprep Informati スで構築したい Talend Cloud ca Dataproc いいえ Intelligen Data 程的にデータをデータソースからはい t Cloud Transfer Services シンクしたい場合 Service いいえ GCP | BQ Load 向いている場面バッチで、ファイルの構でデータ送る構化データの場合オンプレミスのスケジューラーの対応データをオンプレミスからプッシュする時 GCP | BQ Load 事例ソースランディング・ゾー ETL/ESB 加工蓄積 / DWH 分析 Analyze 活用 Visualize ン Cloud gsutil cp bq load BigQuery 1 を経由 Storage GCS スケジューラー bq load BigQuery 2 直接の書き込みスケジューラー GCP | BQ Load 詳細コマンドライン、Java, C#, Python, PHP, Ruby, Node.js, Go ローカルディスクからロードをしたい時、制限： ● コマンド毎 10MB 以下また 16,000 のレコード ● フォルダまたWildcardは使えない GCP | Data fusion 向いている場面バッチもしくはストリーミング対応データフローをマージー、データ変換、データマッピング：複雑なデータフローを構築する時マネージドサービス GCP | Data fusion 事例 Data ランディング・ゾー ETL/ESB 加工蓄積 / DWH 分析 Analyze 活用 Visualize Warehouse ン Data n Netezza BigQuery Fusion 1 バッチ Cloud Data Cloud 1 ストリーミング Pub/Sub Fusion Storage Beta GCP | Data fusion 詳細 No-opsのデータパイプラインの構築と管理のための統合サービスフルマネージド型のデータ統合また処理統一されたバッチとストリーミング GUIでグラフの形で（DAG）フローの流れをビジュアルで作れるエラー管理メインのデータベースとデータウェアハウスと連携：IBM Netezza, Oracle 12c, Redshif, Kudu, MySQL, MS SQL Server, IBM DB2... GCP | Datafow 向いている場面バッチ & ストリーミングコードで複雑な処理を描きたい GCPのサービスと連携したい時、テンプレートを使いたい場合 GCP | Datafow 事例 Data ETL/ESB Landing Warehouse 加工蓄積 / DWH 分析 Analyze 活用 Visualize Cloud Cloud BigQuery Pub/Sub Dataflow GCP | Datafow 詳細オープンソースのプログラミングモデルサーバーレスでフルマネージド型のデータ処理何百万もの QPS に合わせた自動最適化 Python また Javaで使い慣れた言語で統一されたバッチとストリーミング 47 GCP | Data Transfer Service 向いている場面 BigQuery へのデータの移動を自動化するマネージドサービス,コネクターが Teradata, S3, redshift、さまざまなソースから信頼性の高いデータ取り込み(アップタイム SLA とデータ配信 SLA) データ配信のスケーリング GCP | Data Transfer Service 事例 Data ETL/ESB Landing Warehouse 加工蓄積 / DWH 分析 Analyze 活用 Visualize Data S3 Bucket Transfer BigQuery Service GCP | Data Transfer Service Data Transfer Service 様々なソースから (AWS S3, AWS Redshift, Redshift, …) 数クリックで設定はできますスケジューラー、通知の機能も Parner | Informatica 向いている場面今すでに使われている場合データをオンプレミスからクラウドへビジュアルでフロー構築データ周りの完全管理：data Catalog, MDM Parner | Informatica Informatica PowerCenter - use your ETL to integrate Data ETL/ESB Landing Warehouse 加工蓄積 / DWH 分析活用 Hadoop Informatica BigQuery 1 PowerCenter オンプレミス Oracle O Informatica RDBMS PowerCenter Hadoop Informatica Informatica BigQuery 2 クラウド Cloud Cloud Oracle Informatica O RDBMS intelligent Cloud Services Parner | Informatica ChangeDataCapture 対応 (Oracle, Db2, SQL Server, MySQL) GUI で出来る：データマッピングスキーママッピングフロー構築ログファイルの構解析データウエアハウスマイグレション対応： Netezza, Teradata また Hadoop のコネクターすでにある Tier で GCP 対応： Tier C で標準で GCS のコネクター Tier D で直接の BigQuery コネクター GCP | データ連携のパートナー 1000+ parners データを表示する、 BI ツール 0405 BI ツール | Google スプレッドシートスプレッドショート直で BigQuery のデータを SQL が書けなくってもデータにアクセスできるデータが見れるから簡単にすぐ理解はできる BI ツール | データポータルでダッシュボード作れる GUI データソースがまとまってなくても様々なデータソースを Join できるテンプレートで簡単にダッシュボード作れるカスタムグラフを D3.js を使って、Javascript で作る BI ツール | Looker ● BigQuery と統合 ● クラウドなのでスケーラブル ● どこでもからアクセスは出来る ● 50 以上のデータベース直接接続 GCP | パートナー 1000+ parners Thank you.

A Bridge to the Cloud Damien Contreras ダミアンコントレラ Customer Engineer Specialist, Data Analytics, Google Cloud アジェンダ

Download File

System and Organization Controls (SOC) 3 Report Over the Google Cloud Platform System Relevant to Security, Availability, and Confidentiality

F1 Query: Declarative Querying at Scale

Containers at Google

Beginning Java Google App Engine

Migrating Your Databases to Managed Services on Google Cloud Table of Contents

Nosql Database Comparison: Bigtable, Cassandra and Mongodb

Google Cloud Security Whitepapers

Ray Cromwell

Before We Start…

Web2py Dojo @Pycon 2009 Goal

Bigquery Table Date Range Standard Sql

A Bridge to the Cloud Damien Contreras ダミアン コントレラ Customer Engineer Specialist, Data Analytics, Google Cloud アジェンダ

A Bridge to the Cloud Damien Contreras ダミアンコントレラ Customer Engineer Specialist, Data Analytics, Google Cloud アジェンダ