ナカヤマです。 DatabricksというSaaSサービスでユーザーの所有するAWSアカウントにあるVPCにClusterをデプロイしてみました。 その流れを記録します。 Databricksとは? Databricks […]
[Apache Hudi] 0.9.0の新機能まとめ
データ・アナリティクス事業本部の森脇です。 先日、Apache Hudiの新しいバージョンである0.9.0がリリースされました。 いくつかの新機能が追加されており、その中から個人的に気になったものをまとめてみました。 気 […]…
[Apache Hudi]新発表されたGlue3.0でApache Hudiを動かす
データ・アナリティクス事業本部の森脇です。 先日、Spark 3.1に対応したGlue3.0が発表されました。 Apache HudiはSpark3系にも対応していますので、早速動作検証をしてみました。 結論 Glue3 […]…
[Apache Hudi] Datadogと連携してメトリクスを表示する
データ・アナリティクス事業本部の森脇です。 Apache Hudiには0.8.0でメトリクス機能が追加されました。 この機能を使うことで、コミットやロールバックに関するデータを3rdツールと連携することが可能です。 連携 […]…
[レポート] データファクトリーの構築:汎用ETLパイプラインユーティリティのケーススタディ – Subsurface LIVE Summer 2021
米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダ […]
[レポート] :データレイクのCI/CDを踏まえたデータ統合を再考する(LakeFSの紹介) – Subsurface LIVE Summer 2021
米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダ […]
[レポート] データレイクエンジニアリングにおける “醜い配管” を排除する – Subsurface LIVE Summer 2021
米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダ […]
[レポート] Hyperspaceでデータレイクのインデックスをカバーする – Subsurface LIVE Summer 2021
米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダ […]
[レポート] Apache Hudiのテーブル形式の紹介 – Subsurface LIVE Summer 2021
米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダ […]
[レポート] Apache Supersetによるデータレイクの可視化 – Subsurface LIVE Summer 2021
米国時間2021年07月21日〜22日の計2日間、オンラインで開催された「Subsurface LIVE Summer 2021」では、主催となるDremio社のサービスやクラウドデータレイクに関する各種サービスやプロダ […]