データアナリティクス事業本部のnkhrです。今回のブログでは、ETLの前処理を想定し、IFごとのS3ファイルに対して、共通の処理を実行するための構成(前処理自体は行っていません)を検証します。 具体的には、S3 Even […]…
AWS Lakeformationを使ってData Lakeを構成してみた
データアナリティクス事業本部のnkhrです。今回のブログでは、Data Lakeのアクセス管理やデータ管理を行うLake Formation機能を検証します。 Lake Formationを使うメリット Data Lak […]
AWS Glueでカンマ区切りの数字(String型)を数値(Long型など)に変換したい
下記のように、カンマ区切りで入力されている数字を数値に変換しようとしていました。 Glueだと、DynamicFrameのApplyMappingを使って型の変更ができるので、真似をしてやってみたところ、数値に変換されず […]…
AWS Glueでオブジェクトの配列があるJSONをフラット化する
データアナリティクス事業本部、池田です。 JSONのフラット化でけっこう苦労したのでブログにします。 オブジェクトの配列(後述)が含まれているような、やや複雑なJSONをフラット化します。 ↓基本の部分は以下の公式の記事 […]…
データマネジメント・ガバナンスの観点から見るAWS Glue Data Catalog
本記事では、データマネジメント・ガバナンスの推進に使えそうなAWS Glueの機能を考察していきます。 「激熱!1日1製品!最強のデータ系SaaSはどれだ決定戦」アドベントカレンダーにて、これまで20の商用製品を取り扱っ […]…
[레포트]AWS와 함께한 야놀자 Fullstack Hospitality Solution 구축기 #KOR202 #reinvent
안녕하세요! 클래스메소드 금상원 입니다. 이번 블로그에서는 AWS에서 주관하는 Re:Invent2021에서 흥미로운 내용이 있어 공유 하려 합니다. Hospitality산업이란? 숙박, 음식 및 음 […]
[Amazon Athena] 名前付きクエリとVIEWテーブルの違いを確認しつつ使ってみた
こんにちは、CX事業本部 IoT事業部の若槻です。 今回は、Amazon Athenaの名前付きクエリ(Named Query, Saved Query)とVIEWテーブルの違いを確認しつつ使ってみました。 名前付きクエ […]
OSSデータカタログAmundsenにGlueメタデータをロードしてみた
どーもsutoです。 登録したデータに対し、「Google検索」のようにデータの検索ができるLyft社製のOSSデータカタログAmundsenというデータ検出およびメタデータエンジンがあります。 前回の記事ではAmund […]…
[Apache Hudi]新発表されたGlue3.0でApache Hudiを動かす
データ・アナリティクス事業本部の森脇です。 先日、Spark 3.1に対応したGlue3.0が発表されました。 Apache HudiはSpark3系にも対応していますので、早速動作検証をしてみました。 結論 Glue3 […]…
[Apache Hudi] Datadogと連携してメトリクスを表示する
データ・アナリティクス事業本部の森脇です。 Apache Hudiには0.8.0でメトリクス機能が追加されました。 この機能を使うことで、コミットやロールバックに関するデータを3rdツールと連携することが可能です。 連携 […]…