DWHの人気記事 193件 - はてなブックマーク

1 - 40 件 / 193件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

DWHの検索結果1 - 40 件 / 193件

近年のデータ分析基盤構築における失敗はBigQueryを採用しなかったことに全て起因している - データエンジニアの酩酊日記
- 401 users
- uma66.hateblo.jp
- テクノロジー
- 2019/10/17
久しぶりにペラペラな思いつきを書き捨てて、寝ます。 2、3年前ぐらいにSIerやコンサルでTreasure Dataとか使ってマネージドDWH作ろうぜっていう風潮が流行って、今は運用フェーズに入ってどこも結構苦しんでるってのが僕のすごく狭い観測範囲での印象。 AWSのReadshiftしかり。なぜ苦しんでるかっていうと、言うほどスケールしないからであり、言うほどマネージドじゃないから。 Treasure Dataは基本的に割当メモリが固定でオートスケールしないので、ピーク時に合わせて必要なメモリを確保しておかないといけない。そうなるとメモリ使用量とか負荷とかをモニタリングしないといけないわけだけど、Saasだから内部のアーキテクチャが隠蔽されていていちいちサポートに問い合わせないといけなかったりする。 Redshiftの場合はそもそも自前でクラスタ管理しなくちゃいけないのでそれが大変って
- BigQuery
- あとで読む
- アーキテクチャ
- aws
- 運用
- データ基盤
- 分析
- データ
- GCP
- エンジニア
データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋を用意してみました. - Lean Baseball
- 397 users
- shinyorke.hatenablog.com
- テクノロジー
- 2022/12/01
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow（もしくはWhere）の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, （仕事以外の営みにおける）個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか？」という問いに対する処方箋というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方（データ基盤に限らず）クラウド料金の基本的な考え方をGoogle
- データ
- あとで読む
- gcp
- データ基盤
- aws
- データ分析
- アーキテクチャ
- DWH
- サービス
- cloud
Modern Data Stack / モダンデータスタックというトレンドについて - satoshihirose.log
- 302 users
- satoshihirose.hateblo.jp
- テクノロジー
- 2021/11/20
はじめに Modern Data Stack ? Modern Data Stack の特徴やメリット、関連するトレンドデータインフラのクラウドサービス化 / Data infrastructure as a service データ連携サービスの発展 ELT! ELT! ELT! Reverse ETL テンプレート化された SQL and YAML などによるデータの管理セマンティックレイヤーの凋落と Headless BI 計算フレームワーク (Computation Frameworks) 分析プロセスの民主化、データガバナンスとデータメッシュの試みプロダクト組み込み用データサービスリアルタイム Analytics Engineer の登場各社ファウンダーが考える Modern Data Stack さいごに Further Readings はじめに Modern Dat
- data
- あとで読む
- データ
- SQL
- architecture
- データ基盤
- 統計
- dataManagement
- ツール
- DWH
論理プログラミング言語Logicaでデータサイエンス100本ノック
- 267 users
- zenn.dev/koji_mats
- テクノロジー
- 2021/06/25
Googleが発表したOSSプロジェクトである論理プログラミング言語Logicaを使って、データサイエンス100本ノック(構造化データ加工編)の設問を解きながらどのような言語かを確認していく。 (BigQueryのクエリとして実行していく) 最初に、プログラミング言語Logicaの特徴を纏めておく。論理型プログラミング言語: このカテゴリではPrologが有名 SQLにコンパイルされる: 現状BigQueryとPostgreSQLに対応モジュール機構がある: SQLと比較した強みコンパイラはPythonで書かれている: Jupyter NotebookやGoogle Colabですぐ始められる Colabでチュートリアルが用意されているので、まずこちらからやると良いと思う。コードの見た目は関係論理の記述に似ている。事前に、データサイエンス100本ノックのテーブルデータをBigQu
コールセンターの担当者もSQLを叩く。モノタロウのデータドリブンな文化に惚れた｜株式会社MonotaRO（モノタロウ）
- 250 users
- note.com/monotaro_note
- テクノロジー
- 2021/06/04
モノタロウの継続的なビジネス成長に伴い、月間セッション数や注文数は大幅な増加を続けています。指数関数的に増えるデータを扱いやすくするための技術的探求は尽きません。なかでもデータハブの整理・構築を中心に技術開発・研究に携わるのが、エンジニアの中村真人さん（ECシステムエンジニアリング部門 EC基盤グループコアロジックチーム）です。データ領域で「冒険したかった」という彼が、モノタロウを選んだ理由や技術的な面白さ、今後の展望について話を聞きました。データが“いくらでも増え続ける”サービスでのチャレンジ ——はじめに、現在の業務について教えてください。主にデータハブの整理や構築です。実際のデータからバッチ処理でデータを作り、API化していく手法を開発・研究しています。プラクティスを他の開発者に展開するなど、実践や発見を組織全体に広げています。 ——前職でも、現在のようなデータ周りの技術に携
- SQL
- あとで読む
- DX
- 仕事
Data Platform Guide - 事業を成長させるデータ基盤を作るには #DataEngineeringStudy / 20200715
- 242 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2020/07/15
Data Engineering Study #1 の発表資料です。 https://forkwell.connpass.com/event/179786/ 当日の動画はYoutubeで閲覧可能です。 https://www.youtube.com/watch?v=hFYNuuAaiTg 参考文献『Software Design (ソフトウェアデザイン) 2020年7月号』 https://amzn.to/30YueL7 『データマネジメントが30分でわかる本』 https://amzn.to/3fmz8Gw
- DWH
- BI
- あとで読む
- データ
- data
- slide
- datalake
- platform
- bigquery
MonotaROのデータ基盤10年史（前編） - MonotaRO Tech Blog
- 238 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/10/26
おしらせ：12/23 に後編記事がでました！ tech-blog.monotaro.com こんにちは、データ基盤グループの香川です。現在モノタロウではBigQueryに社内のデータを集約し、データ基盤を構築しています。およそ全従業員の6割が日々データ基盤を利用しており、利用方法や目的は多岐に渡ります。データ基盤グループはこれまでデータ基盤システムの開発保守と利用者のサポートを主な業務として取り組んできましたが、これら多岐にわたる社内のデータ利用における課題の解決及びさらなるデータ活用の高度化を目的として、今年の5月よりデータ管理を専門に行う組織として新たに体制を再構築しました。そこで改めて組織として取り組むべき課題や方向性を決めるために、まず自分たちの現在地を知ることが重要と考え、データ基盤の歴史を振り返り、社内のデータ活用における課題やそれを取り巻く状況がどう変わってきたのかを
- BigQuery
- あとで読む
- mysql
- データ
- データ基盤
- SQL
- 分析
- database
- data
- 運用
なぜETLではなくELTが流行ってきたのか - Qiita
- 225 users
- qiita.com/hiro_koba_jp
- テクノロジー
- 2022/12/05
概要 troccoの生みの親で、現プロダクト責任者をしている @hiro_koba_jp です。 troccoアドベントカレンダー2022の1記事目書いていきます！（みんなも参加してね）データ分析やデータエンジニアリングにおいてETL(Extract Transform Load)という言葉を耳にしたことがある方は多いのではないでしょうか？一方、「ETLではなくELT（音楽グループではない）が主流になりつつある」といったような論調も増えてきました。この記事では、ETLとELTの違いや、なぜELTにシフトしつつあるのか、この先どうなるのか（予想）について、私なりの見解を書いてみようと思います。一昔前まではETLパターンが多かった Redshiftが登場した2013年頃、人々はデータレイク層はS3上で構築し、データウェアハウス層〜データマート層はRedshift上に組む人が多かったよう
- BigQuery
- あとで読む
- データ
- データ分析
- etl
- ELT
- architecture
- SQL
- CPU
SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
- 216 users
- tech-blog.monotaro.com
- テクノロジー
- 2021/08/24
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。背景 SQLを使った監視基盤の構築実際の監視項目例他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか承認済みビューの設定が意図せず消えていないか今後の展望背景データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態
- sql
- BigQuery
- あとで読む
- monitoring
- 監視
- データ
- 運用
- cloud
[レポート]みんなの考えた最強のデータアーキテクチャ #datatechjp | DevelopersIO
- 198 users
- dev.classmethod.jp
- テクノロジー
- 2022/11/08
さがらです。 11月8日20時～22時に、datatech-jp(データエンジニアリング関係のコミュニティ)主催でみんなの考えた最強のデータアーキテクチャというイベントが開催されました。本記事はこのイベントのレポートブログとなります。イベント概要 ※connpassより引用 datatech-jpで集ったデータエンジニアが、それぞれみんなの考えた最強のデータアーキテクチャを紹介し合うという夢のような企画が実現しました！たくさんの新しいプロダクトが群雄割拠する現在、モダンデータスタックなどという言葉も登場しています。今こそ、どんなプロダクトを選び、どのようなデータ基盤を作れば、効率的にやりたいことが実現できるのか。 5人の猛者からおすすめの構成をご紹介いただきながら、参加者のみなさんとも一緒に考えていく時間としたいと思います。おまけ：当イベントの応募者数このイベントですが、なんと
dbtで見やすいER図を生成する - yasuhisa's blog
- 194 users
- www.yasuhisay.info
- テクノロジー
- 2024/02/03
背景: dbtを使っていてもER図は欲しい! どうやってER図を生成するかどうやってER図を見やすくするかまとめ背景: dbtを使っていてもER図は欲しい! dbtはモデル間のリネージなど可視化が得意なツールではありますが、万能なわけではありません。モデルの生成過程などはリネージで担保できますが、分析時に「どれとどのモデルがJOINできて、JOINする際のキーはこれを使って」というER図で扱うような可視化はディフォルトではできません。 DWHを作っている側からすると「このテーブルはあの辺のテーブルと一緒に使うと便利で、いつもあのキーでJOINして」というのが頭の中に入っていることが多いため、ER図がなくてもどうにかなることも多いでしょう。しかし、分析に慣れていない人や分析に慣れている人であっても、普段と異なるドメインのテーブルを触るときはER図が提供してくれる情報は有用です。ちなみに
- dbt
- あとで読む
- 設計
- DB
- markdown
- UML
- database
DMBOKを用いたアセスメントでデータマネジメントを加速させる - MonotaRO Tech Blog
- 192 users
- tech-blog.monotaro.com
- テクノロジー
- 2022/07/27
こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤やデータマネジメントに興味を持たれている方はDMBOKを持っている / 読んだことがあるという方も多いのではないでしょうか。このエントリではDMBOK中に紹介されているデータマネジメント成熟度アセスメント(以下、アセスメントと省略)をモノタロウでどう活用しているかについて紹介します。背景初手: 自社のデータ基盤の歴史を振り返るアセスメントの実施データ活用者 / システム提供者 / 意思決定者へのヒアリングの実施アセスメントを実施した結果最後に背景まず、モノタロウでなぜアセスメントを行なったかについて説明します。モノタロウは20年以上歴史のある企業であり、データ基盤自体も10年以上の歴史があります。単一事業ではあるものの、受注 / 売上 / 商品 / 在庫 / 顧客 / 行動履歴など、対象となるドメ
Apache Iceberg とは何か - 流沙河鎮
- 161 users
- bering.hatenadiary.com
- テクノロジー
- 2023/09/24
はじめに概要 Apache Iceberg(アイスバーグ)とは [重要] Icebergの本質はTable Specである Table Spec バージョン Icebergハンズオン Icebergの特徴同時書き込み時の整合性担保読み取り一貫性、Time Travelクエリ、Rollback Schema Evolution Hidden Partitioning Hidden Partitioningの種類時間 truncate[W] bucket[N] Partition Evolution Sort Order Evolution クエリ性能の最適化ユースケース Icebergのアーキテクチャ Iceberg Catalog Iceberg Catalogの選択肢 metadata layer metadata files manifest lists manifest f
- Iceberg
- あとで読む
- apache
- データベース
- DB
- data
- データ
Google CloudがBigQueryでAWS、Azure上のデータを動かさずに分析できる「BigQuery Omni」を発表
- 157 users
- atmarkit.itmedia.co.jp
- テクノロジー
- 2020/07/14
Google Cloudは2020年7月14日（米国時間）、アナリティクスサービス「BigQuery」のマルチクラウド対応を発表した。Amazon Web Services（AWS）やMicrosoft Azure上のデータを動かすことなく、BigQueryによるマルチクラウドのデータ分析ができる。 Google Cloudは同日、AWSの「Amazon S3」に対応したプライベートα版の提供を開始した。Azureへの対応は近い将来（「soon」）に行うという。 BigQuery Omniでは、Google Cloudがマルチクラウド対応を進めるマネージドKubernetesサービス、「Anthos」を活用する。BigQuery OmniとしてAWSやAzureに展開するAnthosクラスタ上で、BigQueryのクエリエンジンである「Dremel」をマネージドサービスとして動かす。その上
- BigQuery
- aws
- GCP
- Azure
- google
- データ
- あとで読む
- cloud
BigQuery と Snowflake を徹底比較
- 156 users
- speakerdeck.com/fetaro
- テクノロジー
- 2022/12/21
最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。最後に、BigQueryとSnowflakeどっちが速いのか？といった疑問に対して、アーキテクチャをもとに考察します。
次世代データ基盤：データレイクハウスを Google Cloud で実現する
- 150 users
- zenn.dev/cloud_ace
- テクノロジー
- 2024/02/22
はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段はデータ基盤や MLOps の構築をしたり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。また、昨年は Google Cloud Partner Top Engineer 2024 に選出されました。今年も Goodle Cloud 界隈を盛り上げていけるよう頑張っていきたいと思います。クラウドエースデータソリューション部についてクラウドエースのITエンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、次世代データ基盤であるデ
- BigQuery
- あとで読む
- gcp
- データ
- cloud
- Google Cloud
- google
- 分析
- クラウド
- アーキテクチャ
GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるから
- 146 users
- www.publickey1.jp
- テクノロジー
- 2020/09/01
GoogleがBigQueryを安価に提供できる理由は、Borgによる大規模分散コンテナ環境があるからいまから6年前の2014年、当時ようやくDockerコンテナが世の中に知られるようになってきた頃、Googleはすでに社内のすべてのソフトウェアをコンテナ化しており、毎週20億個ものコンテナをクラウド上で起動していると発表し、多くのエンジニアを驚かせました。この大規模なコンテナの制御、すなわちオーケストレーションを行っていたのが同社内で「Borg」と呼ばれるソフトウェアです。そしてKubernetesはこのBorgを基に、Googleがオープンソース化したコンテナオーケストレーションソフトウェアだとされています。 Borgの大規模分散コンテナ基盤でBigQueryが成立するこのBorgによる大規模分散コンテナ基盤があるからこそ、BigQueryが安価に提供できるのだと、Google
- GCP
- あとで読む
- Google
- bigquery
- 仮想化
- techfeed
- AWS
DWHにおけるデータモデリングで大事にしている考え方
- 123 users
- stable.co.jp
- テクノロジー
- 2024/02/02
こんにちは。データエンジニアリングの支援を行っているstable株式会社の代表の宮﨑（@ikki_mz）です。弊社では、クライアント社内のデータウェアハウス（DWH）におけるデータモデリングをサポート...
データ活用基盤の今〜DWH外観図〜 - クックパッド開発者ブログ
- 122 users
- techlife.cookpad.com
- テクノロジー
- 2019/10/18
こんにちは、今年の1月に会員事業部から技術部データ基盤グループへ異動した佐藤です。先日、京まふ2019前夜祭イベントに参加するために人生で初めてピカピカ光る棒を買いました。新卒で入社してから2年ほど分析作業をしていた身から、データ活用基盤を作る側へ立場を変えました。今回は新たに身を移したデータ活用基盤の外観を説明したいと思います。 2017年にも同内容の記事が投稿されていますので、当時との違いを中心に説明していきます。外観図以下が2019年10月現在におけるクックパッドのデータ活用基盤の全体像です。クックパッドのDWH外観図 masterデータのインポートがMySQL以外にも複数種対応し始めたことと、PrismとSpectrum（S3＋Glue）周りと、Tableau Serverが大きな変更点となっています。2017年の図にDmemoはありませんでしたが、記事本文にある通り当時か
- dwh
- あとで読む
- データ基盤
- dataWareHouse
- cookpad
- database
- データ
- 分析
- AWS
データウェアハウスのデータモデリングを整理してみた - Qiita
- 114 users
- qiita.com/zumax
- テクノロジー
- 2024/03/03
概要スタースキーマからスノーフレーク、ギャラクシー、そしてデータボールトやアンカーモデリングまで、各スキーマの特徴、利点、そして適用シナリオを掘り下げます。スタースキーマスタースキーマを元に整理します。スタースキーマまたは星型スキーマはデータウェアハウスに利用される最も単純なスキーマである。スタースキーマには唯1つもしくは少数のファクト表と複数のディメンション表が含まれる。スタースキーマはスノーフレークスキーマの一種であるが、多くの用途で利用されている。 DWHに利用される最も単純なスキーマ唯一または少数のファクトテーブルと、複数のディメンションテーブルが含まれるスノーフレークスキーマの一種モデルファクト表はデータウェアハウスでの解析で利用され、複数の異なるディメンションに区分される。ファクト表は主要なデータを持つ一方、ディメンション表は相対的にサイズが小さくディメン
- データ
- あとで読む
- qiita
- data
データ分析基盤における個人情報の扱いについて - NRIネットコムBlog
- 108 users
- tech.nri-net.com
- テクノロジー
- 2021/06/01
こんにちは佐々木です。誰に望まれた訳でもないですが、データ分析基盤の設計シリーズの第三弾です。今回のテーマは、データ分析基盤における個人情報＆パーソナルデータの扱いについてです。ここを最初に考えておかないと、データ分析基盤は毒入りとなって、扱いづらいものになります。データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog データレイクはRAWデータレイク・中間データレイク・構造化データレイクの３層構造にすると良い - NRIネットコムBlog 個人情報＆パーソナルデータと匿名加工についてまず最初に個人情報＆パーソナルデータの定義と匿名加工について、サラッと確認しておきましょう。個人情報＆パーソナルデータ個人情報とは、任意の一個人に関する情報であり、かつその情報をもとに個人を特定できるものを指します。代表的な個人情報としては、名前・住所・電話番号・E-ma
Microsoft Fabricの登場 - テクテク日記
- 107 users
- marshal115.hatenablog.com
- テクノロジー
- 2023/05/25
米国時間2023年5月23日から開催されたMicrosoft Buildは、歴史的な瞬間となりました。データアナリティクスの世界において世界初となるエンドツーエンド（E2E）のSaaS*1型アナリティクスサービス、Microsoft Fabric（以降「Fabric」）の登場です。Microsoft Fabricは業界の常識を覆すほどのインパクトを持ち、ビッグデータ分析、セルフサービス分析、データサイエンスプロジェクトなど、あらゆるデータニーズを満たす革新的なクラウドサービスが誕生しました。 Microsoft Power BIの製品チームに所属していることもあり、Fabricについては入社時に知るようになりました。今回のMicrosoft Buildでその瞬間に立ち会えることができ、非常に嬉しく思います。今まではPower BIを広める立場ということで他のAzureサービス*2との関わり
今後は「データ指向アプリケーションデザイン」を考えよう(Red Hat Forum講演フォローアップ記事) - 赤帽エンジニアブログ
- 99 users
- rheb.hatenablog.com
- テクノロジー
- 2019/12/11
Red Hatの須江です。本記事は赤帽エンジニア Advent Calendar 2019の10日目です。子供を皮膚科に連れて行ったりなんだりで、気づいたら12/11になってますが、細かいことは気にせず進めます。セッション資料と動画 redhat.lookbookhq.com redhat.lookbookhq.com 「データ指向アプリケーションデザイン」をメインテーマに選んだわけデジタルトランスフォーメーション(DX)がバズワード化して久しいですが、自分は常に「DXは目的ではなく手段なので、DXしたあとにどうありたいかのビジョンを持ち、そこから逆算していまやることを考える」ことが重要だと考えています。ビジョンを持つためには、まずDX後の世界がどうなっているのかをイメージできるようになる必要があります。そこで、2019/6/20に開催された「DX&Open Hybrid Cl
お手軽な検索API構築 | メルカリエンジニアリング
- 89 users
- engineering.mercari.com
- テクノロジー
- 2021/09/07
こんにちは、メルペイソリューションチーム所属エンジニアの＠orfeonです。この記事は Merpay Tech Openness Month 2021 5日目の記事です。メルペイソリューションチームでは、社内向けの技術コンサルや技術研修、部門を跨いだ共通の問題を発見して解決するソリューションの提供などを行っています。自分は主に社内のデータ周りの課題を解決するソリューションを提供しており、一部の成果はOSSとして公開しています。この記事ではいろいろな場面で必要とされるものの、運用負荷などの問題から導入の敷居が高い検索機能を(条件付きで)簡易に提供するためのソリューションを紹介します。基本的なアイデア全文検索や位置検索など、検索はいろいろな場面で必要とされる機能です。しかしいざ検索サーバを立てて運用するとなると、データの整合性やモニタリングなど考えないといけないことも多く、利用に二
- solr
- あとで読む
- 検索
- API
SnowflakeとRedshiftの比較検証
- 86 users
- speakerdeck.com/kurochan
- テクノロジー
- 2020/07/28
サイバーエージェントの実践×実験Snowflake 導入の経緯から最新機能のトライアルまで / How Snowflake Is Used In CyberAgent - Go To the Future
- snowflake
- redshift
- あとで読む
- 運用
- サーバ管理
- slide
- サーバ
- AWS
データ分析基盤構築の肝は、データレイクとDWHの分離 - NRIネットコムBlog
- 85 users
- tech.nri-net.com
- テクノロジー
- 2021/05/10
こんにちは佐々木です。いろいろなところで口を酸っぱくして言っているのは、データレイクとDWHを分離しろと。とりあえずDWHに放り込むという考えはあるけど、DWHに入れる時点でデータの整形が行われて、情報の欠損がでてくる。だから、その前にデータレイクに生のままに入れること— Takuro SASAKI (@dkfj) 2021年5月1日データレイクとDWHの分離について呟いたら、それなりの反響を頂きました。せっかくの機会なので、もう少ししっかりと解説してみます。何故、データレイクとDWHを分離する必要があるのか、格納するデータの構造と、データレイク・DWHの役割の観点から考えてみましょう。まずは、データの種類として、構造化データや非構造化データの説明をします。その次に、データレイクとDWHなどの用語・役割の説明をし、最後にアーキテクチャを考えてみます。構造化データと半構造化データ、非構
SQLで始める自然言語処理 - やむやむもやむなし
- 83 users
- ymym3412.hatenablog.com
- テクノロジー
- 2020/12/24
こちらの記事はRecruit Engineers Advent Calendar 2020の24日目の記事です。メリークリスマス！ adventar.org 仕事の分析で使うデータはほとんどがBigQueryに保存されているため、基本的な分析作業の多くはBigQueryでSQLを書くことで行なっています。 BigQueryでテキストデータを扱おうと思うとSQLではできない or 取り回しが悪いことも多く、一度Pythonでスクリプトを書いてその結果を再度BigQueryのテーブルに格納し、Joinして分析に使うということをしていました。しかしこのやり方だとテキストデータを分析したいときは毎回Pythonのコードを書きにいかねばならず、またPythonでのテキスト処理も決して早いとはいえず、せっかくBigQueryでさくさく分析しているのにどうしてもテキスト処理に部分が作業時間のボトルネッ
- bigquery
- sql
- NLP
- 自然言語処理
- あとで読む
- 機械学習
- Python
【速報】 BigQuery の料金体系が変更されます | DevelopersIO
- 82 users
- dev.classmethod.jp
- テクノロジー
- 2023/03/30
ウィスキー、シガー、パイプをこよなく愛する大栗です。先程開催されたGoogle Data Cloud & AI Summitにて、BigQuery の料金体系の変更が発表されましたので、レポートします。 Introduction to BigQuery editions Dataset storage billing models BigQuery editions BigQuery で Standard、Enterprise、Enterprise Plus という3種類の料金階層が発表されました。これらのエディションは個々のワークロードの必要性に基づいて適切な価格性能比を組み合わせられます。 BigQuery editions は、コンピュートキャパシティのオートスケーリングと、compressed storage（Preview 時には physical storage と呼ばれて
Startup.fm: スタートアップのためのデータレイク構築の流れ / Startup.fm: Build a Data Lake in steps
- 77 users
- speakerdeck.com/prog893
- テクノロジー
- 2021/06/29
データウェアハウスやログ分析、機械学習といった進化する分析環境に柔軟に対応する「データレイク」は今やデータ活用に欠かせないものとなりました。一方で、現場では以下のような疑問や課題も多く出てきているのではないでしょうか？「データレイク向けの関連サービスとか多くてなんかよくわからない」「最初からデータレイクの構築は、ハードル高くて時間もコストもかかるでしょ？」「手軽に始めたいけど、将来的にスケールできるようにもしておきたい・・・」「とりあえず今はMySQLとかにデータ入れてるけど、次は何をすればいい？もっといいやり方ないの？」この度そんなスタートアップのお客様向けに、データレイクセミナーの開催を決定いたしました！これからデータレイクを始めたい方にも、データレイクをさらに効果的に活用したい方にもおすすめです。
データレイク構築後の四方山話 #DPM / 20190905
- 76 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2019/09/06
Data Platform Meetup の登壇資料です。 https://data-platform-meetup.connpass.com/event/142822/
メルカリ社が運用する trocco & BigQuery のデータ分析基盤と経済性 #GoogleCloudDay / 20210526
- 70 users
- speakerdeck.com/yuzutas0
- テクノロジー
- 2021/05/26
Google Cloud Day: Digital ’21 の発表資料です。 https://cloudonair.withgoogle.com/events/platinum_primenumber?talk=sessionvideo ---------------------------------------------------------------------------------------------------- データドリブンに事業を推進するメルカリグループのデータ分析基盤を紹介します。 BigQuery とマネージド ETL & ワークフローサービス trocco® の活用で、Google Cloud 領域外の新規データ連携毎に発生するフルスクラッチ開発から脱却し、希少なデータエンジニア工数を創出。決済データと紐づけた営業活動分析にも成功しています。分析基盤構成
- BigQuery
- DWH
- あとで読む
- DataPlatform
- etl
- データ
- Mercari
- メルカリ
- 運用
［速報］Amazon AuroraのOLTPとRedshiftのDWHを統合する「Amazon Aurora zero-ETL integration with Amazon Redshift」発表。AWS re:Invent 2022
- 67 users
- www.publickey1.jp
- テクノロジー
- 2022/11/30
Amazon Web Services（AWS）の年次イベント「AWS re:Invent 2022」が米ラスベガスで開催中です。 2日目の基調講演には、AWS CEOのAdam Selipsky氏が生バンドの演奏とともに登場しました。 Selipsky氏は、さまざまなデータを分析する上で多数の分析ツールのあいだでデータを転送しなければならない問題を指摘し、データ転送ツールであるETLがなくなることが同社のビジョンだと説明。新サービスとして「Amazon Aurora zero-ETL integration with Amazon Redshift」を発表しました。 Amazon Auroraは高速なトランザクション処理を特徴とするリレーショナルデータベースであり、Amazon Redshiftは大規模データの高速分析を特徴とするデータウェアハウスのサービスです。新サービス「Amaz
- reInvent2022
- AWS
- Redshift
- あとで読む
- Aurora
- amazon
DWHを活用した機械学習プロジェクト/ml-with-dwh
- 65 users
- speakerdeck.com/studio_graph
- テクノロジー
- 2019/12/02
Data Platform Meetup 【vol.2】 https://data-platform-meetup.connpass.com/event/155073/ での発表スライドです。クックパッドにおける，DWHと密に連携した機械学習プロジェクトの話です。
dbtを触ってみた感想 - yasuhisa's blog
- 58 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/25
データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている前職でも仕事の一部で使っていた開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較細かいノウハウ手元や本番環境での動作 Argo Workflowとの連携環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える既存
- dbt
- bigquery
- データ基盤
- データ
- SQL
- DWH
- あとで読む
DWHにおけるデータモデル　定番から最新トレンドまで
- 58 users
- speakerdeck.com/ryotas_data
- テクノロジー
- 2022/12/23
Kubernetesでアプリの安定稼働と高頻度のアップデートを両立するためのプラクティス / Best Practices for Applications on Kubernetes�to Achieve Both Frequent Updates and Stability
- DWH
- あとで読む
- 分析
- 設計
- DB
- architecture
データカタログ特集　データ利活用に向けたアーキテクチャ6選 - Findy Tools
- 58 users
- findy-tools.io
- テクノロジー
- 2024/04/04
整備したデータ基盤を、事業部や会社全体で活用に持っていく中で「データカタログ」の必要性が増々注目を集めています。今回は、データカタログを導入し、データ利活用に挑んでいる6社に、アーキテクチャの工夫ポイントからデータカタログ導入によって得られた効果などを伺いました。 ◆目次株式会社10X 株式会社ビットキー株式会社エブリー株式会社Luup Sansan株式会社株式会社ZOZO 株式会社10X 事業内容 10Xでは「10xを創る」をミッションとし、小売向けECプラットフォーム「Stailer」の提供を通じて、スーパーやドラッグストア等のオンライン事業立ち上げ・運営支援を行っています。Stailerでは業務構築におけるコンサルティングから、必要な商品マスタやお客様アプリ・スタッフ向けのオペレーションシステム等の提供、配達システムの提供、販売促進の支援など、データを分析しながら一気通貫で
[動画公開] データ分析を支える技術データモデリング再入門 #devio2022 | DevelopersIO
- 57 users
- dev.classmethod.jp
- テクノロジー
- 2022/07/25
データアナリティクス事業本部のコンサルティングチームの石川です。クラスメソッド主催のオンラインカンファレンス、Developers.IO 2022にて「データ分析を支える技術データモデリング再入門」というテーマにてセッション動画と資料を公開いたしました。セッション概要「仏作って魂入れず」ということわざがありますが、データモデリングせずにDWHという「器」を導入しただけでは、データ分析は捗りません。データモデリングを考えずに導入したデータ分析基盤は、データマートの乱立、もしくは、データが分かりにくく、分析に手間がかかるため、あまり使われなくなってしまったり、分析に適さないテーブル構造や構成による性能低下、オーバープロビジョニングによるコスト上昇などの問題が考えられます。 DWH（データウェアハウス）のデータモデリングとは何か、代表的なDWHのデータモデリング手法の紹介と、長所・短所、
- 分析
- あとで読む
- データ
- AWS
データウェアハウスのバージョン管理をどうやるか - yasuhisa's blog
- 57 users
- www.yasuhisay.info
- テクノロジー
- 2021/07/14
というのをチームで議論する機会があったので、書いてみます。「うちではこうしている」とか「ここはこっちのほうがいいんじゃない?」とかあったらコメントで教えてください。背景 / 前提データウェアハウスのテーブルを社内に広く提供したい初期の提供時期が過ぎてしばらくすると、要望を元にスキーマの変更や集計ロジックの変更が入る (事前にレビューはもちろんするが)SQLのミスなどで以前のバージョンに戻したいといったことがありえる他の部門では新しいバージョンをすでに使っていて、気軽に戻せないこともあるデータウェアハウスのバージョンを場面に応じて複数提供できると都合がよい一方で、大多数のデータウェアハウスのユーザーは最新バージョンの利用だけでよいはず SSOT(Single Source of Truth)になっていて欲しいわけなので... 複数バージョン見えていると「どのバージョンを使えばいい
書籍紹介：大規模データ管理(エンタープライズアーキテクチャのベストプラクティス) | フューチャー技術ブログ
- 56 users
- future-architect.github.io
- テクノロジー
- 2023/05/29
最近読んだ書籍の中で非常に良質な内容でしたので紹介したいと思います。少しでも多くの方に興味を持ってもらえることを期待しています。 O’Reilly Japan はじめに私自身がデータ管理（データマネージメント）という観点でここ数年様々な検討を行ってきていますので前提としてその背景について簡単にまとめてみます。かつてオンプレミスで運用を行っていた時は企業内のデータは完全に管理されていました。データウェアハウスを導入してデータの集約・加工は行われていましたが、専門チームがデータ仕様確認やデータ提供までもすべての責任を担っていました。品質は高いのですが利用者からの要望（新しいデータの提供、仕様の変更）の対応についてはスピード大きな制約がありました。また大規模なデータを扱うためには多大なコストが必要という制約もあります。クラウド技術による「スモールスタートを可能とするインフラ」「大規模なデータ
BigQueryでSaaSのjsonデータを処理するSQLサンプル集 - 下町柚子黄昏記 by @yuzutas0
- 56 users
- yuzutas0.hatenablog.com
- テクノロジー
- 2022/01/04
この記事の概要 SaaSのデータをBigQueryに統合することで業務改善を促進できる。しかし、SaaSのデータの中身を見ると、BigQueryの関数では対応しにくい形式になっていることがある。そこで、本稿では「こういうデータ形式だったらこういうSQLを書く」というサンプル集を掲載する。目次この記事の概要目次宣伝実現したいこと SaaSデータの処理方法 SQLサンプル1: 純粋な配列だけのケース SQLサンプル2: 配列内にハッシュマップがあるケース SQLサンプル3: 配列宣言ナシでカンマ区切りのハッシュマップが突如始まるケース SQLサンプル4: 配列とハッシュが入り乱れるケース SQLサンプル5: JSONの中に親子構造があるケース SQLサンプル6: Objectを定義したくなるケース最強のJSONパースの関数は作れるか jsonデータの処理をどこで行うか最後に
- BigQuery
- SQL
- データ基盤
- データ分析
- DWH
- あとで読む
- GCP
- SaaS