並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 82件

新着順 人気順

hadoopの検索結果1 - 40 件 / 82件

hadoopに関するエントリは82件あります。 データsparkaws などが関連タグです。 人気エントリには 『日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり』などがあります。
  • 日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり

    大学時代に日本屈指の技術系スタートアップCTOを経験。25歳で日本から飛び出して、シリコンバレーで起業した ――まず太田さんがシリコンバレーで起業するまでの経緯を聞かせてください。 高校生の時に初めて携帯電話を買ってもらいました。その携帯がiアプリといって、Javaのプログラムが動作する端末でした。そこで近くの書店でプログラミングの本を買って、簡単なシューティングゲームを作りました。 すると、それが40万件以上ダウンロードされたんです。塾の帰りなど、隣にいる人が自分の作ったゲームをプレイしているのを見て驚きました。それが最初のコンピュータ、インターネットの原体験で、そこからプログラミングにのめり込んでいきました。 太田 一樹(Treasure Data 共同創業者 取締役) 1985年生まれ。東京大学大学院情報理工学研究科修士課程修了。学部課程在学中の2006年、自然言語処理と検索エンジン

      日本人CTOがシリコンバレーで25歳で起業し、660億円で買収されるまでの道のり
    • 「まさに逆転の発想だ!」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい!

      知念実希人 小説家・医師 @MIKITO_777 やはり、1日100万回の接種を何とか達成しないといけませんね。 現在は30万回強。 まだまだ、大規模接種会場やかかりつけ医での接種が十分に始まっていない状態なので、目標は十分に達成可能だと思います。 頑張りましょう! a.msn.com/01/ja-jp/BB1gM… 2021-05-16 20:22:01

        「まさに逆転の発想だ!」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい!
      • この10年のプログラミング言語の変化 - 西尾泰和のScrapbox

        @nishio: あ、そうか、10年前からあったけど10年間の間に勢力を拡大したケースがあるからあんまり厳しく切らない方がいいのか(TypeScriptの登場が2012年、Rustの登場が2010年だった)

          この10年のプログラミング言語の変化 - 西尾泰和のScrapbox
        • リアルタイムログ分析基盤のAWS-_GCP移行話

          Oracle Database Technology Night #67 Oracle Database High Availability concept

            リアルタイムログ分析基盤のAWS-_GCP移行話
          • BigQuery と Snowflake を徹底比較

            最初にBigQueryとSnowflakeの概要と、登場の背景を説明します。 その後、ユーザにとっての使い勝手と、管理者にとっての使い勝手を、ベンダーフリーな立場でそれぞれします。 最後に、BigQueryとSnowflakeどっちが速いのか?といった疑問に対して、アーキテクチャをもとに考察します。

              BigQuery と Snowflake を徹底比較
            • Delta Lake とは何か - connecting the dots

              はじめに 環境情報 Delta Lake (デルタレイク) とは Delta Lake の実体 Delta Lake の構造 Parquet と Delta の相違点 Parquetとは何か Parquetの構造 Parquet と Delta の違い Delta Lake が生まれた経緯: データレイクと Delta Lake の違い データレイクのメリット データレイクの課題 *Parquetで構築した場合 Delta Lake の特徴 ACIDトランザクションの担保 スケーラブルなメタデータ管理 バッチとストリーミングワークロードの統合 タイムトラベル (バージョン管理) CONSTRAINT句のサポート DML (データ操作言語) のフルサポート UPDATE DELETE MERGE 柔軟なスキーマ管理 1. スキーマ エンフォースメント 2. スキーマ エボリューション ストレ

                Delta Lake とは何か - connecting the dots
              • 高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog

                こんにちは。なんの因果かNTTコミュニケーションズのエバンジェリストをやっている西塚です。 この記事は、NTT Communications Advent Calendar 2021 22日目の記事です。 5分でわかる「Trino」 「Trino」は、異なるデータソースに対しても高速でインタラクティブに分析ができる高性能分散SQLエンジンです。 以下の特徴を持っており、ビッグデータ分析を支える重要なOSS(オープンソースソフトウェア)の1つです。 SQL-on-Anything: Hadoopだけでなく従来のRDBMS(リレーショナルデータベース)やNoSQLまで、標準SQL(ANSI SQL)に準拠したアクセスをワンストップに提供 並列処理でビッグデータに対して容易にスケールアップ しかも高速(hiveの数十倍) Netflix, LinkedIn, Salesforce, Shopif

                  高性能分散SQLエンジン「Trino」最速ガイド - NTT Communications Engineers' Blog
                • Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services

                  AWS News Blog Amazon S3 Update – Strong Read-After-Write Consistency When we launched S3 back in 2006, I discussed its virtually unlimited capacity (“…easily store any number of blocks…”), the fact that it was designed to provide 99.99% availability, and that it offered durable storage, with data transparently stored in multiple locations. Since that launch, our customers have used S3 in an amazin

                    Amazon S3 Update – Strong Read-After-Write Consistency | Amazon Web Services
                  • データ指向アプリケーションデザイン

                    監訳者まえがき はじめに 第I部データシステムの基礎 1章 信頼性、スケーラビリティ、メンテナンス性に優れたアプリケーション 1.1 データシステムに関する考察 1.2 信頼性 1.2.1 ハードウェアの障害 1.2.2 ソフトウェアのエラー 1.2.3 ヒューマンエラー 1.2.4 信頼性の重要度 1.3 スケーラビリティ 1.3.1 負荷の表現 1.3.2 パフォーマンスの表現 1.3.3 負荷への対処のアプローチ 1.4 メンテナンス性 1.4.1 運用性:運用担当者への配慮 1.4.2 単純さ:複雑さの管理 1.4.3 進化性:変更への配慮 まとめ 2章 データモデルとクエリ言語 2.1 リレーショナルモデルとドキュメントモデル 2.1.1 NoSQLの誕生 2.1.2 オブジェクトとリレーショナルのミスマッチ 2.1.3 多対一と多対多の関係 2.1.4 ドキュメントデータベース

                      データ指向アプリケーションデザイン
                    • GitLabがGoogle CloudとAI分野で提携、AIをGitLabツール群に統合。コードの自動生成、コードにある脆弱性の説明、コードレビュアーの推薦など実現

                      GitLabがGoogle CloudとAI分野で提携、AIをGitLabツール群に統合。コードの自動生成、コードにある脆弱性の説明、コードレビュアーの推薦など実現 GitLabとGoogle CloudはAI分野での提携を発表し、Google Cloudが提供するAI機能のVertex AIなどにより、GitLabのツール群にAIによる開発者の支援機能を組み込んでいくとしました。 そしてGitLabは5月3日付けのブログ「GitLab details AI-assisted features in the DevSecOps platform」で、今後どのようなAI関連の機能をGitLabに実装していくのかについて説明しています。 Check out our blog series to keep up with our AI/ML work and announcements. htt

                        GitLabがGoogle CloudとAI分野で提携、AIをGitLabツール群に統合。コードの自動生成、コードにある脆弱性の説明、コードレビュアーの推薦など実現
                      • The History of Distributed Databases - Google, Amazon, Facebook など巨大企業による分散データベース技術の発展 | Wantedly Engineer Blog

                        こんにちは、Wantedly の Infrastructure Team で Engineer をしている南(@south37)です。 今日は、WANTEDLY TECH BOOK 5 から「巨大企業による分散データベース技術の発展」という章を抜粋して Blog にします。 「WANTEDLY TECH BOOK 1-7を一挙大公開」でも書いた通り、Wantedly では WANTEDLY TECH BOOK のうち最新版を除いた電子版を無料で配布する事にしました。Wantedly Engineer Blogでも過去記事の内容を順次公開予定であり、この Blog もその一環となっています。 Wantedly における Go 導入にまつわる技術背景 | Wantedly Engineer Blog (本記事は Go Conference 2019 Autumn にて無料配布した冊子『WANT

                          The History of Distributed Databases - Google, Amazon, Facebook など巨大企業による分散データベース技術の発展 | Wantedly Engineer Blog
                        • LINEの大規模なData PlatformにData Lineageを導入した話

                          Shinji Shimamura2022-05-18LINE Data Platform室IU DevチームでData Catalog(IU Web)の開発をしています。 はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサー

                            LINEの大規模なData PlatformにData Lineageを導入した話
                          • 大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/0…

                            大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)

                              大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/0…
                            • LINEの多様なサービスを支える機械学習のプラットフォームと開発事例

                              2020年6月24日に、LINEの「Data Labs」のオンライン採用説明会が開催されました。Data Labsは、データ分析や機械学習の活用によって、LINEのすべてのサービスの価値向上を目指す、データの分析・研究を行う専門の開発組織です。説明会の後半は、Machine Learning1チーム/マネージャーの菊地悠氏とフェローの並川淳氏が登壇し、機械学習エンジニアチームの仕事内容や事例を紹介しました。1記事目はこちら Machine Learningチームのミッション 菊地悠氏:Machine Learning1チームの菊地と申します。よろしくお願いします。今日の内容は以下のような順で話をしていきたいと思います。 まず最初にミッションです。多種多様なサービスがあるので、機械学習を適用する領域はいろいろあります。そういう中で、我々のチームは各事業組織から独立しています。LINEのさまざ

                                LINEの多様なサービスを支える機械学習のプラットフォームと開発事例
                              • ナビタイムジャパンに集まる移動ビッグデータの分析基盤

                                2019/04/25に開催された『データ分析基盤Developers Night〜3社3様分析基盤の変遷〜』の講演資料です。

                                  ナビタイムジャパンに集まる移動ビッグデータの分析基盤
                                • DeNAがデータプラットフォームで直面した課題と克服の取り組み

                                  はじめにこんにちは。この記事はDeNAの小口(Rikiya Oguchi)と長谷川(Ryoji Hasegawa)がお届けします。 小口はゲーム事業部の分析部データエンジニアリンググループの所属で、長谷川は全社共通部門である分析推進部の所属です。ゲーム事業部と全社部門で所属は違いますが、近しいミッションのもと、普段から密に連携して仕事をしています。 DeNAでは現在、データプラットフォームの刷新を進めています。この記事では、そのプロジェクトについて、以下の流れでご紹介します。 現行データプラットフォームの背景と概要データプラットフォーム構築後の環境変化現行データプラットフォームが抱える課題現行組織が抱える課題データプラットフォームの刷新刷新後のシステム構成組織体制の刷新我々と同じようにデータプラットフォームの構築・運用に携わっている方々や、データプラットフォームを利用されている方々、特に、

                                    DeNAがデータプラットフォームで直面した課題と克服の取り組み
                                  • Preferred Networks におけるHadoop - Preferred Networks Research & Development

                                    Preferred Networks (以下PFN)では、「現実世界を計算可能にする」「全てのひとにロボットを」という目標のもと、機械学習を始めとしたあらゆる計算技術を用いて研究開発に日々取り組んでいます。その過程では必ずといっていいほど、データの保存や読み出しが必要になります。ここでは、我々がどのようにデータ管理をしているか、また、その過程でどのようにHadoopを利用しているかについて紹介したいと思います。 写真: PFNカラーリングのストレージサーバー Hadoop導入の経緯 Hadoopが多く利用されているようなログ分析や、エンタープライズ向けのETL処理やデータサイエンスに比べると、深層学習の分野でよく利用されているような規模のデータは比較的小さいです。よく画像認識のベンチマークとされるImageNetの2012年のコンペで利用されたデータセットは200GB程度です。これはそもそ

                                      Preferred Networks におけるHadoop - Preferred Networks Research & Development
                                    • Hadoop is Dead. Long live Hadoop の所感

                                      数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか? @shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。 Hadoop is Dead. Long live Hadoop. Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が本日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop

                                        Hadoop is Dead. Long live Hadoop の所感
                                      • AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog

                                        はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデータレイクのユースケースについて紹介します。 データレイクとは構造化データ、非構造化データに関わらず全てのデータを一元的に保存可能なストレージを意味しています。 このユースケースにより、低遅延性が求められる、もしくは秘匿性の高い大規模なデータをオンプレ環境で一元的に取り扱うことが可能となり

                                          AWS Outpostsで実現するオンプレデータレイク - NTT Communications Engineers' Blog
                                        • Java11へのマイグレーションガイド ~Apache Hadoopの事例~

                                          BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)NTT DATA Technology & Innovation852 views•48 slides Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)NTT DATA Technology & Innovation465 views•67 slides Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)NTT DATA Technology & Innovation1.2K views•64 slides

                                            Java11へのマイグレーションガイド ~Apache Hadoopの事例~
                                          • データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介

                                            ヤフーのプロダクションネットワークの設計・構築・運用を担当している津秦です。 ヤフーではオンプレミスで大量に物理サーバーを導入し、社内向けプライベートクラウドや、データ分析基盤などに利用しております。もちろんそのサーバーを接続するためのネットワークも、自分たちで設計・構築・運用を行っております。 今回はデータセンター内ネットワークの中でも、最近取り入れているClosネットワークというものに着目して、ヤフーのデータセンターネットワークをご紹介したいと思います。 なお、大量に物理サーバーを導入する点では、昨年末に同じくインフラを担当する藤見から、サーバーの調達に関する取り組みを紹介しました。合わせて参照いただければ、ヤフーのインフラ部門の取り組みに、より触れていただけるのではないかと思います。 大規模オンプレミスなヤフーのサーバーインフラの裏側 〜 サーバー調達や運用の流れを紹介します 「No

                                              データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介
                                            • Apache Ozoneをやっていた一年 - Preferred Networks Research & Development

                                              Why Apache Ozone? これまでPFNでは増え続けるデータやユースケースに対応するために、スケールアウト可能なストレージシステムをずっと模索し続けてきました。シミュレーションを基軸とした戦略を採用した[1]ことによりデータ量はさらに増加し、データ保管システムの重要性は高まっています。 Preferred Networks におけるHadoop – Preferred Networks Research で解説した基本的な要件は今でも変わっていませんが[2]、現在メインのシステムとして運用している Hadoop (HDFS) にはいくつかのシステム運用上の課題があります。たとえば、一番大きなHadoopクラスタは現時点で物理的に10PB近くのディスク容量を持っていますが、Ubuntu 16.04で動作しています。OSのバージョンアップを伴うクラスタのIn-placeなアップグレー

                                                Apache Ozoneをやっていた一年 - Preferred Networks Research & Development
                                              • Hadoop環境のクラウド移行 | BLOG - DeNA Engineering

                                                IT基盤部の nodoka です。 私の業務はWebサービスの運用が中心でしたが、数年前からHadoopを中心とした分散基盤環境のインフラも見るようになりました。 当初は巨大なHadoop環境の管理を体系化して引き継ぐことと、運用における属人性を排除することが喫緊の課題でした。 それが落ち着くと、ご多分に漏れずクラウド化を検討・推進するようになったので、その流れをまとめてみようと思います。 DeNAのHadoop環境と改善策 Hadoopが抱える課題 GCPへの移行 embulk利用におけるTips DeNAのHadoop環境と改善策 DeNAにおけるHadoop環境の歴史は古く、DeNAのほとんどのサービスが利用しています。 各サービスでは分析したいログやDBのスナップショットをHadoopのファイルシステムであるHDFSに一旦置きます。 そのHDFSに置かれたファイル群をHadoopを

                                                  Hadoop環境のクラウド移行 | BLOG - DeNA Engineering
                                                • Apache Sparkとは何か - Qiita

                                                  使い始めて3年くらい経ちますが、改めて振り返ってみます。 こちらの記事を書いたりしていますが復習も大事なわけで。 2024/4/12に翔泳社よりApache Spark徹底入門を出版します! その他のDatabricksコアコンポーネントの記事はこちらです。 Apache Sparkプロジェクトの歴史 SparkはDatabricksの創始者たちがUC Berkeleyにいるときに誕生しました。Sparkプロジェクトは2009年にスタートし、2010年にオープンソース化され、2013年にApacheにコードが寄贈されApache Sparkになりました。Apache Sparkのコードの75%以上がDatabricksの従業員の手によって書かれており、他の企業に比べて10倍以上の貢献をし続けています。Apache Sparkは、多数のマシンにまたがって並列でコードを実行するための、洗練され

                                                    Apache Sparkとは何か - Qiita
                                                  • Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介

                                                    こんにちは、「Hadoop」黒帯の鯵坂(@ajis_ka)です。本記事では、Apache Hadoopで次にリリースされるマイナーバージョンである3.3.0で追加される新機能について紹介します。本記事では、特にHadoop CommonとHDFS(Hadoop Distributed FileSystem)の新機能を重点的に紹介しつつ、それらの機能に対するヤフーの貢献についても触れていきます。 Hadoop 3.3.0 概要 Hadoop 3.3.0はおそらく2019年の年末までにリリースされる予定で、この記事を執筆している10月23日時点ですでに1500件以上の修正が入っています(Hadoop 3.2.0は1089件)。つまり、非常に多くの新機能が追加されています。また、ヤフーではHadoop 2系から3系へのバージョンアップをこれから予定しており、バージョンアップ後のバージョンは3.3

                                                      Java11対応ほか、Apache Hadoop 3.3.0の新機能を紹介
                                                    • Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes

                                                      Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes Co-authors: Cong Gu, Abin Shahab, Chen Qiang, and Keqiu Hu Editor's note: This blog has been updated. LinkedIn AI has been traditionally Hadoop/YARN based, and we operate one of the world’s largest Hadoop data lakes, with over 4,500 users and 500PB of data. In the last few years, Kubernetes has also become very popular at LinkedIn fo

                                                        Open sourcing Kube2Hadoop: Secure access to HDFS from Kubernetes
                                                      • 週刊Railsウォッチ(20190821-2/2後編)11のgemにバックドア、ruby-jp Slackがとてもアツい、Fullstaq Rubyでチューンアップ、HTTPサービス監視chaoほか|TechRacho by BPS株式会社

                                                        2019.08.21 週刊Railsウォッチ(20190821-2/2後編)11のgemにバックドア、ruby-jp Slackがとてもアツい、Fullstaq Rubyでチューンアップ、HTTPサービス監視chaoほか こんにちは、hachi8833です。Macbook Pro 2019のメモリ、やっぱり32GBにしとけばよかったと思い始めてます。 各記事冒頭には⚓でパーマリンクを置いてあります: 社内やTwitterでの議論などにどうぞ 「つっつきボイス」はRailsウォッチ公開前ドラフトを(鍋のように)社内有志でつっついたときの会話の再構成です👄 毎月第一木曜日に「公開つっつき会」を開催しています: お気軽にご応募ください ⚓週刊Railsウォッチ「公開つっつき会」第14回のお知らせ(無料) お申込み: 週刊Railsウォッチ公開つっつき会 第14回|IT勉強会ならTECH PLA

                                                          週刊Railsウォッチ(20190821-2/2後編)11のgemにバックドア、ruby-jp Slackがとてもアツい、Fullstaq Rubyでチューンアップ、HTTPサービス監視chaoほか|TechRacho by BPS株式会社
                                                        • ヤフー社内のデータ連携を爆速で構築する方法 #ApacheNiFi

                                                          Yahoo! JAPAN Advent Calendar 2019の24日目の記事です。一覧はこちら(外部リンク) こんにちは。寺田晃太朗 (@kotarotrd) です。 2018年4月に新卒でヤフーに入社し、データエンジニアとして働いています。 2019年10月に Apache NiFi Committer になりました。 私は昨年のAdvent Calendarで、注目するデータソリューション技術として「量子アニーリングがチョットワカルようになる記事」を書きました。 今年のAdvent Calendarの記事では、例えばそんなデータサイエンスを最大限に活用するために、データプラットフォームとしてデータ連携をどのように効率化できるかというテーマについて記事を書きます。 この記事では、Yahoo! JAPANのデータフロープラットフォームの役割とどのように活用されているかをご紹介します。

                                                            ヤフー社内のデータ連携を爆速で構築する方法 #ApacheNiFi
                                                          • データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮

                                                            はじめに Open Table Formatは次世代のデータレイクの基盤となり得る技術で、徐々に導入事例(末尾に列挙)が増えてきているものの、日本での認知度は発展途上な印象がある。本記事ではOpen Table Format登場の背景を紹介する。執筆にあたって、Apache Iceberg: An Architectural Look Under the CoversとAWSにおける Hudi/Iceberg/Delta Lake の 使いどころと違いについてを特に参考にした。 Open Table Formatとは? Open Table Formatとは、従来のデータレイクの技術的な課題&ユースケースの要請に応える形で登場した、データレイクに最適化されたテーブルフォーマットを指す概念で、上手く活用することでクエリプランニング、実行性能の最適化、効率的なUpdateやDelete、タイム

                                                              データレイクの新しいカタチ:Open Table Formatの紹介 - 流沙河鎮
                                                            • CDH (Hadoop) 入門 - MicroAd Developers Blog

                                                              はじめに 初めまして。マイクロアド21年新卒インフラ担当の森( id:bosq )と申します。 7月に新卒研修を終えてからは、基盤開発グループにて日々勉強しています。 配属後は新しいことのインプットが多いため、今回は学んだことの整理とアウトプットを兼ねて、マイクロアドのデータ基盤で利用しているHadoopについて紹介したいと思います。 はじめに 分散処理基盤 Hadoop / CDH とは Hadoop エコシステム データストレージ (HDFS) と リソース管理 (YARN) HDFS (Hadoop Distributed File System) YARN (Yet Another Resource Negotiator) ノードの役割 分散処理エンジン (MapReduce, Tez, Spark) MapReduce Apache Tez Apache Spark クエリエンジ

                                                                CDH (Hadoop) 入門 - MicroAd Developers Blog
                                                              • AWS Glueをローカル環境で実行してみた | DevelopersIO

                                                                環境変数を設定します。MavenとSparkのパスは個人の環境に合わせて変更してください。 echo 'export PATH=$HOME/.apache-maven-3.6.2/bin:$PATH' >> ~/.bash_profile echo 'export SPARK_HOME=$HOME/.spark-2.2.1-bin-hadoop2.7' >> ~/.bash_profile echo 'export JAVA_HOME=`/usr/libexec/java_home -v 1.8`' >> ~/.bash_profile Pythonでローカル開発 AWS Glue Pythonライブラリを取得 GitHubからAWS Glue Pythonライブラリをダウンロードします。以降の作業はAWS Glue Pythonライブラリのルートディレクトリで行います。 https://

                                                                  AWS Glueをローカル環境で実行してみた | DevelopersIO
                                                                • Hadoop is Dead. Long live “Hadoop.”

                                                                  There has been a resurgence of the “Hadoop is dead” narrative, and it seems like every so often this pops up in the form of a blog post or contributed article. For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company. And today, Cloudera is in the Enterprise Data Cloud market: hybrid/multi-cloud and multi-function analytics with co

                                                                    Hadoop is Dead. Long live “Hadoop.”
                                                                  • Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ

                                                                    はじめに DRE Team の hyamamoto です. 皆さん,Spark は利用されていますか? Gunosy では Digdag + Athena によるデータ整形が増えてきており,徐々に Spark の利用は減ってきています. 思い返すと,昨年入社後の OJT も Spark から Digdag + Athena への書き換えタスクでした. 一方で,決して多くはないものの,この構成ではカバーし切れない処理もあり,そういったものに関しては Spark を用いています. 話は少し飛びますが,DRE Team では Digdag や派生するバッチ処理を実行するための Kubernetes Cluster を EKS 上に構成しています. また,一部のタスクは Kubernetes の Job として Digdag から投げることで,リソースをスケールさせつつ様々な処理が可能となっていま

                                                                      Spark on k8s を EKS 上で動かす - Gunosyデータ分析ブログ
                                                                    • 新しいグラフ処理ライブラリ「Spark Graph」とは何か? Apache Spark 2.4 & 3.0の新機能を解説 Part2

                                                                      2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Spark 2.4 & 3.0 - What's next? - 」に登壇したのは、株式会社エヌ・ティ・ティ・データの猿田浩輔氏。講演資料はこちら Accelerator Aware Scheduling 猿田浩輔氏(以下、猿田):Barrier Execution Modeのお話はここまでで、次はAccelerator Aware Schedulingですね。最近Project Hydrogenの中ではこの機能の議論が活発で、S

                                                                        新しいグラフ処理ライブラリ「Spark Graph」とは何か? Apache Spark 2.4 & 3.0の新機能を解説 Part2
                                                                      • Distributed Deep Learning with Chainer and Hadoop

                                                                        バクラクのAI-OCR機能の体験を支える良質なデータセット作成の仕組み / data-centric-ai-bakuraku-dataset

                                                                          Distributed Deep Learning with Chainer and Hadoop
                                                                        • 更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog

                                                                          広告技術部のUT@mocyutoです。 こちらの記事はGunosy Advent Calendar 2021の4日目の記事です。 昨日は内田さんの その設定、pyproject.tomlに全部書けます - Gunosyデータ分析ブログ でした 今回はApache Hudiを用いたユーザデータ基盤の刷新を紹介します。 背景 仕組み 課題 対応策 データの持ち方を変える Apache Hudiとは 構成 Glue + PySpark Athenaによる抽出 移行し終えて 背景 Gunosyの広告システムではユーザに対して最適な広告を届けるために、接触済みのユーザに対して何度も同じ広告を出さないようにする仕組みを提供しています。 例えば、すでにある広告Aをクリックしたユーザには広告Aは再度配信しないのような設定です。 仕組み この仕組みを実現するためには以下のようなアーキテクチャになっていました

                                                                            更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜 - Gunosy Tech Blog
                                                                          • Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮

                                                                            Hadoop DistCp (distributed copy, でぃすとしーぴー、でぃすとこぴー) は、MapReduceを用いてHadoopクラスタ間でデータコピーするためのツールです。保守運用している場合を除き、おそらく2020年においても運用上の選択肢として残っている最後のMapReduceのツールです。この記事では、DistCpの紹介と実践的な使い方の基本について説明していきます。内容としては以下の通りです。 Distcpの概要と原理 実践DistCp DistCpにドライランはない コピーとアップデートの挙動の違いを押さえる スナップショットを取得する ソースと宛先、どちらのクラスタでDistCpを実行するか 異なるメジャーバージョン間でのデータ転送にwebhdfsを使う -p オプションの挙動 2つのコピー戦略: uniformizeとdynamic map数の調整 転送帯域

                                                                              Hadoop DistCp実践ガイド2020年版 - 科学と非科学の迷宮
                                                                            • Apache Hadoop 3.3.1がリリースされました - Memo

                                                                              2021/6/15にApache Hadoop 3.3.1がリリースされたので、リリースしてからしばらく時間が経つけどまとめておきます。 Hadoop 3.3.1に対する個人的な所感 Hadoop 3.3.1はHadoop 3.3.0からおよそ1年後にリリースされました、1年も経っているので、普段のbug fix releaseでは考えられないほどの修正がされ、もはやHadoop 3.2.0とHadoop 3.3.0との差分よりもHadoop 3.3.0とHadoop 3.3.1との差分のほうが大きいのではないかと思っています。Hadoop CommonとHDFSを中心に、その大きな差分についてこれから紹介していこうと思います。 NameNodeLayoutVersionの更新 Hadoop 3.3.1では、なんとNameNodeLayoutVersionが上がっています。普通のbug f

                                                                                Apache Hadoop 3.3.1がリリースされました - Memo
                                                                              • Kubernetes で Spark パフォーマンスを最適化する | Amazon Web Services

                                                                                Amazon Web Services ブログ Kubernetes で Spark パフォーマンスを最適化する Apache Spark はオープンソースプロジェクトで、分析分野で幅広い人気を博しています。有名なビッグデータや、ストリーミングといったの機械学習ワークロード、幅広いデータセットの処理、ETL などで使用されています。 Kubernetes は、人気のあるオープンソースのコンテナ管理システムで、アプリケーションのデプロイ、メンテナンス、スケーリングのための基本的なメカニズムを提供します。Amazon EKS は、高可用性コントロールプレーンを提供するマネージド Kubernetes サービスで、AWS で本番環境レベルのワークロードを実行します。お客様は、EKS でマイクロサービス、バッチ、機械学習などのさまざまなワークロードを実行できます。 このブログは、Kubernete

                                                                                  Kubernetes で Spark パフォーマンスを最適化する | Amazon Web Services
                                                                                • MapRのビジネス資産をHPEが買収すると発表。企業としてのMapRは終了か

                                                                                  Hewlett Packerd Enterprise(HPE)は、主要なHadoopディストリビューションベンダの1つであったMapR Technologiesの持つ技術や知財などのビジネス資産を買収すると発表しました(HPEの発表、MapRの発表)。 MapR is now part of @HPE! Exciting things ahead! Find out more in this new blog post: "HPE Welcomes MapR Community" https://t.co/CwWmIs9Fv1 pic.twitter.com/Thxd78o5PU — MapR Technologies (@mapr) August 5, 2019 MapRは今年の6月に大規模なリストラを行ったことが明らかになり、身売りの交渉をしているのではないかとされていました。 Map

                                                                                    MapRのビジネス資産をHPEが買収すると発表。企業としてのMapRは終了か

                                                                                  新着記事