Fumiのブログ

「グリー開発本部 Meetup #1 DataEngConf NYC報告会」に参加してきた!

はじめに

今月は勉強会などの開催も参加もお休みしていて、久しぶりに参加しています。
今回は、「グリー開発本部 Meetup #1 DataEngConf NYC報告会」を聞きにGREE株式会社に。

gree.connpass.com

参加動機

データエンジニアリングぽい仕事をしてるわけではないけど、簡単に言えば興味があったので参加しています!笑
まぁ、あとは機械学習を久しぶりに再度やり始めて、Kerasでゴニョゴニョ遊んでるくらいですが...

グリー開発本部 Meetup #1 DataEngConf NYC報告会

概要

以下、connpassに掲載されている概要。

DataEngConf NYC報告会は、ニューヨークで11月8日〜9日にかけて開催されるデータエンジニアリングとデータサイエンスをブリッジするカンファレンス「DataEngConf NYC」に参加するメンバーが、カンファレンス内容をサマリーして報告させていただく会です。(内容はカンファレンスの内容になるのでカンファレンス後に色々決まります。)

グリー開発本部には、ゲーム事業、ライブエンタメ事業、メディア事業など各事業に対して大規模分散データ処理基盤を提供しているデータエンジニアのチームがあります。Hadoop等のOSSと各種マネージドサービスを組み合わせて、オンプレミス、AWS、GCPの各環境で大規模データを日々捌いています。

当日はお酒とおつまみを用意しておりますので、カンファレンスで発表されるであろう注目の技術や話題になったセッションなどをネタに参加者のみなさんと交流できたら幸いです!

タイムスケジュール

時間 内容 スピーカー
19:00 - 19:30 受付
19:30 - 19:45 オープニング & Data Engineering Group のご紹介 森田 想平
19:45 - 20:10 DataEngConf NYCについておよび、セッションサマリーその1 鈴木 隆史
20:10 - 20:30 DataEngConf NYCのセッションサマリーその2 松岡 紀行
20:30 - 21:30 懇親会

オープニング & Data Engineering Group のご紹介 (森田 想平)

開発本部 meet up の趣旨

f:id:fantm21:20181123124347j:plain

事業部門が独自にアイデンティティを主張していく中で、横断部門(開発本部)もアイデンティティを主張した方が何かといいと思ったため

f:id:fantm21:20181123124337j:plain

f:id:fantm21:20181123124326j:plain

f:id:fantm21:20181123124321j:plain

DataEngConf NYCについておよび、セッションサマリーその1 (鈴木 隆史)

f:id:fantm21:20181123122524j:plain

※ 資料は、実際のプレゼン資料が入っているので撮影はNG

DataEngConf NYに参加して

全体として

  • データ基盤構築のツールやノウハウが話された
  • Facebook、Netflix、Lyftなど40以上の企業がスピーカー
  • DataEngConf NYの参加者には、日本人がほとんどいなかった

セッション内容の大まかなくくり

  • Data Engineering
  • Data Software
  • AI
  • Hero Enginnering

ETTLプロセス@Datadog

www.datadoghq.com

特徴

  • 一元的な監視
  • 豊富な描画機能
  • 機械学習ロジック

Datadogは1日あたり1兆を超えるデータを取り扱っている

ETLの問題点

  • データソース対応コスト
  • タスク依存関係
  • backfillコスト
  • 定義configの肥大化

ETLの問題点を解決するために、ETTLプロセスを導入している

ETTLの解決できること

  • データソース対応コスト
  • backfillコスト
  • 信頼性、堅牢性

ETTLで解決できないこと

  • タスク依存関係

解決するために、Luigiを使って、データの冪等性や依存関係をサポート

Salesforce

www.salesforce.com

機械学習課題

  • データサイエンティスト不足
  • 異常値を含んだデータ
  • 過去データ不足

データリンク問題になる

データリンク量の削除基準

  • 全体のNULL率判定
  • 制度のさ
  • 日付パラメータ

削除閾値を設ける必要性がある
=>AutoMLを使って削除作業を自動化している

DataEngConf NYCのセッションサマリーその2 (松岡 紀行)

f:id:fantm21:20181123122553j:plain

※ 資料は、実際のプレゼン資料が入っているので撮影はNG

Lyft

Lyftは、Uberの競合会社。

機械学習での悩み

  • 機械学習のプロセス -- 特徴選択 -- モデルの開発 -- モデルの学習 -- モデルのデプロイ
  • モデル開発にはたくさんの周辺タスクが問題
  • 機械学習基盤システムを構築したかった

機械学習基盤システムに求める要件

  • 特定の機械学習フレームワークに依存しない
  • GPUも利用できるように
  • 特定のクラウドに依存しない
  • 使いやすく、かつ柔軟性を

=> Container / Kubernetesを使った

Liftは、KubernetesをラップしたGUIを作成・提供

Netflix

www.netflix.com

会社概要

映像ストリーミング配信などを行うアメリカの企業

内容

アートワークのパーソナルズ
=> どのアートワークを表示した時にどれが一番いいか

Regret(後悔)を最小値化するためにはOnline Learninggが適している
Regret: 最初からユーザの好みが即知だった場合の結果と実際の結果の差分

Batch的にではなく逐次的にモデルを改善していいく

  • Bandits問題
  • Contextual Bandits問題

アートワークへの適用

  • Contents: ユーザの資料履歴・国
  • Action: 選択されたアートワーク
  • Reward: ユーザのポジティブ反応

解決策

  • ε-Greedy法
  • LinUCB
  • Thompson Sampling

オフラインでのモデルの性能評価
本番で使用する前にオフラインで性能評価を行いたい
=> Replay手法 (保存してある過去のアクションログを用いて擬似的に評価)

メリット

  • 実データを使っており指標として信頼性がある
  • 計算しやすいい

デメリット

  • たくさんのデータが必要
  • 過学習の心配がある

オンラインで遅延なくモデルを適用するために
APIの適用場所は幅広く、ピーク時は20M RPSを超える

  • 手法1: Live Compute
  • 手法2: Online Compute

Presto

prestodb.io

Prestoの紹介とStarburstが提供するPresto Enterpriseの紹介 特定のData sourceに依存しないということを強調していた

Analyzing Data in the Cloud : Privacy and Security

www.tableau.com

  • Multi-tenancyモデルでのセキュリティ問題
  • 「忘れられる問題」への対応苦労話