はじめに

今月は勉強会などの開催も参加もお休みしていて、久しぶりに参加しています。
今回は、「グリー開発本部 Meetup #1 DataEngConf NYC報告会」を聞きにGREE株式会社に。

gree.connpass.com

参加動機

データエンジニアリングぽい仕事をしてるわけではないけど、簡単に言えば興味があったので参加しています！笑
まぁ、あとは機械学習を久しぶりに再度やり始めて、Kerasでゴニョゴニョ遊んでるくらいですが...

グリー開発本部 Meetup #1 DataEngConf NYC報告会

DataEngConf NYC’18 セッションサマリー #1 from gree_tech

概要

以下、connpassに掲載されている概要。

DataEngConf NYC報告会は、ニューヨークで11月8日〜9日にかけて開催されるデータエンジニアリングとデータサイエンスをブリッジするカンファレンス「DataEngConf NYC」に参加するメンバーが、カンファレンス内容をサマリーして報告させていただく会です。（内容はカンファレンスの内容になるのでカンファレンス後に色々決まります。）

グリー開発本部には、ゲーム事業、ライブエンタメ事業、メディア事業など各事業に対して大規模分散データ処理基盤を提供しているデータエンジニアのチームがあります。Hadoop等のOSSと各種マネージドサービスを組み合わせて、オンプレミス、AWS、GCPの各環境で大規模データを日々捌いています。

当日はお酒とおつまみを用意しておりますので、カンファレンスで発表されるであろう注目の技術や話題になったセッションなどをネタに参加者のみなさんと交流できたら幸いです！

タイムスケジュール

時間	内容	スピーカー
19:00 - 19:30	受付
19:30 - 19:45	オープニング & Data Engineering Group のご紹介	森田想平
19:45 - 20:10	DataEngConf NYCについておよび、セッションサマリーその1	鈴木隆史
20:10 - 20:30	DataEngConf NYCのセッションサマリーその2	松岡紀行
20:30 - 21:30	懇親会

オープニング & Data Engineering Group のご紹介 (森田想平)

開発本部 meet up の趣旨

f:id:fantm21:20181123124347j:plain

事業部門が独自にアイデンティティを主張していく中で、横断部門(開発本部)もアイデンティティを主張した方が何かといいと思ったため

f:id:fantm21:20181123124337j:plain

f:id:fantm21:20181123124326j:plain

f:id:fantm21:20181123124321j:plain

DataEngConf NYCについておよび、セッションサマリーその1 (鈴木隆史)

f:id:fantm21:20181123122524j:plain

※ 資料は、実際のプレゼン資料が入っているので撮影はNG

DataEngConf NYに参加して

全体として

データ基盤構築のツールやノウハウが話された
Facebook、Netflix、Lyftなど40以上の企業がスピーカー
DataEngConf NYの参加者には、日本人がほとんどいなかった

セッション内容の大まかなくくり

Data Engineering
Data Software
AI
Hero Enginnering

ETTLプロセス@Datadog

www.datadoghq.com

特徴

一元的な監視
豊富な描画機能
機械学習ロジック

Datadogは１日あたり１兆を超えるデータを取り扱っている

ETLの問題点

データソース対応コスト
タスク依存関係
backfillコスト
定義configの肥大化

ETLの問題点を解決するために、ETTLプロセスを導入している

ETTLの解決できること

データソース対応コスト
backfillコスト
信頼性、堅牢性

ETTLで解決できないこと

タスク依存関係

解決するために、Luigiを使って、データの冪等性や依存関係をサポート

Salesforce

www.salesforce.com

機械学習課題

データサイエンティスト不足
異常値を含んだデータ
過去データ不足

データリンク問題になる

データリンク量の削除基準

全体のNULL率判定
制度のさ
日付パラメータ

削除閾値を設ける必要性がある
=>AutoMLを使って削除作業を自動化している

DataEngConf NYCのセッションサマリーその2 (松岡紀行)

DataEngConf NYC’18 セッションサマリー #2 from gree_tech

f:id:fantm21:20181123122553j:plain

※ 資料は、実際のプレゼン資料が入っているので撮影はNG

Lyft

Lyftは、Uberの競合会社。

機械学習での悩み

機械学習のプロセス -- 特徴選択 -- モデルの開発 -- モデルの学習 -- モデルのデプロイ
モデル開発にはたくさんの周辺タスクが問題
機械学習基盤システムを構築したかった

機械学習基盤システムに求める要件

特定の機械学習フレームワークに依存しない
GPUも利用できるように
特定のクラウドに依存しない
使いやすく、かつ柔軟性を

=> Container / Kubernetesを使った

Liftは、KubernetesをラップしたGUIを作成・提供

Netflix

www.netflix.com

会社概要

映像ストリーミング配信などを行うアメリカの企業

内容

アートワークのパーソナルズ
=> どのアートワークを表示した時にどれが一番いいか

Regret(後悔)を最小値化するためにはOnline Learninggが適している
Regret: 最初からユーザの好みが即知だった場合の結果と実際の結果の差分

Batch的にではなく逐次的にモデルを改善していいく

Bandits問題
Contextual Bandits問題

アートワークへの適用

Contents: ユーザの資料履歴・国
Action: 選択されたアートワーク
Reward: ユーザのポジティブ反応

解決策

ε-Greedy法
LinUCB
Thompson Sampling

オフラインでのモデルの性能評価
本番で使用する前にオフラインで性能評価を行いたい
=> Replay手法 (保存してある過去のアクションログを用いて擬似的に評価)

メリット

実データを使っており指標として信頼性がある
計算しやすいい

デメリット

たくさんのデータが必要
過学習の心配がある

オンラインで遅延なくモデルを適用するために
APIの適用場所は幅広く、ピーク時は20M RPSを超える

手法１: Live Compute
手法２: Online Compute

Presto

prestodb.io

Prestoの紹介とStarburstが提供するPresto Enterpriseの紹介特定のData sourceに依存しないということを強調していた

Analyzing Data in the Cloud : Privacy and Security

www.tableau.com

Multi-tenancyモデルでのセキュリティ問題
「忘れられる問題」への対応苦労話

Fumiエンジニアブログ

「グリー開発本部 Meetup #1 DataEngConf NYC報告会」に参加してきた！

はじめに

参加動機

グリー開発本部 Meetup #1 DataEngConf NYC報告会