トレジャーデータ
- TREASURE DATA
“PLAZMA” 公式サイト - URL:https://
plazma. red/
イベントでは多くの講演やショーケースが設けられ、
また、
2月15日は
両日とも講演内容は動画で公開されています。
- PLAZMA OSS Dayの講演
- URL:https://
youtu. be/ kK80-awh_ NM - PLAZMA TD Internal Dayの講演
(1) - URL:https://
youtu. be/ RzQT_ 9jcrx8 - PLAZMA TD Internal Dayの講演
(2) - URL:https://
youtu. be/ wdnNb3yZmro
講演の詳細はこれらの動画で視聴できるため、
Fluentd v1.0 and the future
2月15日に行われた中川真宏
Fluentdとは、
- 新しいプラグインAPI
(より複雑なユースケースに対応できるようになった) - イベント時間のナノ秒対応
- Windowsサポート
- マルチコアサポート
- プラグイン作成のための支援機能
(Plugin Storage、 Plugun Helpers)
講演ではこれらの機能の概要、
このほか、
- td-agent 3
(Fluentdの安定版パッケージ) の状況 - Fluentdのコンテナイメージの提供
- KafkaやPrometheuseとの連携
- ベンチマークセットに関する作業状況
- fluent-bit
(組込み機器向けの軽量なデータコレクタ) の紹介
など、
この講演の内容は、
また、
Cooperative works for Fluentd Community(Kenji Okimoto氏、Hiroshi Hatake氏)
プラグイン開発者から見るv1.0の活用法(Tomohiro Hashidate氏)
この2つの講演では、
Embulk v0.9
EmbulkとはFluentdのバッチ版のようなもので、
まず、
- Pure-Javaプラグインが動作可能に
- 起動シーケンスのPure-Java化
(Pure-Javaプラグインのみを使う場合は、 JRubyを介さないため、 起動が高速に) - TimestampParserのPure-Java化
(タイムスタンプのパースが高速に)
そして、
- EmbulkのベースがJava 7からJava 8に変更
が報告されました。これにより、
さらに、
- ログをほかのチャンネルに出力する機能
(Reporter Plugins) - データタイプとしてバイナリ型を追加
講演の後半では、
- いくつかのAPI/
SPIのメソッドやクラスが使用不可に (おもにTimestampのデータを扱っているもの、 JRubyに近いメソッドを呼んでいるもの) - v0.
9.0以降はEmbulkのgem形式でのリリースはなし (リリースはjar形式のみ) - Bundler
(Gemfileの記述) の変更 - プラグインのインストールディレクトリの変更
- Timestampフォーマットの変更
Treasure CDPシステムアーキテクチャ
2月19日のイベントからは、
最近のデジタルマーケティング業界では、
トレジャーデータも2017年7月に新サービス
各企業が持つ顧客データは、
ユーザ企業からは、
先の要求を実現するために、
- データスキーマの統合
- IDの統合、
不整合の解決 - ごちゃごちゃしたスキーマを単純化
- 複数Cookieドメイン間のデータ結合
- サードパーティデータの結合
- IDの統合、
- 解析
- SQLの知識なしでも使える解析UI
- 機械学習の知識がなくても使える推定、
最適化
- 解析結果を実サービスや物理店舗へフィードバック
- レコメンデーション、
パーソナライズ - 広告/
配信サービスへの連携
- レコメンデーション、
- リアルタイム処理
これらを実現するためのCDPシステムのアーキテクチャとして次の3つが紹介されました。
- ① GUI上で定義したAudienceルールをもとにデータセットを作るしくみ
- ② GUIでデータセットをリアルタイムに解析
(セグメンテーション) するしくみ - ③ セグメンテーション結果を実サービスにフィードバックするしくみ
Treasure CDPはこの3つのシステムで成り立っており、
講演では、
①に関しては、
②に関しては、
③に関しては、
2日間のイベントでは、
本記事ですべての講演を紹介することはできませんので、
PLAZMA OSS Dayの講演
PLAZMA TD Internal Dayの講演
講演タイトル | 発表者 | 動画URL |
---|---|---|
PTD and beyond: A look at what Hadoop team have been up to | Johan | https:// |
UDP: A New Partitioning Strategy accelerating CDP Workload | @Lewuathe | https:// |
TDと弊社との軌跡 | 川崎泰一 | https:// |
動画系メディア | 島田雅年 | https:// |
Treasure CDPシステムアーキテクチャ: 10億ユニークデバイスをリアルタイム追跡するシステム構築 | @frsyuki | https:// |
Machine Learning and Natural Language Processing on Treasure CDP | @takuti | https:// |
アサインナビのWEBアクセスログの活用事例 - Log visualization with BI tool & Advanced analytics with Python | 渡辺翔太 | https:// |
Treasure CDP のユーザインタフェース構築に関するあれこれ | Tsubasa | https:// |
Treasure Dataで構築したデータ分析基盤、 | 戸井田明俊 | https:// |
消えゆくLegacy System ー Event Collectorの苦難と改善の歴史 | @komamitsu_ | https:// |
Planet-scale Data Ingestion Pipeline: Bigdam | @tagomoris | https:// |
トレジャーデータは2018年中に、