Strata Data Conference in NY: Keynote #1 "The future of data warehousing"by Cloudera
概要
Source
www.oreilly.com ※前半がカットされているので、O'reilly社のサイト上(動画)[https://www.safaribooksonline.com/videos/strata-data-conference/9781492025856/9781492025856-video323072}も閲覧しました
前提
- (Cloudera社)https://www.cloudera.com/はデータにまつわる製品を販売している会社です
Summary
- (Official Introduction)https://conferences.oreilly.com/strata/strata-ny/public/schedule/detail/71495
- ビッグデータを取り巻く課題に対して、Cloudera社はソリューションを用意しているのでぜひ展示会のブースに来てね
Detail
- データを取り巻く環境
- 日々膨大なデータが蓄積・活用されている
- 投げられるクエリの数は膨大
データにまつわる課題
- また、データを扱う時間のうち、半分はデータの定義を探すことに費やされている
- また、ときにえげつないクエリが投げられる(Noisy neighbor問題)
- トラブルシューティングに時間がかかる
実例
- PNC(PNC - PERSONAL BANKING)
- 実施したかったこと
- PNC(PNC - PERSONAL BANKING)
- データのガバナンスがきかせられている状態
- 様々な部署がデータを通して協働できる状態
スケールしつづけるデータに対応できる状態
課題
- 増え続けるデータ
- Noisy neiborが存在すること(結果、他のクエリがスタックしてしまうこと)
各部署がそれぞれのやりたいことをすることで、クエリが邪魔し合うこと
解決方法
- 誰がどこでどんな業務をしているのか可視化できる状態にした(ダッシュボード作成)
- 派生的なジョブ(?)を可視化できるようにした
良い関係性を築いた(?)
Clouderaのソリューション (公式ブログ)https://blog.cloudera.co.jp/%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC%E3%81%8C%E3%83%87%E3%83%BC%E3%82%BF%E5%88%86%E6%9E%90%E3%82%92%E3%81%99%E3%82%8B%E6%99%82%E4%BB%A3%E3%81%AF%E3%81%99%E3%81%90%E3%81%9D%E3%81%93%E3%81%AB-c24af5d7613 にあるとおり、Clouderaはデータにまつわる課題に対するソリューションを提供しているので、今回の問題に適したものを紹介。
- 正しいデータの定義を探すのが大変 -> (SDX)https://jp.cloudera.com/products/sdx.html
- Noisy neighborのクエリが領域を専有する -> Altus Data Warehouse
- Trouble Shooting -> Workload XM
学んだこと
- 「Noisy neighbors」という問題を初めて聞いた。やばいクエリ…がどういったクエリなのか分かるレベルに達していないが、存在するはするのだろう…
- 挙げられていた課題について、「気合で解決すればよいのでは?」とつい思ってしまうが、それを解決するツールを導入するという解決策もあるんのだなという学び。
- カンファレンスのセッション、特にキーノートは真面目に聞くべきかと思っていたが製品の紹介もあるのですね…