Strata Data Conference in NY: Keynote #1 "The future of data warehousing"by Cloudera
概要
Source
www.oreilly.com ※前半がカットされているので、O'reilly社のサイト上(動画)[https://www.safaribooksonline.com/videos/strata-data-conference/9781492025856/9781492025856-video323072}も閲覧しました
前提
- (Cloudera社)https://www.cloudera.com/はデータにまつわる製品を販売している会社です
Summary
- (Official Introduction)https://conferences.oreilly.com/strata/strata-ny/public/schedule/detail/71495
- ビッグデータを取り巻く課題に対して、Cloudera社はソリューションを用意しているのでぜひ展示会のブースに来てね
Detail
- データを取り巻く環境
- 日々膨大なデータが蓄積・活用されている
- 投げられるクエリの数は膨大
データにまつわる課題
- また、データを扱う時間のうち、半分はデータの定義を探すことに費やされている
- また、ときにえげつないクエリが投げられる(Noisy neighbor問題)
- トラブルシューティングに時間がかかる
実例
- PNC(PNC - PERSONAL BANKING)
- 実施したかったこと
- PNC(PNC - PERSONAL BANKING)
- データのガバナンスがきかせられている状態
- 様々な部署がデータを通して協働できる状態
スケールしつづけるデータに対応できる状態
課題
- 増え続けるデータ
- Noisy neiborが存在すること(結果、他のクエリがスタックしてしまうこと)
各部署がそれぞれのやりたいことをすることで、クエリが邪魔し合うこと
解決方法
- 誰がどこでどんな業務をしているのか可視化できる状態にした(ダッシュボード作成)
- 派生的なジョブ(?)を可視化できるようにした
良い関係性を築いた(?)
Clouderaのソリューション (公式ブログ)https://blog.cloudera.co.jp/%E3%83%93%E3%82%B8%E3%83%8D%E3%82%B9%E3%83%A6%E3%83%BC%E3%82%B6%E3%83%BC%E3%81%8C%E3%83%87%E3%83%BC%E3%82%BF%E5%88%86%E6%9E%90%E3%82%92%E3%81%99%E3%82%8B%E6%99%82%E4%BB%A3%E3%81%AF%E3%81%99%E3%81%90%E3%81%9D%E3%81%93%E3%81%AB-c24af5d7613 にあるとおり、Clouderaはデータにまつわる課題に対するソリューションを提供しているので、今回の問題に適したものを紹介。
- 正しいデータの定義を探すのが大変 -> (SDX)https://jp.cloudera.com/products/sdx.html
- Noisy neighborのクエリが領域を専有する -> Altus Data Warehouse
- Trouble Shooting -> Workload XM
学んだこと
- 「Noisy neighbors」という問題を初めて聞いた。やばいクエリ…がどういったクエリなのか分かるレベルに達していないが、存在するはするのだろう…
- 挙げられていた課題について、「気合で解決すればよいのでは?」とつい思ってしまうが、それを解決するツールを導入するという解決策もあるんのだなという学び。
- カンファレンスのセッション、特にキーノートは真面目に聞くべきかと思っていたが製品の紹介もあるのですね…
MakeOverMonday #39 Gender Equality
概要
今週のお題
- Gender Equality
- EM2030というSDGsの取り組みを行う団体?があり、今回はそのコラボレーションらしい
- アンケートについての分析
- 含まれている情報は、アンケート回答者の属性と、2つの設問に対する回答
- Q4とQ11ぽかったので、これからしばらくシリーズで回答していくのかなと思っている
私のViz
Tableau Publicに上がっていたViz
学んだこと・感想
- アンケートの集計形式が今まで見たことない形で、集計するのに一苦労…
- 設問とそれに対する回答、ごとにフラグやスコアをつける形式で、その項目を分割することを頑張りました
- 文字が多い!(これは私の諸々アウトプット全てに言える課題)
- Public上のVizを見て、説明が多くなってしまうところを、ツールチップを使用してマウスオーバー時のみ表示する方法は使えるなと思った。社内で使用するツールにも使えそう。
- 公式カラーを使ったらあまりにビビッドで、特に「重要だと思っている度」を示すのは難しく、一番汎用的に使えそうな青をグラデーションで使用した
- そもそも塗りつぶすべきもの・そうでないものを分けていく必要がありそう
- EM2030の背景として存在している、SDGsについて、名前は聞いたことあるけれど詳しくない状態だったので調べた
- MakeOverMondayはInternationalなトピックを扱えるので、普段触れない情報にも取り組めるのは新鮮で面白い
- 反面、前提情報を持っていなかったり英語で情報収集するのに時間がかかるのがツライ…これも勉強…
- 分析結果について考察してみた
- 「政府系データについて」、「性別に紐づくデータがあまりない」「性別について分析するデータの需要がない」は確かに…と思わされた。自分も日頃性別を軸にいした分析ってしないもんな…
Google Analyticsの設定をした
概要
- 本ブログにGoogle Analyticsタグを設定しました
背景
- 会社では「データマネジメント」部署に所属しているが、「取得されたデータ」を「マネジメント」することが主な業務領域になっている
- 「分析するデータ」がどのように取得されているか、そもそもの仕組みを知りたい
- 所属している部署においてWebサイトログが取得される仕組みの把握をしており、かつ分析のスキルがある人が少ないため、この領域をカバーできるようになりたい
実施したこと
- 本ブログにGoogle Analyticsのタグを設定しました
- 数字を確認する習慣をつけるために、Google Analyticsのアプリをスマホにインストールしました
学んだこと・感想
- Google Analyticsのタグ設定自体は簡単だった -- 過去に他のブログに設定をしたことがあったので、実作業はコードを発行するだけだった -- このブログを参考にしました
- はてなブログにはSEO用に記事ごとに様々な設定ができるということ -- 過去にもはてなブログで記事自体を書いたことはあったが、設定をここまで編集できるとは知らなかった
今後やりたいこと
- イベントトラッキングなど、より詳細に情報を取得するための設定を行いたい -- このあたりが参考になりそう
- Google Analyticsの動きの仕組みを学びたい -- 具体的に「トラッキングID」とは何なのか?
- Google Analyticsのデータを用いてデータ分析をしたい -- まずは1ヶ月後に実施したい
- SEOの仕組みも実感を持って学びたいので、Search Consoleなど別ツールも導入したい
- ブログ運営でお金を稼げるようになりたい(現金)
Tableau Public #3
概要
- Tableau PublicにVizをアップしたので、その際の学びを備忘としてまとめます
- テーマ「GDPトップ10の国を過去30年分ビジュアライズ化してみる」
本日のViz
今回のチャレンジポイント・学んだこと
感想
- 現在受けている研修のお題が「自分でアップしたVizをブラッシュアップすること」だったので取り組んだが、そもそも最初にアップしたVizがテーマもないものだったので、どうすれば「改善されるのか?」を検討するのが難しかった
- 国旗のアイコンをVizに反映できるだけで、レベルが上がった気分になる(実際は微々たる差でしかない)
- 「なんとなくとっつきがたそうな」Tableauの面白さを伝えるために、このあたりを工夫していくことは効果的な気がする
- 「GDP」についてはもっと切り口がありそうだが、正直シートを2枚以上用意しても見てもらえない気がする…
Tableau Public #2
概要
- Tableau勉強のためにVizを作成した
- 最近台風が多いので、台風の数についてまとめたVizにした
本日のViz
今回のチャレンジポイント・学んだこと
- 「Tableau Publicに上げる」ということを意識したDashboardを作成した
- 具体的に下記を実施
- 「何のために作成したVizか?」を明示した
- Vizを作成したことで得られた考察を明示した
- 使用しているデータセットの出典元を記載した
- イラストを挿入した
- 具体的に下記を実施
- パブリックに公開されているデータを使用した
- 使用したいデータセットがイメージできていたので、Googleで検索して見つけた気象庁のデータを使用した
- 「発生件数」と「上陸回数」の情報は別々のCSVファイルで存在していたので、同じワークシートで使用するために「データブレンド」を活用した
- データの形式がTableauでうまく活用できる形ではなかったので、「データのピボット」を行った
- データが日付形式で入っていなかったので、年/月それぞれの整数値をMAKEDATE関数で日付形式に変更した
- PublicにあがっているVizを見ていて、画像を入れるとキャッチーになるようだったので、手始めにいらすとやの画像を入れてみた
- 「何の話をしているか?」がわかりやすくなったのでは?
感想
- 「自分で見てみたい・作りたい」と思ったVizを作るためであれば、新しい機能も頑張って使うのだという実感を得た
- Tableauトレーニングで学んだ情報も、自分で作りたいVizに反映することで身につく
- 頑張り過ぎてしまうので、「どのくらい時間をかけているか?」を測ってみるのが良さそう…
- 英語のタイトルの付け方に自分のセンスのなさを感じた
- 凡例の記載方法がイマイチ分かりづらくなっている感覚がある。普段どのように凡例を認識しているのか意識する
- 「昔すごい台風来た年があったな」という記憶があったが、おそらく2004年の記憶だということが分かった(Viz関係ない!)
- 「台風とXX」という数字は他にもいろいろありそうなので、ver2以降も取り組む。海外の台風関連データも探す
「本日のViz」からの学び -20180908
概要
- 「本日のViz」からの学びをまとめます
本日のViz
Over 100 Years of US Baby Names | Tableau Public
学び
Tableau Public上のワークブックをダウンロードして気になる点を見てみました
手書き風ボタン
ダッシュボード上に手書き風の画像が複数存在する
ドーナツ風チャート
- Radial系の関数を使っている様子
- そもそもドーナツチャートの作り方が分からない
- 参考になりそうな記事を見つけたので後で読む Radial treemaps & bar charts in Tableau | Bora Beran
MakeOverMonday #36 Nike Factories
概要
MakeOverMondayとは?
- データビジュアライゼーションのトレーニングプログラム
- 毎週月曜日にお題とデータセットが提供され、それらをもとに各々がデータのビジュアライズに取り組む - 1時間程度でビジュアライズを行うことが想定されている
- 参加者は、作成したビジュアル(Viz)をオンラインでアップする - Tableauを使用して作成したVizは、Tableau Publicをプラットフォームとして使用
- 公式サイト(英語)
- 日本語で書かれた分かりやすい説明書きがありました
今週のお題
- ナイキの工場にまつわるデータ
- 元サイト
私のViz
- My First #MakeOverMonday work ever!
- 地図に色塗りをしてみたかった。普通に数字を見るだけでは面白くないか?と思い割合を表示
- とりあえず、思った以上にpoorなVizしか出来上がらず悲しい気持ちに…
公式Viz
- MakeOverMonday公式サイト
- 地図はないが、必要な数字がわかりやすく表現されていて分かりやすい
- クリックしてみると、「フィルターすべきところにフィルター」、「ハイライトするべきところにハイライト」されている