[스터디파이] 데이터분석 4주차

2020. 7. 5. 22:46통계 & 데이터분석/데이터분석

더보기

0. 4주차 커리큘럼

 

1. WEEK 4 / DAY 1

더보기

0. Intro

금주부터는 '어떻게 하면 분석일을 잘할수 있는가?' 에 대한 주제들을 다루려 합니다.

첫번째로는 어제 온라인 세션에서도 말씀드렸던 '논리적 사고'와 관련된 주제입니다.

이쪽의 가장 클래식한 책은 바바라민토의 '논리의 기술' http://www.yes24.com/Product/Goods/77671422 이지만, 책이 두껍고, 솔직히 좀 지루합니다.

그래서 주변에는 이것의 좀 더 경량화된 버전인 '로지컬 씽킹' 책을 추천하곤 합니다. http://www.yes24.com/Product/Goods/76899643?Acode=101
(그나저나 저는 두책 모두 거의 8~10년전에 구판으로 보았었는데, 벌써 이렇게 예쁘게 리뉴얼되었군요)하지만, 바쁜 와중에 책을 둘다 사서 읽기 힘드실겁니다. 요즘 시대가 유튜브 시대라 좀 깔끔하게 정리된 영상이 없을까 하다가, 두 영상을 찾았습니다.로지컬 씽킹에 대한 영상 : https://www.youtube.com/watch?v=jmRC7d0t9Rs
논리의 기술에 대한 영상 : https://www.youtube.com/watch?v=kmzUEsjeDt4위의 영상이 더 말랑말랑하니, 위 아래 순으로 보시면 될겁니다. 둘 다 합쳐서 30분 안쪽이니, 큰 부담 없으실 겁니다.저는 개인적으로는 논리의 기술, 특히 도입부를 설계하는 법과 관련해 도움을 많이 받았습니다. 언제나 어디를 가든 '문제의식에 대해 sync'하는 과정이 제일 힘든데, 이 때 많은 도움이 되었습니다

 

2. WEEK 4 / DAY 2

대시보드 작성에서 고려해야 할 것들

더보기

데이터팀의 진화과정 Passvie Lv 1, 2, 3 중

Passive Lv2 에서는 보통 대시보드로 일하게 됩니다. 오늘은 대시보드 작성 기준을 이야기해보겠습니다.

 

데이터팀 Passive LV2 에서는

  • 사내에 데이터도 좀 모였고
  • 사내에 데이터를 보고 싶어하는 현업의 니즈도 좀 쌓였고
  • 그들에게 일일이 임의의(ad hoc)하게 리포트를 만들어 제공하는 것이 번거롭기 때문에
  • 대시보드로 교류한다

의 상태에 이르러 있습니다.

 

누가 볼 대시보드를 만드는가?

대시보드의 성격을 가르는 가장 첫번째는 '누가 볼것인가?'를 정하는 것입니다.

이것을 통해, 대기업형 대시보드(결과)와 스타트업형 대시보드(변화량)가 갈립니다.

 

 

- 변성윤님의 글

저번에 데이터 엔지니어링 관련 책을 추천드렸는데,
영어로 되어있지만 꽤 완성도 있는 책(무료로 공개된!)이 있어 추천드립니다!
The Data Engineering Cookbook스파크, 카프카 등의 자료 또는 데이터 엔지니어링 관련 발표 자료가 궁금하시면 제가 모아둔 I Want to study Data Science 위키를 보셔도 좋을 것 같아요~!

 

 

3. WEEK 4 / DAY 3

데이터팀 발전의 6단계

 

더보기

데이터팀은 Passive LV1,2,3를 거쳐서 Active LV 1,2,3로 올라가게 됩니다

 

Passive LV 1 : 데이터 확충 + 오래된 의문의 해결 + 리포트 수렁

  • 쌓여있는 로그가 없거나, 쓸 수 없는 상태
  • 백엔드와 데이터 엔지니어의 일이 많음
  • 하는일1. 고객은 어디서오고 어떤 활동을 하는지 (Broad 한 주제) , 기존의 기획/영업이 가진 의문을 해소
  • 리포트를 만들어 현업에게 전달

 

Passive LV 2 : 대시보드 수렁

  • 사내의 여러 지표들을 한눈에 볼 수 있는 웹페이지와 slack bot을 만들게 됩니다.

 

Passive LV 3 : 데이터 보는 일의 현업 보급 + 여력확보

  • sql로의 재편은 데이터팀이 일하기 위해서 필요해서 필수적으로 하게되는 작업이지만, 이 데이터로 직접 접근하고 싶어하는 현업이 생깁니다.
  • 이 때 2개의 layer로 나누어 (초보자, 전문가) 간단한 데이터를 보는 일은 현업이 직접 하게 됩니다. 이 작업을 돕는 소프트웨어를 도입하게 되는데, tableau, superset, redash, hue등을 쓰게 됩니다.
  • 데이터팀은 대시보드 작업 지옥에서 벗어나고, adhoc 한 요청도 줄이면서 작업 여력을 확보한다는 것에도 의미가 큽니다. 이 확보한 여력으로 Active 로 넘어가기 위한 엔지니어링을 다시 시작합니다.

Active LV 1 : 아주 가벼운 A/B Test의 시작 + 우리편 확보

  • 데이터팀이 '기존에 쌓인 데이터에서 분석하는 것'에서는 수동적인 조직을 벗어날 수 없습니다
  • 다만 처음부터 완벽한 A/B 테스트 플랫폼을 갖추고 테스트하기엔 너무 많은 노력이 필요하므로, 첫번째 타겟은 웹사이트나, 푸시메시지, 이메일등 제품 바깥 부분의 변경으로 테스트하게 됩니다. 이것들은 첫번째 실험이 돌기까지 적은 시간을 들여도 되고, 이 기능을 제공하는 외부 벤더들도 많고, 눈에 보이는 부분이므로 많은 사람들이 결과를 쉽게 이해할 수 있습니다.
  • 첫번째 실험은 크게 떠들썩하게 하지 말고 현업팀과 진행합니다. 그리고 결과가 나온후에 잘 나오면 이를 크게 사내 마케팅합니다.

 

Active LV 2 : A/B Test Platform의 본격 도입 + 실험 지옥

  • 좀 더 구체적인 A/B test요청이 오기 시작합니다.
  • 특징은 '모든 유저'를 대상으로 한 것이 아니라, '특정 조건을 만족하는 유저'를 대상으로 '제품 내부' 기능에 대한 요청이 옵니다.
  • 내부와 외부 데이터의 결합이 필요하기에, 외부 제품으로 모두 커버가 안되는 경우를 위해 내부 A/B test플랫폼을 구축하거나, 벤더 소프트웨어의 고급기능을 사용하기 시작합니다.
  • 이 때, 사내 데이터와 A/B test 제품과의 융합, 여러 캠페인을 동시 운용하기 위한 admin등이 도입됩니다.

Active LV3 : 자동화의 보급

  • 회사의 핵심 피처에 알고리즘으로 최적화 하자는 대표님의 의견이 강해지기 시작합니다.
  • 이 때 포지셔닝을 잘해야 하는데, 자칫 잘못하면 현업의 일을 빼앗는 형태로 보일 수도 있기 때문입니다. 그래서 이 때 중요한 것은 '필요한 일'의 니즈를 현업으로 부터 받는 것입니다.
  • 이때쯤 머신러닝 엔지니어가 할일이 생겨납니다. 엄청 고도의 기법이 아니어도, 룰베이스라도 나름 성과가 직접 보이는 일들을 자동화하게 되고, 기존의 일이 아니었던 좀 특이한 일들도 하게 됩니다. 예를 들어, '매주 영업팀들이 돌아다니면 좋을 고객 우선 순위 정하기' 라던가, '자동 발주 시스템'이라던가 많은 것들이 시스템화 되게 됩니다.

 

4. WEEK 4 / DAY 4

현실 데이터를 잘 시각화 하는 법

(시각화 방법 많음 ! )

 

더보기

0. Intro

 

오늘 소개드릴 아티클은 제가 최근에 읽었던 시각화 글들중에 가장 도움이 되었던 글입니다. https://flowingdata.com/2020/06/01/guides-for-visualizing-reality (위에 링크됨) 입니다.현업과 일을 하면 느끼겠지만, 결국 좋은 시각화가 필요합니다.
좋은 시각화란

  • 하나의 그래프가 하나의 이야기만을 하며
  • 설명이 적어도 오해가 없을 정도로 핵심이 드러나지만
  • 그럼에도 현실을 호도하지 않아야 합니다.

시각화 기법에 대한 코딩은 이야기가 많이 나오지만, 어떻게 표현해내는 것이 좋은지에 대한 글은 많지가 않습니다. Nathan Yau는 제가 한창 데이터 사이언스를 공부하던 시절 Visualize This와 Data Point를 쓰신 분입니다. 국내에도 번역되어 나와 있습니다만, 책의 출판년도가 2012년 2013년이니까, 지금 사기는 좀 아까운 느낌은 있습니다. 하지만 세부 기술이 변해도, 기준의 핵심은 변하지 않는법이고, 시대를 관통하는 잘 '그려내는 기준'이 이 분의 사이트 https://flowingdata.com/ 에 끊임없이 올라옵니다.이 사이트의 https://flowingdata.com/category/guides/ 에 가면 많은 시각화에 대한 가이드가 올라와있는데, 프로그래밍 기법이 아니라, 기준에 대해서 논해져 있어서 좋습니다. 저 guide에 올라와 있는 글중에 제일 직접적으로 도움이 되는 아티클이 오늘 소개한 https://flowingdata.com/2020/06/01/guides-for-visualizing-reality  입니다.저기에는 여러가지 세부 글이 링크되어 있는데, 바쁘시다면  https://flowingdata.com/2017/02/09/how-to-spot-visualization-lies/ 라도 꼭 읽으시기 바랍니다. Y축 자르기, 듀얼 Y축, 사이즈로 속이기등, 어떻게 그래프가 우리를 속일 수 있는가를 잘 나타내주었습니다. 다른 사람의 그래프를 볼 때는 이 기준으로, 속지 않고, (그러면 안되겠지만) 가끔 대표님이나 현업을 설득해야할 때는 역으로 이용해 봅시다.

 

더보기

Guides for Visualizing Reality

- Uncertainty

- Incomplete & Missing Data

- Outliers

- Differnces

- Patterns

- 등등등 .... 시각화에 다양한 방법이 있음.

 

 

5. WEEK 4 / DAY 5

기술을 가리는데 성공해 성공하는 스타트업

 


오늘은 제가 예전에 네이버 Tech Meets Startup 행사에서 이야기하였던, 사업을 시작하고 엑싯하기까지의 이야기가 담겨 있는 슬라이드를 조금 다듬어 보았습니다. 데이터에 대한 학습이라기보단, 그냥 좀 편안하게 읽으시면 되는 내용입니다. 좋은 밤 되세요~
더보기
< 창업 후 시간 >
< 구매자들의 공통점, 기술로 이야기 하지 않는다 >

창업 부터 Exit 까지 초 스피드 리뷰

- 회사 : 돈이 있어야 운영 가능

- 돈 : 돈이 많이 도는 곳이 벌기 쉬움

- 돈이 도는 곳 : 금윰 & 커머스

 

- 금융 : 금융은 느리고 답답하다는 선입견이 있음, S카드와 작업을 해보고 선입견이 맞음을 깨달음

- 커머스 : 온라인 쇼핑몰은 빠름. 데이터 사이언스와 핏이 잘맞아서 여기를 시작

 

커머스의 고통

- 지출은 적게

- 매출은 많이

 

< 카카오 : 회사 가격은 얼마냐?  - Exit 성공>

 

 

Q. 결측이 많은 경우? (특히 데이터가 많은데 인구통계 데이터 미싱이 많은 경우)
A. 결측은 제외. 이런 경우는 채워야 하겠지만, 의미 있는 기준 이상만 사용해서 성능을 유지할 것. + 이벤트 특성(ex.남친 선물) 활용하기 + 유저에게 묻는 것을 두려워하지 말기!

 

6. WEEK 4 / DAY 6