[스터디파이] 데이터분석 OT/1주차

2020. 7. 5. 09:20통계 & 데이터분석/데이터분석

728x90

0. 스터디파이 1주차 커리큘럼

더보기

 

Day 1

Day 2

Day 3

  • 부교재 ‘빅데이터를 활용한 예측 마케팅 전략' 1부 1장까지 읽기

Day 4

  • 부교재 ‘빅데이터를 활용한 예측 마케팅 전략' 1부 2장까지 읽기

Day 5

  • 하버드 비즈니스 리뷰 ’Do Your Data Scientists Know the ‘Why’ Behind Their Work?’ 읽기 (요약번역 제공 예정)

Day 6

  • 주간 과제를 제출해주세요.

https://forms.gle/AvQc6YJFP4Q6DnkeA

Day 7

  • 온라인 스터디 참여

  • 데이터 사이언스라는 업의 구성 요소와 본질

  • 데이터 사이언스의 결과물은 보통 어떠한 형태로 만들어지는가

    • 만들어진 결과물이 현업에 쓰이지 못하는 예

    • 만들어진 결과물이 현업에 쓰이는 예

  • 현업 적용에 있어서 가장 흔하게 발생하는 문제들

  • 데이터 분석의 2가지 형태

    • 수비형 데이터 work

    • 공격형 데이터 work

      • Predictive Marketing

1. 강의를 여는 글

더보기

SF영화에나 나오는 일이었죠. 전 지구적 사건으로 인류가 정지하게 되는 것은 말이죠. 오늘이 6월이고, 2020년이 시작된지 한참입니다만, 우리들의 올해 기억은 아무것도 없습니다. 코로나때문에 아무것도 하지 못하고, 아침에 뉴스를 쳐다보며 매일매일 어떻게 되는지 걱정하는 것이 일과였으니까요. 그랬던 코로나도 이제는 조금 소강상태에 접어든것 같습니다. 거리에 사람들도 많아보이고, 뉴스가 귀를 사로잡는 일도 조금 적어졌습니다.

흔히 죽을뻔한 일을 겪고나면 사람이 바뀐다고 말을 합니다. 이번 코로나는 전 인류의 죽을뻔에 해당하지 않을까 싶습니다. 당연히 많은 것들이 바뀌었고 바뀌고 있습니다. 데이터에 관한 강의를 할 것이지만, 데이터 이전에 산업 전체가 어떻게 바뀔지를 먼저 그려봅시다. 그리고 그 변화에서 데이터가 어떤 역할을 할지 생각해봅시다.

미래의 양상을 예측할 때 좋은 방법중에 하나는 1년뒤보다 10년뒤를 예측하는 것입니다. 예를 들어 지금은 자율주행이 일부 차들만 지원하는 기능이지만 10년뒤에는 모두 전기, 자율주행차를 타고 있겠죠. 그런식으로 아래의 예측들도 앞으로 10년간 차츰차츰 일어날 변화들을 상상해보았습니다.

먼저 많은 공장들이 바뀔것입니다. 코로나는 중국에서 시작되었고, 때문에 중국이 가장 먼저 멈추었습니다. 그리고 세상의 모든 공장이 모여 있는 중국이었기에, 세계의 모든 것들의 공급이 멈추기 시작했습니다. 중국에서 제조되던 TV들은 코로나 기간동안 값이 30% 가까이 뛰는 일이 있었습니다. 부품도 조립도 멈추었기에 공급을 할 수 없었기 때문입니다.

세상에서 어쨌거나 제일 중요한 것은 경제이고, 경제에서의 핵심은 생산성이었습니다. 생산성의 핵심은 적은 돈을 넣고, 많은 것을 만들어낼 수 있는 것이죠. 때문에 공장은 노동력이 저렴한 곳에 모이게 됩니다. 그것이 중국이었죠. 하지만, 계란을 한바구니에 담는 것의 위험을 제대로 느끼게 되었습니다. 이제 많은 공장들은 중국 이외의 아시아 지역으로 (동남아시아, 인도) 퍼지거나, 심지어 자국(미국, 유럽 등등)으로 돌아가게 될 것입니다. 이것이 가능해지는 가장 큰 이유는 로봇으로 인한 제조의 자동화가 어떤 임계를 넘어서고 있기 때문입니다.

커다란 공장에서 실제로 필요한 노동인구가 로봇을 관리할 10명정도라면, 굳이 공장이 그 10명의 인건비를 줄이기 위해 중국에 있을 필요가 있을까요? 차라리 자국이나, 물류입지에 두는 것이 유리할 겁니다. 이미 있는 공장을 옮기는 정도(공장 자국 이전 : Reshoring 리쇼어링이라고 합니다.) 까지는 안하더라도, 새 공장을 지을 때는 적어도 그 점을 잔뜩 고려하게 될겁니다.

많은 공장들이 자국에 생기게 되었다고 가정해봅시다. 해외에 있을 때보다 물류비용이 절약되게 됩니다만, 그럼에도 더 쥐어짜고 싶은 것이 사람의 마음입니다. 미국이나 유럽은 우리나라 수십, 수백개가 합쳐놓은 사이즈의 나라니까, 그정도쯤 되면 자국내 배송도 보통일이 아닙니다. 요즘 테슬라가 어쩌고, 오토파일럿 기능이 어쩌고 하지만, 사실 정말 산업적 임팩트가 큰 것은 물류 트럭의 자율 주행화 입니다. 특히나 고속도로에서의 자율주행기능은 이미 상당히 안정적이기 때문에, 이미 사람없는 물류트럭과 관련해 상당량의 테스트도 이루어져 있습니다. 공장에서 고속도로까지 올려주는 부분만 사람이 담당하고, 거기서 부터 다른 도시까지는 인공지능이 운전해도 됩니다. 역시 도시 경계까지만 머신이 운전해주면, 거기선 다시 사람이 올라타서 최종까지 인도하면 됩니다. 이러면 트럭 100대를 도시간에 쏘아도 사람 5명이면 커버가 가능해집니다. 물류비용이 0에 수렴해지는 시대가 오게 됩니다.

로봇이 생산하고, 물류가 시스템화 되면, 재고를 둘 필요가 없어집니다. 주문이 들어오는 순간 생산하면 되기 때문입니다. 들어오는 순간 생산해도 된다면, 굳이 하나의 물건을 수백개를 만들어 쌓아서 창고비용을 발생시킬 필요가 없습니다. 고객의 개인화된 주문과 공장의 생산과 물건의 배송이 일괄적으로 연동되는 체계가 완성이 되며, 커스터마이즈(customize : 개인별 요구 사항에 기반한 제작)에 대한 자유도가 훨씬 더 커질것입니다.

커스터마이즈의 자유도가 커진다는 것은, 그 자유도를 고객이 직접 다룬다는 뜻은 아닙니다. 베스킨라빈스가서 31개의 맛을 조합하는 것이 재미있는 사람들도 있겠지만, 베스킨을 처음간 사람에겐 어려운 시험처럼 느껴질 수도 있습니다. 적절한 조합을 서비스 공급회사가 미리 셀렉션해서 2-3개의 좋은 세트를 미리 만들어 제시해야할 필요가 생기기 시작합니다. 당연히 이를 잘 찾아주는 서비스도 크게 발달할 것입니다.

이러한 것이 충분히 가능해지려면, 새 상품에 대해서도, 이 고객에 대한 취향이 파악되어 있어야 할 것입니다. 다행히 10년뒤의 세계라면 개인의 기록은 돈을 주고 사고 파는 시대가 되어 있을 것입니다. 블록체인으로 대변되는 일련의 시스템은 공유지의 비극이 아니라, 공유지여서 모두가 활용가능한, 공유지의 희극이 가능하게 만들어주며, 나 자신의 취향을 공공에 올려, 나는 맘에 드는 제안을 받게 되고, 동시에 내 정보 활용에 대한 댓가까지 지불받는 시대가 되어 있을 겁니다. (지금의 구글이나 페북이 조금씩 하고 있지만, 이게 모두의 것이 될것입니다)

이러한 시대에 일상적인 생활은 어떻게 변해있을까요? 모든게 디지털화되어 있을겁니다. 지금도 어느정도 되었지만, 이번 코로나를 통해 일어난 가장 큰 트랜드는 언택트(untact, 접하지 않음, 비대면거래) 이었습니다. 접하지 않은 것들을 이어주는 것은 서비스와 데이터입니다. 기존에 데이터로 남지 않던 오프라인 활동도 전부 데이터로 남게 되는 시대를 만들어주었습니다.

시스템을 만드는 것은 쉽습니다. 어려운 것은 사람들을 변하게 만드는 것입니다. 그런데 코로나가 그걸 해내었습니다. zoom을 통해 화상미팅을 하는 것이 예의에 어긋나거나 어색한 일이 아니게 되었습니다. 공교육이 화상교육화 되는 것은 먼 미래라 생각했는데, 2020년부터 당장 시행되는 것을 보게 되어버렸습니다. 한번도 쿠팡에서 돼지고기를 사보지 않았던 아주머니가 첫 구매를 하게 되고, 영화는 넷플릭스에서 첫개봉을 하기 시작했습니다. 설사 극장이 다시 열린다해도, 이제 개인이 접하는 TV의 평균 인치가 50인치를 넘어가는 세상에서 집에서 편한 옷으로 보는 것이 주는 매력이 극장 못지않다는 것을 알게 되었습니다.

이것이 가져오는 것은 사람 군집의 해체입니다. 우리의 주거를 이루는 주요 요인은 교육과 직장입니다. 그리고 이제 교육과 직장이 리모트(원격)으로 가능하다는 것을 강제 체험한 이후 입니다. 모든 산업이 전격적으로 리모트화 되지는 않을 겁니다. 하지만, 일주일중에 몇일만 모여서 일하고 나머지는 각자 지역에서 한다던가하는 부분적 리모트가 확산되어갈겁니다. 교육도 어차피 똑같은 내 모니터로 보게 되는 거라면, 잘 모르는 선생님보단, 유명하고 잘가르치는 선생님의 잘빠진 커리큘럼을 원격으로 듣는 일이 생겨나게 될겁니다. 학군의 해체입니다. 부동산 대변혁이 일어나겠군요.

해체된 환경을 잘 돌아가게 하기 위해서는 좋은 브로커가 필요합니다. 공급할 수 있는 곳과 수요가 존재하는 곳의 컨텐츠와 레벨을 맞추어 잘 연결해주는 작업이 필요합니다. 수백만의 수백만에 대한 조합이므로 이를 사람이 하기 힘들겁니다. 여기에서도 커다한 산업이 발전하게 될겁니다. 일을 해체하여 사람들에게 뿌리고, 다시 조립하는 사업. 세상에 널려있는 여러 교육 컨텐츠들을 하나로 묶어서 커리큘럼으로 만들어주는 사업들이 생겨나고, 사람들이 당연한 듯이 이것들을 쓰게 될 것입니다.

위의 모든 과정을 그리면서 공통된 것은 한가지입니다. 저 과정에서 각자가 주고 받는 것은 데이터 뿐입니다. 내 개별 활동이 데이터를 남기고, 그것을 기반으로 데이터를 공급받고, 그것을 기반으로 나는 데이터를 만드는 작업을 수행합니다. 보상으로 돈이라는 숫자 데이터를 지급받게 되죠 (지폐를 만진지 이미 몇년인 분들도 꽤 있죠? 비트코인이 아니더라도, 이미 현대 화폐는 비트코인과 딱히 다를게 없습니다. 가치가 있다고 믿는 디지털 숫자이죠)

약간의 과장을 보태어, 일련의 변화를 예측해보았습니다만, 이것을 통해 앞으로 어떤 것들이 중요해질지는 자명해집니다. 모든 것이 데이터화 되는 사회적 변화에서, 데이터를 읽는 능력, 그리고 단순히 읽는 것이 아니라, 마주치는 조금 더 거대한 변화들과 엮어내는 능력들이 필요해질 것입니다. 제 수업시간에서 강조하고 싶은 것들도 그러한 지점입니다. 개별 분석 기술에 대해서 다루는 수업들은 아주 많이 있습니다. 그리고 그 분들도 매우 훌륭하게 잘하고 계시구요. 이 수업에서는 나무 이파리의 디테일이 아니라, 나무의 기둥에 대해서, 그리고 그 기둥에서 뻗어나가는 굵은 가지들의 모양을 가르쳐 드리고 싶습니다. 앞으로의 여정은 이러한 맥락에서 만들어질 예정입니다.

앞으로 잘 부탁드리겠습니다.

1-1. 천 번 말하는 것보다 한번 보는 것이 낫다.

 

데이터를 시각화 하면서 변화한 일들

더보기

0. 데이터를 시각화 해야 하는 이유

1. 의사결정에 근거를 준다

2. 설득의 근거를 준다.

3. 새로운 인사이트를 준다

< 기존 축구선수 데이터에는 뛴 거리와 동선이 없었다. 이 시각화 이후 새로운 지표로 자리 잡았다>

 

 

 

2. WEEK1 / DAY 1

스타트업은 데이터를 어떻게 바라봐야 할까

 

스타트업은 데이터를 어떻게 바라봐야 할까? (개정판)

우리 회사는 데이터를 볼 필요가 있을까? 봐야 한다면 어떻게 해야 할까? 스타트업이든, 큰 기업이든 데이터가 왜 필요하며, 어떤 기법들로 분석해 나갈 수 있는지 설명합니다. 퍼널, A/B 테스트,

www.slideshare.net

더보기

0. 데이터 사이언티스트

1. 린 스타트업의 프로세스

< 핵심은 속도, 피드백, 반복을 통해 낭비를 줄인다 >

고객은 빨간부분에 있다. 고객을 알기 위해서는 데이터가 반드시 필요하다.

 

2. 이야기할 내용

 2-1. 청바지 이야기 : 뱅뱅이론

우리는 생각보다 세상을 모른다. 우리가 아는 사실은 일부분에 불과하며, 전체를 보았을 때 거짓일 가능성이 있다.

 

ex. 뱅뱅

으잉? 내친구도 나도 뱅뱅을 안입는데 뱅뱅이 청바지 브랜드 1위라고 ?
< 데이터를 기반으로 끊임없이 진짜 세상의 반응을 측정해야 한다>

2-2. 지표이야기

Data Driven이 되려면 측정가능한 목표가 중요하다.

< 측정 가능한 아래의 지표가 더 좋은 지표 >

 

2-3. 퍼널

< 유저는 어디에서 맘을 돌려버리는지 , 각 단계를 측정하는 것이 중요 >

 2-4. A/B 테스트

 

2-5. 코호트

 

3. 끝

 

3. WEEK1 / DAY 2

데이터는 차트가 아니라 돈이 되어야 한다

 

0. 여는 글

더보기

안녕하세요. 하용호입니다. 오늘 공유된 자료는 "데이터는 차트가 아니라 돈이 되어야 한다"는 슬라이드입니다. 이 발표는 예전 한 비즈니스 컨퍼런스에서 제가 발표했었던 자료입니다. IT컨퍼런스다보니, 조금 기술적인 내용이 들어가 있어서 익숙치 않은 분들도 계실겁니다. 예를들어 HIVE, LUIGI등은 보아도 응 이게 무슨 이야기지 하실거에요. 사실 지금 세부 기술은 그렇게 중요하지 않아서 해당 부분은 넘어가셔도 됩니다. 중요한 것은, 데이터를 보는 것의 목적이 액션에 있다는 것 하나만 알고 가시면 됩니다.흔히 데이터 사이언스를 떠올리면 멋진 숫자와, 그 숫자에서 그래프를 그려서 인사이트를 끌어내고 설명하는 것까지를 작업의 범위로 떠올리시곤 할겁니다. 하지만 이것은 전체 일에서 절반만 하는 것에 불과합니다.

실제로 결과를 내기 위해서는 앞 뒤에 2가지가 크게 붙게 되는데,

1) 앞에 붙는 데이터를 잘 남게 만드는 일과,

2) 뒤에 붙는 분석후의 인사이트를 실제로 적용하는 일 입니다.

두가지가 빠진 데이터 사이언스는 여름방학 계획표 만큼이나 허망한 것입니다. (전 한번도 지킨 적이 없어요 ㅎㅎ)중간 중간 모르는 단어가 나와도 다음만 기억하게 되신 다면 성공입니다.

  1. 빠르게 실험을 실제로 반복하는 것이 중요하구나.
  2. 분석을 할때는 심슨패러독스등에 빠지지 않게 면밀히 하고 (그렇지 않으면 보통은 자기가 보고 싶은데로 하고 맙니다)
  3. 실제 적용은 A/B 테스트로 하는 것이구나.

현충일 하루 잘 보내세요

 

 

4. WEEK1 / DAY 3

부교재 ‘빅데이터를 활용한 예측 마케팅 전략' 1부 1장까지 읽기

(앗 ... 책이 없다.. 책을 사야겠다.)

 

5. WEEK1 / DAY 4

부교재 ‘빅데이터를 활용한 예측 마케팅 전략' 1부 2장까지 읽기

(앗 ... 책이 없다.. 책을 사야겠다.)

 

6. WEEK1 / DAY 5

하버드 비즈니스 리뷰 ’Do Your Data Scientists Know the ‘Why’ Behind Their Work?’ 읽기

요약번역

더보기

오늘은 이번주의 마지막 읽을 글이되겠습니다.

하버드비즈니스리뷰의 https://hbr.org/2019/05/do-your-data-scientists-know-the-why-behind-their-work 입니다. 하버드비즈니스리뷰는 보통 줄여서 HBR로 표기를 많이 하곤 합니다. 물론 '오오 하버드~' 하면서 좀 폼이 나는 것도 사실입니다만, 폼은 둘째치고라도, 데이터 분야와 관련해서도 괜찮은 양질의 글들이 정말 많이 올라옵니다. https://hbr.org/topic/data 이 섹션에 가보면 재미난 아티클이 많습니다. 영어가 불편할 수도 있지만, 요즘은 기술의 발전으로 구글번역, 파파고 같은 인터넷 번역기를 통해 충분히 읽을만한 번역문을 보실 수 있습니다. 제가 개인적으로 해보니 HBR의 글은 구글번역보다는 파파고가 더 잘 번역해줍니다. (한가지 팁이라면, 파파고를 통해 번역을 하다보면, 일 공짜 읽을 수 있는 제한을 넘었다고 나올때가 종종 있는데, 이럴때는 사이트 번역 기능말고, 전체 텍스트를 복사 붙여넣기로 넣으면 잘 됩니다)

다시 오늘 다룰 글로 넘어와, Do Your Data Scientists Know the ‘Why’ Behind Their Work? (당신의 데이터 사이언티스트들이 현업 뒤에 있는 why에 대해 알고 있나요?) 는 제가 첫번째주에 강의하고 싶은 골자들을 잘 표현해주는 글이라 골랐습니다. 이번 어제까지 우리는 1) 데이터 사이언스가 뭔지 2) 그것이 단지 예쁜 리포트가 되면 안되고 어떤 것이 되어야 하는지 3) 예측마케팅과 그 기저의 간단한 기술적 기반 들을 살펴보았습니다. 결국 '액션하는 데이터'라는 골자를 향해 가고 있습니다. 오늘은 그것을 지향하며 하는데도, 잘 안되는 이유들. 빠지기 쉬운 함정들에 대해서 다룬 글입니다.

 

아래는 링크한 글의 원문을, 축약하고, 좀 더 부드러운 한글로 제가 번역한 글입니다.

좀 광범위하게 정의되어 있기는 하지만 데이터 과학이 우리 곁에 존재한지는 꽤 되었습니다. 하지만 빅데이터 & AI 프로젝트의 실패율은 상당히 높습니다. 그 명성에도 불구하고, 회사의 수익에 기여를 하지 못하는 경우가 많습니다. 도대체 왜 그럴까요?

 

어떤 데이터 프로젝트가 성공하고 실패하는지를 분석해보았는데 결과는 명확했습니다. 가장 큰 성공은 단지 기술적 탁월성이 아니라 다른 요인들로 부터 나왔습니다. 비즈니스에 대한 깊은 이해, 이해결정자들과의 신뢰 형성, 결과를 더 쉽고 확실하게 언어로 설명하는 일, 관여되어 있는 수십가지 일로부터 참을성 있게 꾸준히 일해나가는 것등이었습니다.

 

하지만 많은 회사에서 데이터 사이언티스트들은 이러한 분야에 크게 관여되어 있지 않습니다.

2가지 이유가 있는데,

첫번째로 데이터 사이언티스트들은 비즈니스 문제를 해결하는 것보다, 말 그대로 데이터 더미에 묻혀있는 재미난 것들을 찾아내는 것이 더 흥미롭기 때문입니다. 뭐 당연하긴 하죠. 그게 더 쉽게 그들의 기술도 주변으로부터 인정받을 수 있고, 회사의 지저분한 현실을 다루는 것보다 더 재미나기 때문이니까요

두번째로는 회사의 관점인데, 데이터 사이언티스트들이 귀하다보니 이 사람들을 현실의 척박함에 던지기 보다는 좀 더 보호하려 한다는 겁니다. 하지만 그러면서 실제 회사의 가장 중요한 문제와 이 사람들이 멀어진다는 것에 문제가 있습니다. 거기다가 회사들도 데이터 과학자들과 일해본 경험이 없습니다. 이들을 어떻게 다루고 써야할지도 잘 모르는 거죠

 

그러면 제대로 데이터 사이언스를 하는 방법은 무엇일까요?

첫번째, 데이터 사이언티스트들에게 비즈니스 목표와 어떻게 진척을 측정할 것인지를 명확하게 하세요. 초기에 꽤 많은 힘이 들겠지만 비용 감소, 새로운 이익, 향상된 고객 만족, 위험 감소 등 같은 진짜 결과를 추구해야 합니다. 머신러닝같이 멋진 말에 조직이 제대로 준비가 되어 있지 않다는 것을 인정하고, 일상 운영을 제대로 돌린다던가, 데이터 퀼리티를 올린다던가, 고객에 대해 더 깊게 이해하기 위한 것같은 더 기본적인 것들을 우선해야 합니다.

 

두번째 데이터 사이언티스들을 지금 당장 매일매일 회사가 당면하고 있는 문제를 풀도록 시키세요. 물론 기술적 역량도 중요하지만, 그러한 비즈니스에 관심있고, 그런 일상일을 더 낫게 만드는데 관심있는 사람을 고용하는 것이 좋습니다. 그리고 데이터 사이언티스트들을 현실의 거칠고 힘든 일과 제대로 연결되게 만드세요. 절대로 데이터 사이언티스트 고립지대를 만들지 않도록 하세요. 대신에 그들이 지금 기여할 부서에 편입시키는 편이 낫습니다.

 

세번째로 데이터 사이언티스트들이 자신들의 일의 처음부터 끝까지의 책임을 지도록 하세요. 분석에 앞서서 되어야 하는 일들은 정말 중요합니다. 명확하게 정의된 문제 정의 없이 하는 일은, 단지 낚시같이 뭔가 걸리길 바라는 요행일 뿐입니다. 중요한 문제를 정리하고 우선순위를 정하는 일은 복잡하고, 혼란스러울 겁니다. 뭔가 보여주길 바라는 신입 데이터 사이언티스트들에게는 꽤 인내가 필요한 일이죠. 경력자가 더 잘 알긴 할겁니다. 어쨌거나 명확하게 정리된 문제 정의는 정치적 어려움도 뚫게 해주고, 때로는 심지어 데이터 사이언스 없이 더 쉽고 강력한 해결책을 제시하기도 합니다. 나는 내 가치기여의 절반이 그들의 진짜 문제가 무엇인지 이해하게 해주는데서 나오는 것을 경험했습니다.

 

인사이트와 알고리즘이 현실의 척박함을 뚫고 의미있게 되려면 분석 이 나오고 나서 어떻게 해 나가야하는지도 매우 중요합니다. 현실의 자잘한 정치적 이슈가 사실 가장 큰 걱정이 될것이고, 이런 것은 쥬니어 데이터 사이언티스트의 인내를 시험하는 일이죠. 경험많은 데이터 사이언티스트들은 이런 것들을 다루기 위한 정치를 좀 압니다. 그래서 일에 영향줄 수 있는 모든 것들과 좋은 연합을 하기 위해 많은 시간을 쓰곤 합니다.

마지막으로 데이터 사이언티스트들이 사내에 전체 사람들에게 교육을 수행하게 하세요. 모든 사람들이 그들의 작업에서 데이터 사이언스를 조금이라도 쓸 수 있다면 큰 도움이 될 것입니다. 하지만 대부분 기술들에 대해서는 잘 모르죠. 데이터 사이언티스트들이 이들을 가르치게 한다면 큰 편익이 생길겁니다. 동시에 데이터 사이언티스트들이 비즈니스를 배울 기회이기도 하구요

(후략)

 

7. WEEK1 / DAY 7