데이터 분석의 힘 (2020.02.06 ~ 02.12)

jeeyeonlim 2021. 8. 16. 23:38

2021. 8. 16. 23:38

728x90

이 책도 네이버 웹툰 인턴을 하면서 사수분께 선물 받았던 책이다.
읽으면서 의미있는 부분이나 느낀 점을 정리해보고 싶어서 정리하는 데 시간이 꽤나 걸렸다 ㅋㅋ

(원본) 내깃헙 https://github.com/jeeyeonLIM/Power_of_Data_Analysis

공부하고 싶었던 점

1. 데이터 분석 case study를 통해 업무에 도움될만한 분석 해보기
1. 앞서 이학배 교수님이 감수 및 추천의 말을 써 놓으셨는데, 그 중 "테크닉의 차원에서 설명하는 것이 아니라 빅데이터 시대를 준비하는 개념을 명확히 하고 그 의의를 깨닫게 하는 책이다." 라는 말이 인상깊었다.
2. 왜냐하면 대학원때 이론적인 내용, 즉 테크닉의 차원에서 "어떤 문제가 주어졌을 때 어떤 방법이 있고 각각의 방법은 어떤 알고리즘으로 이루어져 있으며 장 단점은 무엇이다." 식으로 공부해 왔고, 주제를 스스로 선정해서 풀어 나가야 할 때마다 너무 어려웠다.
3. 그도 그럴 것이, 어떤 문제를 알고 분석 목적을 선정하는 데 있어서 도메인 지식이 정말정말 중요하기 때문이다!
4. 이 책이 "왜, 어떤 방향을 갖고 분석해야 하는지?" 에 대한 나침반이 되면 좋겠다.
2. 인과관계 vs 상관관계.
- 이제껏 데이터로부터 두 변수간의 관계를 볼 때 '상관관계가 어느 정도 있어 보인다' 라고 해석했다.
- 인과관계는 X변수를 적절히 조정하여 종속변수 Y에 영향을 주는가를 확인하는 것이다.
- 실제 데이터 분석을 할때는 영향이 있을만한 X변수를 전부 생성해서(가능한 변수를 다 끌어다와서) Y변수와 상관이 있는 변수가 무엇인가를 확인해 왔다. 외생변수를 전부 모형에 반영해서 통제하려 했다.
- 정리하면, 인과관계, 상관관계 차이에 대한 이해는 확실히 하고 있다. 하지만 어떤 명확한 기준으로 두 관계가 구분지어질까? (시간의 흐름이 확실한 경우 인과관계에 힘이 실릴 수 있다. 즉 원인-> 결과라고 해석할 수 있는 근거가 될 수 있다. 하지만 이외에도 무언가가 더 있을까가 궁금했다.)

방법론	장점	단점
RCT	인과관계를 과학적으로 보여주고, 분석 기법과 결과가 투명하다.	비용 및 시간 ↑, 각 기관의 협력이 필요하다.
RDD	가정이 성립하면 경계선 부근에서 RCT와 유사한 설계이고 결과를 그래프로 나타내어 이해를 돕기 쉽다.	가정이 성립한다는 증거만을 보여줄 뿐 실제 성립 여부는 알 수 없고, 경계선 부근의 인과관계만을 볼 수 있다.
집군분석	가정이 성립하면 경계선 부근에서 RCT와 유사한 설계이고 결과를 그래프로 나타내어 이해를 돕기 쉽다.	가정이 성립한다는 증거만을 보여줄 뿐 실제 성립 여부는 알 수 없고, 경계선 부근의 인과관계만을 볼 수 있다.
패널분석	적용 가능성이 RDD, 집군보다 더 넓다. 처리군 전체에 대한 처리효과를 분석할 수 있다.(경계점에서만 X) 집단간에 원래 있던 차이를 문제삼지 않는다.	평행 트랜드 가정을 만족시켜야 하기 때문에 좀 더 까다롭다. 복수의 기간 동안의 데이터를 수집해야 한다.

외적타당성, 내적타당성 비교

방법론	외적타당성 범위	내적타당성
RCT(강제)	실험 대상자	매우높음
RCT(자발적)	자발적 참가자	매우 높음
RDD	경계선 부근 대상자	높다
집군분석	집적 대상	높다
패널분석	개인 집단 전체	약간 낮다

Chapter1. 정말 광고가 아이스크림 매출을 올렸을까

: 데이터의 상관관계는 인과관계가 아니다.

어느 기업에서는 사장이 바뀐 다음 해에 주가가 상승했다. 이것은 새로운 시장 개혁이 이뤄낸 성과다.
어느 학교가 새로운 교과과정을 도입했다. 그러자 학생들의 이해도, 성적이 전년도에 비해 향상되었다. 이것은 새로운 교과과정이 과거의 교과과정보다 우수하다
위와 같은 예시는 X(설명변수)가 Y(반응변수)에 영향을 미쳤다는 인과관계라고 볼 수 없다. 외생변수의 영향일 수 있기 때문이다.
비즈니스 현장, 정책 결정 과정 모두 의사 결정의 열쇠가 되는 것은 인과관계이지 상관관계가 아니다. 따라서 이를 잘 구분할 수 있는 것이 필요하다.
Bias 주의하자
인과관계는 데이터 관측 수를 늘리는 것 만으로 파악되지 않는다.

내생각

"생활속에서 생각보다 비약적인 해석을 많이 범할 수 있겠구나."

"사회과학 분야에서 잠복변수 V를 최대한 모아 그 영향을 배제하는 통계 분석 기법이 오랫동안 개발되어 왔지만, 한계가 지적되기 시작했다." 라는 말이 있었다. 현실 상황에서 반영할 수 없는 변수가 정말 많다.
좀 더 객관적이고 정확한 결과로 도달하기 위해 변수를 다양하게 만들어 보는 것이 현 시점에서 할 수 있는 일이니까 할 수 있는 것은 다 해보는 것 아닐까?

Chapter2. 오바마 캠프는 어떻게 후원금을 '더' 모았을까

: 최선의 데이터 분석법, RCT

RCT(Randomized Controlled Trial, 무작위 비교 시행) = A/B test
기본 가정 : 처리군 vs 대조군으로 나눴을 때, 처리군에게 적용한 처리가 없을 경우 비교집단의 평균 값과 대조군의 평균 값이 같아야 한다.
집단을 배정할 때 자기 선택 편향(Self-Selection Bias)이 있을 수 있다.
- 예를들면 네이버 웹툰에서 이벤트에 참여하면 쿠키2개 준다고 했을 때, 이벤트에 참가한 유저 vs 참가하지 않은 유저의 이후 리텐션을 비교한다고 가정하자.
- 이 이벤트에 참여할 대상은 네이버 웹툰의 라이트유저보다 헤비유저가 참여할 가능성이 높을 수 있다. 서비스에 대한 애착이 있기 때문인데, 그럴 경우 집단이 동등하게 나눠지지 않는다.는 의미이다.
집단을 나눈 후 가지고 있는 변수들의 기술통계를 통해서 처리군 vs 대조군의 평균 값을 계산해보고 동등한지 볼 수 있다.
- 이 때, t-test를 통해서 집단이 동등하다는 것을 보일 수 있다.
평균 개입효과 : 실험군에 특정 처리를 했을 떄, 대조군에 비해 값의 변화가 있는가를 나타낸다.
Ex. 오바마의 선거 후원금 웹사이트의 사진, 문구 조합을 테스트했을 때, 클릭률이 가장 높은 조합 사용하기RCT의 원칙

인과관계를 밝히기 위해서는 적절하게 집단을 만든다. 이때 반드시 비교집단을 만들어야 한다.
집단은 반드시 무작위, 우연에 의해 나뉘어야 한다.
각 집단에 표본 수는 충분해야 한다.

내생각

넷플릭스의 '블랙 미러: 밴더스내치' 처럼 우리는 실제로는 일어나지 않은 잠재적 결과를 알지 못한다. 이를 인과적 추론의 근본 문제라고 하는데, 그래서 관측 가능한 데이터로만 분석을 하는 것이다.

이제까지는 수업을 들으면서 대조군 vs 처리군을 나눠서 실험을 설계해야 한다고 생각했는데, 가장 이상적인 상황은 이렇고, 현실 상황에서는 이런 문제가 있으니 이런 해결책을 사용했던 것이구나 라는 스토리 라인 있는 공부를 하게 되었다.

이 부분에서 블랙 미러 처럼 잠재적 결과를 예상하기 위한 시뮬레이션을 한다면 좋을 것 같다.

Chapter3. 70세가 되자 병원을 많이 가기 시작했다

: 급격한 변화의 '경계선'을 찾는 RD 디자인

RD Design(Regression Discontinuity Design) = Quasi-Experiment(유사 실험) #불연속 #경계선RD 디자인 기본 가정

만약 경계선에서 X값이 변화하지 않는다면 Y 값도 점프하지 않는다. (즉 X값 중 경계선을 기준으로 Y값이 불연속적으로 변화하지 않는다.)
- 인과적 추론의 근본 문제와 같이 'X값이 변화하지 않는다면' 이라는 가정을 만족할 수가 없기 때문에 여러 가지 가능성을 쌓아 가야 한다.
경계선을 기준으로 X값 이외의 값이 변화하는지 확인해야 하며 X값만 변화해야 한다.
분석 대상이 X축 값을 자의적으로 조작할 수 없어야 한다. (Ex. 나이를 속이는 경우)

Ex. 연령 경계선을 이용한 RD 디자인

70세가 되는 시점에 의료비 부담이 30% -> 10%로 낮아지는 정책 때문에 70세 이상의 환자는 70세 미만의 환자에 비해 의료 서비스를 더 많이 이용할 것이다.
- 현상발견 : 실제로 70세 이전과 이후로 연령별 외래 환자 수가 불연속적이였다. 70세가 경계선이 되었던 것이다.
- 외생변수 효과1 나이가 건강에 영향을 준 것이다. -> 의학적으로 70세를 기점으로 병에 걸릴 확률이 급격히 높아질 가능성이 낮다. (이건 전체 국민들의 사망 나이의 plot을 그려보면 확인할 수 있을 것 같다.)
- 외생변수 효과2 취업률, 노동시간, 수입 등에 변화가 있었을 것이다. -> 연령별 취업률 그래프를 통해 확인 가능할 것이다.
- 경계선에서의 RCT : 70세 0개월인 사람은 실험군, 69세 11개월은 대조군으로 나눠 분석할 수 있다. (다른 변수는 동일한 집단이라고 판단 가능함)

Ex. 지리적 경계선을 이용한 RD 디자인

캘리포니아주 전력회사 경계선에 따라서 한 곳은 전력 가격을 높이자 소비량이 줄었다.
해석 : 전력 가격이 2배로 인상되었기 때문에 전력 소비량이 평균 13% 감소했다.

Chapter4. 규제 때문에 자동차가 무거워졌다고?

: 계단식 변화가 있는 곳엔 집군분석

집군분석(Bunching Analysis)
RD 디자인은 x축을 조작할 수 없지만, 여기선 x축을 조작할 수 있다. x축에 더 관심이 있다.

집군분석의 가정

X 가 계단식으로 변화하지 않는다면 Y 분포는 매끄러울 것이다.

Ex. 미국의 연비 규제

일본의 정책 중 자동차가 가벼우면 규제가 엄격하고 무거우면 규제가 완화되며 자동차 무게는 범위에 따라 달라진다. (계단식이다)
실제로 경계 부분에 있는 자동차 대수가 많았다.
- 외생변수 효과1 경계점 이외에서는 자동차의 분포가 매끈하다
- 외생변수 효과2 자동차 무게를 구속하는 다른 정책은 없다.
- 외생변수 효과3 연비 규제치에 따라 집적 위치가 변화한다.

Chapter5. 세금을 내리면 이민자가 늘어날까

: 시간의 흐름에 따른 패널 데이터 분석

패널 데이터 분석(Panel Data Method) = 이중차분법(Difference in Defferences method) = 고정효과추정법(Fixed Effect Estimation)
패널 데이터 : 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터 (Ex. 한 개인의 월간 전력 소비량을 월마다 관측)

패널 분석 가정

평행 트랜드 가정 (Parellel Trend Assumption) : 개입이 일어나지 않았다면 실험군과 처리군은 평행한 추이를 보인다. (즉 교호효과 상쇄, Common Shock )

개입 이전의 데이터를 모아 평행 트렌드 가정이 성립하는지 살펴봐야 한다.
데이터 분석자는 처리군에만 영향을 미친 다른 변수가 있는지 확인해야 한다.

Chapter6. 구글은 41가지의 파란색을 고민했다

: 데이터는 어떻게 전략이 되는가

데이터 분석 전문가는 전문 지식을 제공할 수는 있지만 현장의 목소리나 문제를 체감하지 못한다. 데이터 분석 전문가가 문제라고 생각한 것이 현장에서는 그다지 중요하지 않을 수 있다.
- 따라서, 현장에서 중요하다고 외치는 목소리를 듣자!

Chapter7. 그럼에도 데이터 분석은 불완전하다

: 불량 분석을 피하기 위한 방법

데이터 측정 문제, outlier ,Missing Value, Sample bias
내적 타당성(인과관계의 명확함)이 확보된 뒤 외적 타당성(일반화 가능성)을 확보하자

파급효과를 주의하자.

'데이터분석 > Case Study' 카테고리의 다른 글

Data Science Case Study (2020.01.06 ~01.12) (0)	2021.08.16

Study