역자 : 윤지나
덕성여자대학교 일어일문학과와 한국외국어대학교 통번역대학원 한일과를 졸업했다. 현재 일본어 통번역대학원 입시반 강사 및 통번역사로, 그리고 출판 번역 에이전시 베네트랜스에서 전문 번역가로 활동 중이다. 200여 편의 일본 드라마와 영화를 번역했으며, 책 『초보 번역사들이 꼭 알아야 할 7가지』, 『처음부터 실패 없는 일본어 번역』을 썼다. 역서로는 『야근 없는 회사가 정답이다』, 『이것만 의식하면 건강해진다』, 『탄수화물이 인류를 멸망시킨다』, 『당신이 꼭 알아야 할 불필요한 병원 의료 100』, 『교양 없는 이야기』 등이 있다.
프롤로그 : 당신이 알고 있는 사실은 진실인가? 10
데이터, 어떻게 해석할 것인가 13ㅣ사실과 사실 사이에 대한 합리적 의심 16ㅣ인과관계의 유무가 왜 문제되는가 18ㅣ착각으로부터 자유로워지는 법 20
제1장
근거 없는 통설에 속지 않으려면 - 인과 추론의 본질
인과관계와 상관관계 27ㅣ가장 먼저 체크해야 할 세 가지 포인트 28ㅣ‘우연의 일치’는 아닌가? 29ㅣ‘제3의 변수’는 없는가? 32ㅣ‘역의 인과관계’는 존재하지 않는가? 34ㅣ‘반사실’로 증명하다 37ㅣ만약 타임머신이 있다면 38ㅣ현실과 이론의 차이 41ㅣ비교 가능하다는 것의 의미 44ㅣ상상력이 부족하면 시간과 돈을 낭비하게 된다 46
COLUMN 1 초콜릿 소비량이 증가하면 노벨상 수상자도 늘어난다? 50
제2장
건강검진을 받으면 오래 살 수 있다? - 제대로 된 비교는 랜덤이 진리
‘실험’을 통해 증명하다 57ㅣ왜 꼭 랜덤이어야 할까? 59ㅣ‘건강검진’과 ‘장수’ 사이에 인과관계는 있을까? 61ㅣ통계적으로 유의미하다는 것 62ㅣ충분히 검증된 정책인가 64
ㅣ막대한 세금이 투입된 정책의 함정 66ㅣ의료비 본인 부담률, 인상해도 괜찮을까 67ㅣ의료비와 건강 사이에는 인과관계가 없다 71
COLUMN 2 유리한 데이터의 취사선택을 방지하려면 73
제3장
남성 의사가 여성 의사보다 뛰어나다? - 우연히 일어난 상황을 이용해볼 수 있다면
주어진 데이터로 상황을 재현하다 79ㅣ‘의사의 성별’과 ‘환자의 사망률’ 사이에 인과관계는 있을까? 81ㅣ여성 의사가 담당하면 환자의 사망률이 낮아진다 82ㅣ출생 시 체중이 건강에 미치는 영향 84ㅣ다음 세대를 위하여 86
COLUMN 3 금연을 의무화하니 심장병 환자가 줄었다? 88
제4장
어린이집을 늘리면 여성 취업률이 올라갈까? - ‘트렌드’에 속지 마라
실험을 모방하다 95ㅣ단순 비교는 의미가 없다 96ㅣ어쩌다 우연히 97ㅣ물론 예외도 있다 98ㅣ대조군의 차이로 효과를 추정하는 법 101ㅣ이중차분법이 성립하기 위한 조건 104ㅣ규제 완화가 정답일까? 107ㅣ어린이집을 늘려도 어머니의 취업률은 상승하지 않는다 108ㅣ‘최저임금’과 ‘고용’ 사이에 인과관계는 있을까? 111
COLUMN 4 “일찍 자지 않으면 도깨비가 나온다”는 말은 교육적으로 옳을까? 114
제5장
텔레비전을 많이 보면 아이들 머리가 나빠진다? - 제3의 변수를 이용하라
‘이벤트’를 이용한다 119ㅣ조작 변수법이 성립하기 위한 두 가지 전제조건 121ㅣ‘텔레비전 시청’과 ‘성적’은 무슨 관계? 123ㅣ텔레비전을 보면 성적이 오를 수도 있다! 125ㅣ어머니의 학력이 높으면 아이의 건강 상태가 좋을까? 126ㅣ교육은 투자다 127
COLUMN 5 여성 임원을 늘리면 기업은 성장할까? 129
제6장
공부 잘하는 친구와 사귀면 성적이 오를까? - 갑자기 튀어나온 ‘점프’에 주목하라
49명과 50명의 차이 137ㅣ부모들의 착각 139ㅣ공부 잘하는 친구들에 둘러싸여도 성적은 오르지 않는다 141ㅣ‘고령자의 의료비 본인 부담률’과 ‘사망률’이 상관 있을까? 142ㅣ의료비 부담이 상승해도 사망률의 변화는 없다 143
COLUMN 6 잘못 해석한 데이터의 함정 147
제7장
명문대를 졸업하면 연봉이 높을까? - 비슷한 대상들끼리의 조합을 찾아라
‘짝’을 찾아낸다 153ㅣ여러 변수를 종합하여 균형을 맞춰라 155ㅣ성향 점수 매칭법이 성립하려면 158ㅣ출신 대학이 미래 수입에 미치는 효과 159ㅣ명문대에 가도 수입은 오르지 않는다 161
COLUMN 7 랜덤화 비교 시험의 실전판 ‘A/B 테스트’ 164
제8장
어떻게 해도 도저히 예측이 불가능하다면 - 기존 데이터를 다시 들여다보자
적합하지 않은 데이터밖에 없을 때는 169ㅣ최적선을 긋는 방법 170ㅣ교란 요인의 영향을 배제하려면 172
COLUMN 8 인과 추론은 어떻게 발전해왔나? 175
보론 ① 분석의 타당성과 한계에 대해 180
보론 ② 인과 추론의 5단계 184
에필로그 187
함께 읽을 책 194
참고 문헌 197
옮긴이의 글 207
매번 근거 없는 썰에 휘둘리고
데이터의 함정에 빠지는 당신에게
잘나가는 주얼리 브랜드의 홍보팀장인 당신. 1년 동안 공들인 끝에 초절정 인기 여배우 섭외에 성공, 매력적인 비주얼의 광고 화보를 완성했다. 이후 전국 지점마다 재고가 동나 주문 예약이 쇄도했고, 이에 고무된 당신은 올해 본부 실적 평가 A를 노리는 본부장 앞에서 틀림없이 이렇게 어필할 것이다. “올해 매출은 전년 동기 대비 30퍼센트 증가했습니다. 이건 다 (제가 기획한) 광고 덕분입니다!” 하지만 과연 그럴까? 광고를 내지 않았더라도 매출은 늘었을 수도 있지 않을까?
세상에는 머피의 법칙이나 징크스를 믿는 사람들이 적지 않다. 그러나 전혀 근거 없는 우연의 일치들이 진실로 둔갑하고 또 그것을 누군가에게 오도하거나 그 과정에서 피해가 발생한다면 분명 문제가 있다. ‘니컬러스 케이지의 연간 영화 출연 편수가 늘면 수영장 익사자 수도 같이 증가한다’거나, ‘‘지구온난화가 진행되면 해적의 수는 감소한다’ 혹은 ‘초콜릿 소비가 많은 나라는 노벨상 수상자도 많다’ 같은 이야기를 진지하게 믿는 사람은 없을 것이다. 그러나 이들 사례에서 보여지는 상관관계는 나름 수년간 수집한 정보를 취합한 결과다. 어쩌면 세상에는 알 수 없는 힘이 있고 그로 인해 인간의 머리로는 이해하기 힘든 일이 생긴 것일까? 하지만 이 모두는 그저 우연의 일치일 뿐이다.
통계학자 발터 크래머는 “많은 사람이 진실을 밝히기 위해서가 아니라 자신의 주장을 뒷받침하려는 목적으로 통계를 들먹인다”고 말했다. 이제 우리는 엄청난 속도로 방대한 정보에 접근할 수 있게 되었지만, 정작 데이터의 진짜 의미를 간파하지 못하면 세상을 이해할 수 없게 된 아이러니에 빠지게 된 셈이다.
우리가 아는 것은 ‘사실’인가, ‘진실’인가?
보이는 숫자에 절대 속지 마라
미야자키 하야오 감독의 애니메이션이 일본 TV에서 방영되면 미국의 주가가 떨어진다는 ‘지브리의 저주.’ 이 법칙은 《월 스트리트 저널》에서도 소개되며 화제가 된 바 있다. 이것 역시 우연의 일치가 여러 번 반복되면서 많은 사람들이 믿게 되어버린 ‘거짓 상관’ 즉 두 사실 사이에 상관관계가 있는 것처럼 보이지만 실은 아무런 관계가 아닌 경우다. 그런데 문제는 이러한 정보에 현혹되어 주식 등 실제 투자를 했다가 손해를 보는 사례들이 많다는 것이다. 하물며 개인적 판단을 떠나 이를 근거로 회사가 비용을 집행하거나 정부 정책이 결정되는 상황이라면 어떨까? 국가가 중요한 정책을 도입하거나 폐지할 때 인과관계를 제대로 검증하지 못해 나중에야 문제점을 깨닫게 된다면 개인의 투자 규모와는 비교도 안 될 정도의 어마어마한 손실을 입을 테고, 그 피해는 고스란히 우리의 몫으로 돌아가게 될 것이다. 두 사실의 관계가 우연의 일치인지 상관관계 또는 인과관계가 있는지 파악하는 ‘인과 추론’이 필요한 이유다. 그런 맥락에서 <원인과 결과의 경제학>의 두 저자, 세계은행(WB) 출신의 교육경제학자 나카무로 마키코와 UCLA 교수 쓰가와 유스케는 말한다. “돈과 시간을 정확히 인과관계에 근거한 곳에 쓰면 좋은 결과를 얻을 확률이 그만큼 높아진다”고. 즉 데이터 자체가 많기만 해서는 의미가 없다. 맥킨지 글로벌 인스티튜트의 보고서에 따르면, 2018년까지 빅데이터 심층 분석 기술을 보유한 49만명의 근로자와 데이터에 능통한 150만명의 매니저가 필요하다고 한다. 데이터가 만들어내는 숨겨진 맥락을 읽을 줄 아는 사람이 중요해진다는 의미다.
빅데이터 시대 최소한의 교양,
똑똑한 사람은 원인과 결과를 믿는다
이미 구글, 페이스북, 아마존 등이 빅데이터로 글로벌 시장의 흐름을 바꾸었고 이제 데이터 분석의 다양한 기법은 비즈니스와 정책 모델에 적극 활용되며 그 중요성을 증명하고 있다. 지난 미국 대선 당시 빅데이터가 도널드 트럼프의 승리를 예측해내며 판도를 뒤집는 전략으로서 진화하고 있는 것처럼 말이다.
빅데이터라는 용어가 등장한 지 수년이 흘렀어도, 일반인에게 여전히 어렵게만 느껴지는 것이 사실. 일본 출간 당시 2017 베스트 경제서 1위 및 아마존 재팬 경제경영 1위를 차지하며 대중들의 관심을 불러일으킨 <원인과 결과의 경제학>은 그래서 더 반갑다. 데이터 해석과 인과 추론의 기법을 흥미로운 사례와 함께 설명한 이 책은 통계나 프로그래밍을 잘 모르는 비전공자들도 누구나 쉽게 이해하도록 구성되었다. 저자들은 지금까지 직접 참여했던 혹은 유명 석학들의 연구 결과를 토대로 인과추론의 개념과 실제, 상관관계?인과관계에 대한 이해, 데이터 해석이 잘못됐을 때 발생할 수 있는 문제에 대해 쉽고 적절한 비유와 함께 풀어나간다. 정말 광고가 회사의 매출을 높였다고 해석해도 되는지, 건강 검진을 받으면 오래 살 수 있다고 믿어도 되는지, 여성 임원을 늘렸다고 해서 기업 가치가 올라갔다고 판단해도 되는지, 어떤 가정하에 연구들이 진행됐고 그 결과는 어땠으며 그리고 이를 수정해 기법을 발전시켜 나가는 과정은 매우 흥미롭다.
이 책은 원인과 결과의 관계를 제대로 이해하느냐에 따라 우리의 정보 해석 능력 나아가 세상에서 벌어지는 일을 바르게 판단하는 능력에 커다란 차이가 벌어짐을 역설한다. 감이나 경험치로 섣불리 판단하지 말고 인과 추론에 의거해 사고하는 접근이 개인에서 사회로 확대되어 국가적인 정책에도 좀 더 과학적인 접근이 가능해지기를 바란다고 말이다. 당연하다고 생각했던, 진실이라고 믿었던 패턴에 의문을 가지고 데이터가 말해주는 진실의 흐름을 꿰뚫어내 그 해석의 결과를 다시 미래를 위해 쓴다는 것. 이것이 유의미한 데이터가 우리에게 주는 진정한 가치일 것이다.