등록 : 2019.11.19 14:50
수정 : 2019.11.19 15:48
[권오성의 세상을 바꾼 데이터]
상관관계는 인과관계가 아니다
미스 아메리카 나이와 살해 건수
한국영화 점유율과 영재학생수 등
허무맹랑한 상관관계의 함정
|
아보카도와 비트코인. 권오성 기자
|
비트코인의 가격을 미리 알 수 있다면? 아마 떼돈을 벌 수 있을 것이다. 여기 당신을 떼돈으로 인도해 줄 안내자가 등장했다. 바로 아보카도다!
이 놀라운 사실을 처음 발견한 것은 경제 매체 <블룸버그>의 트레이시 앨로웨이(Tracy Alloway) 에디터다. 그는 지난 10월 아보카도 가격이 비트코인 가격에 선행한다는 사실을 발견해 트위터에 올렸다. 멕시코시티의 아보카도 값이 오르면 비트코인도 따라 오르고, 아보카도 가격이 내리면 따라서 내린다는 것이다.
|
출처: 트레이시 앨로웨이(Tracy Alloway)의 트위터. 녹색 선은 아보카도 가격, 흰색선은 비트코인 시세다. https://twitter.com/tracyalloway/status/1187167482877865984 ※ 이미지를 누르면 크게 볼 수 있습니다.
|
정말 아보카도가 비트코인 가격을 견인하는가? 우리가 알 수 없는 어떤 미지의 힘에 의해 그럴 수도 있지만, 상식적으론 그렇지 않은 것 같다. 단지 우연히 둘의 추세가 같았을 뿐이다. 사실 이런 경우는 적지 않다. 비트코인-아보카도는 ‘상관관계를 인과관계로 착오하는’ 통계학의 전형적인 오류를 보여주는 최신 사례일 뿐이다.
상관관계(correlation)란 어떤 두 대상이 얼마나 연관되는지, 그 정도를 말하는 말이다. “상관관계가 높다”는 말은 둘이 서로 연관이 높다는 뜻이다. 단순한 예로 키와 몸무게가 있다. 키가 큰 사람은 보통 몸무게도 더 나간다. 이럴 때 “키와 몸무게 사이에 상관관계가 높다”고 하는 것이다.
키가 크면 몸무게가 더 나갈 가능성이 높은 것은 당연해 보인다. 다른 조건이 같다면 머리 하나 더 있는 사람이 작은 사람에 비해 무거운 것이 당연하다. 키가 크다는 것은 몸무게가 많이 나가는 것의 이유 가운데 하나가 될 수 있는 것이다(물론 키만 크고 빼빼 마른 사람도 있기 때문에 늘 사실인 것은 아니다). 이렇게 상관관계가 인과관계와 연관되는 경우가 많기 때문에, 우리는 상관관계만 드러나면 바로 인과관계가 있는 양 착각하기 쉬운 것이다.
이런 착오가 얼마나 광범위한지 이를 경계하고자 아무 이유 없이 나타나는 높은 상관관계를 다룬 책까지 있을 정도다. 미국 하버드 대학교 로스쿨 학생이었던 타일러 비겐(Tyler Vigen)이 지은 <가짜 상관관계>(Spurious Correlations)란 책이다. 같은 제목의 누리집도 있는데, 그곳에 소개된 몇 가지 재미있는 사례를 소개하면 다음과 같다.
|
출처: http://tylervigen.com/ ※ 이미지를 누르면 크게 볼 수 있습니다.
|
위 그래프는 1996년부터 2008년까지 미국의 수학 박사 학위를 받은 사람의 수와 미국 원자력 발전소에 저장된 우라늄의 양을 그린 것이다. 얼핏 보기에도 아보카도와 비트코인처럼 두 선이 매우 유사하게 움직이는 것을 알 수 있다.
상관관계가 얼마나 큰 지를 숫자로 표현하기 위해 고안된 것 중에 ‘상관계수’(correlation coefficient)란 것이 있다. 상관계수는 보통 ‘피어슨(Pearson) 상관계수’라는 것이 많이 쓰인다. 피어슨 상관계수는 두 대상이 얼마나 선형의 관계 (X-Y 그래프에 찍었을 때 얼마나 직선의 모양이 되는지)를 보여준다. 상관계수는 1부터 -1까지 사이 값을 갖는다. 1이면 두 변수가 완전히 직선을 그린다는 것으로 현실 세계에선 거의 관찰하기 어려운 일이다. -1이면 역시 완전한 직선이라는 뜻인데 방향이 다르다. 즉 1이면 하나가 증가할 때 다른 대상도 정확한 비율로 늘어나는 반면, -1은 하나가 증가할 때 다른 하나는 정확한 비율로 감소한다는 뜻이다.
보통 0.7 이상(또는 -0.7 이하)이면 상관관계가 높다는 뜻이다. 0.5는 보통, 0.3이면 약한 관계이며 0 근처면 둘 사이에 별로 선형의 그림이 그려지지 않는다는 뜻이다. 그런데 수학 박사 학위자와 미국 원자력 발전소에 저장된 우라늄의 양은 무려 0.9523의 상관관계를 갖고 있는 것으로 나타난다.
다른 예들을 보자. 미스 아메리카의 나이와 뜨거운 증기나 물건을 이용한 살인사건의 숫자다. 상관계수는 0.8701이다.
|
출처: http://tylervigen.com/ ※ 이미지를 누르면 크게 볼 수 있습니다.
|
다음은 수영장에 빠져 익사한 사람의 수와 니컬러스 케이지가 출연한 영화의 숫자다. 상관계수 0.6660이다.
|
출처: http://tylervigen.com/ ※ 이미지를 누르면 크게 볼 수 있습니다.
|
미 전국 철자법 대회(Spelling Bee)의 결승 단어의 글자수와 독거미에 의해 죽은 사람의 숫자다. 허무맹랑해 보이는 관계인데 상관계수가 0.8057에 이른다.
|
출처: http://tylervigen.com/ ※ 이미지를 누르면 크게 볼 수 있습니다.
|
우리나라에는 이런 희한한 상관관계가 없을까? 몇 가지 통계를 가지고 찾아 보았다. 당연히 적지 않다. 우선 치킨집 숫자와 공무원의 인건비다. 상관계수가 무려 0.9821에 달한다. 공무원 월급이 늘어나면 그만큼 치킨을 많이 사먹기 때문일까? 그것 아닐 것 같다.
|
그래픽 권오성 기자 ※ 이미지를 누르면 크게 볼 수 있습니다.
|
한국영화의 극장가 점유율과 영재의 숫자다. 우리 영화의 흥망과 영재의 증감에는 대체 무슨 관계가 있는 것일까?
|
그래픽 권오성 기자 ※ 이미지를 누르면 크게 볼 수 있습니다.
|
국제유가와 출장 음식 서비스업은 서로 반대되는 강한 음의 관계가 있는 것으로 나타났다. 상관계수는 -0.8153이다. 출장 뷔페를 열심히 부르면 유가가 떨어지게 될까?
|
그래픽 권오성 기자 ※ 이미지를 누르면 크게 볼 수 있습니다.
|
치즈 소비와 서울 지역의 혼인 수도 서로 반대 방향으로 움직이는 것으로 나타났다. 결혼률을 올리려면 치즈를 덜 먹어야 겠다.
[%%IMAGE11%%]
이런 예들을 보면 상관관계란 얼마나 아슬아슬한 것인지 와닿는다. 한편 워낙 황당해서 누가 이런 데에 속을까 싶기도 하다. 아보카도 가격을 믿고 비트코인에 투자하는 사람이 있을까. 하지만 사실 우리는 흔하게 상관관계와 인과관계를 혼동하곤 한다. ‘진보가 정권을 잡으면 경제 성장이 저하된다’거나 ‘동성애가 에이즈를 전파한다’거나 ‘우리 마케팅 덕분에 판매가 40% 늘었습니다’ 같은 이야기들이 모두 이런 같은 오류에 기인하고 있다. 자신이 믿고 싶은 대로 믿는 우리의 습성이 한몫하고 있음은 물론이다.
권오성 기자 sage5th@hani.co.kr
광고
기사공유하기