세계은행 홈페이지에 가면 전 세계 264개 국가와 지역 국내총생산(GDP) 데이터를 내려받을 수 있습니다. 오늘(2020년 2월 27일) 기준으로 이 데이터에는 1960년부터 2018년까지 총 1만2092개 자료가 들어 있습니다.
이 1만2092개 자료에서 첫 자리 숫자만 가져 오면 자연수 1~9는 어떤 비율로 분포할까요? 첫 자리만 가져온다는 건 12092 가운데 맨 앞에 있는 1만 가져온다는 뜻입니다.
언뜻 생각하면 각 숫자가 11.1%(≒1/9)씩 분포할 것 같은 느낌이 듭니다. 그런데 정말 그렇다면 이 글을 쓰고 있지 않겠지요?
실제로 각 숫자가 첫 자리에 몇 번 나오는지 세어서 비율을 따져 보면 아래처럼 나옵니다.
이상합니다. 마치 일부러 짠 것처럼 1이 제일 많이 나오고 그 뒤로 갈수록 숫자가 줄어듭니다.
GDP에서만 우연히 이런 결과가 나온 게 아닙니다.
제너럴일레트로닉스(GE)에서 일하던 물리학자 프랭크 벤포드(1883~1948)는 강(江) 유역 넓이, 물리학 상수, 야구 기록 등 서로 아무 관계가 없는 숫자 2만 여개를 분석해 이런 현상이 나타는 사실을 확인했습니다.
그러고 나서 각 자연수(d)가 첫 숫자로 등장하는 비율을 계산할 수 있는 공식을 제시했습니다.
예컨대 첫 숫자로 1이 나올 확률은 $\log_{10}(1+\frac{1}{1})=log_{10}(2)=$ .301029996가 됩니다. 약 30.1%인 셈입니다.
벤포드는 이 결과를 논문 'The Law of Anomalous Numbers'(이례적인 숫자들의 법칙)를 통해 1938년 발표했습니다.
그러면서 이 현상을 나타내는 '벤포드(의) 법칙'이라는 표현이 생겼습니다.
위에 있는 GDP 첫 숫자 분포를 이 공식 계산 결과(벤포드 확률)와 비교하면 이렇게 나옵니다.
이 벤포드 법칙은 우리 직관하고는 아주 어긋합니다. 그런데 우리가 실제로 숫자를 쓰는 방법을 떠올려 보면 아주 이상한 일도 아닙니다.
원래 1000원짜리 물건이 있었는데 해마다 10%씩 가격을 올린다고 가정해 보겠습니다.
그러면 이 물건 가격은 (반올림을 하면) 1100원 → 1210원 → 1331원 → 1464원 → 1611원 → 1772원 → 1949원 → 2144원 순서로 올라갑니다. 1에서 2로 앞자리가 바뀌는 데 8년이 걸렸습니다.
2144원 다음에는 2358원 → 2594원 → 2853원 → 3138원으로 가격이 오릅니다. 4년 뒤에 앞자리가 바뀐 겁니다.
계속 해보면 3138원 → 3452원 → 3797원 → 4177원으로 3년이 지나면 앞자리가 바뀌고, 다시 4177원 → 4595원 → 5054원으로 이번에는 2년 뒤에 앞자리가 달라집니다.
이번에는 1000원짜리 물건을 해마다 20%씩 가격을 올려볼까요?
그러면 1000원 → 1200원 → 1440원 → 1827원 → 2074원(4년) → 2488원 → 2986원 → 3583원(3년) → 4300원(1년) → 5160원(1년) → 6192원(1년) → 7430원(1년) → 8916원(1년) → 1만699원이 나옵니다.
9는 아예 건너뛰고 다시 1니 나옵니다. 1만699원 다음에는 4년 - 2년 - 2년 - 1년 - 1년 - 1년 - 0년 - 1년이 지날 때마다 앞자리가 바뀝니다.
이렇게 곱하기가 등장하면 앞자리 1이 나오는 일이 아주 많습니다. (가격을 10% 올리는 건 1.1, 20% 올리는 건 1.2를 곱하는 작업입니다.)
재미있는 건 이 원래 숫자에 다시 다른 숫자를 곱해도 벤포드 법칙을 따른다는 사실입니다.
2000원부터 시작해 10%씩 25년 동안 가격을 올리면 1부터 9까지가 8번 - 4번 - 3번 - 2번 - 2번 - 2번 - 1번 - 1번 - 1번씩 등장합니다.
이 사실이 중요한 건 세상에 숫자로 사기를 치는 인간이 많기 때문입니다.
이론상 회계 장부에 나오는 숫자도 벤포드 법칙을 따라야 합니다.
그래서 어떤 회사 회계 장부에 등장한 숫자를 조사한 결과 벤포드 법칙과 크게 어긋난 분포로 나타났다면 장부 조작을 의심해 볼 수 있습니다.
회계 담당자도 바보가 아니니니까 벤포드 법칙에 맞아 떨어지도록 첫 번째 숫자를 조작할 수도 있습니다.
그러나 이 숫자에 다시 다른 숫자를 곱했을 때도 계속 이 법칙을 따르도록 장부를 조작하는 건 절대 쉬운 일이 아닙니다.
실제로 그리스 정부는 유로존에 가입하려고 재정 적자 규모를 숨겼다가 = 장부를 조작했다가 이 벤포드 법칙 때문에 통계 조작 사실이 드러나기도 했습니다.
소셜네트워크서비스(SNS) 친구 숫자도 벤포드 법칙을 따릅니다.
제니퍼 골벡 미국 메릴랜드대 교수는 2015년 트위터 계정 2만988개를 대상으로 친구의 친구 숫자를 조사했습니다.
그 결과 계정 89.7%(1만2226개)가 벤포드 법칙과 피어슨 상관계수 0.9 이상을 기록하는 친구의 친구 숫자를 나타냈습니다.
이 값은 완전히 다를 때가 0이고, 완전히 같을 때가 1입니다. 처음에 본 국가별 GDP 자료를 가지고 계산하면 0.9999가 나옵니다.
그런데 트위터 계정 가운데 170개(0.8%)는 이 상관계수가 0.5 아래였습니다.
의아해서 확인해 봤더니 이 계정 가운데 2개를 빼고 나머지는 소위 '트위터봇'이었습니다.
여기서 놓치지 말아야 할 건 어떤 숫자가 벤포드 법칙을 따르지 않는다고 곧바로 조작은 아니라는 점입니다.
골벡 교수도 직접 확인 과정을 거친 다음 결론을 내렸습니다.
벤포드 법칙을 따르지 않는다는 건 조작을 의심할 만한 필요조건일 뿐 충분조건은 아닌 겁니다.
그리고 예외도 엄청 많습니다.
예를 들어 사람 키를 m 단위로 잔뜩 모으면 당연히 1이 제일 많겠지만 야드파운드법으로 모으면 5 또는 6이 제일 많을 겁니다. (참고로 170cm가 5.7인치입니다.)
100점 만점으로 치르는 시험 성적도 역시 벤포드 법칙과는 거리가 멉니다.
그러니 이 숫자 모음에 어떤 제약이 있는지도 살펴야 조작 여부를 판가름할 수 있습니다.
아, 하나 더.
사실 벤포드에 앞서 미국 천문학자 사이먼 뉴컴(1835~1909)도 상용로그값을 담고 있는 책 앞부분이 훨씬 낡아 있는 데서 힌트를 얻어 1881년 같은 내용을 발표했습니다.
그러나 뉴컴은 수학적인 분석을 생략했기 때문에 별로 주목을 받지 못했습니다.
이렇게 '어느 과학상의 발명도 그 원래의 발견지의 이름을 따라서 명명되지 않는다'(위키피디아)는 징크스를 '스티글러 (명명)법칙'이라고 부릅니다.
그러니까 벤포드 법칙도 사실 스티글러 법칙을 따르고 있습니다.
아, 그리고 또 하나 더.
아래 있는 파일을 열어 보시면 마이크로소프트(MS) 엑셀로 벤포드 법칙을 검증해 보실 수 있습니다.
이 파일은 1부터 시작해 1.1~2를 총 100번씩 곱한 결과(총 1000개)를 가지고 어떤 숫자가 앞에 나오는지 세어 본 결과를 담고 있습니다.
댓글,