일단 2018년 5월 7일 현재 정답은 14.4%입니다.
한 고등학생이 kini's Sportugese 페이스북에 다음 같은 메시지를 보냈습니다.
안녕하세요? 블로그 보고 메시지를 보내봅니다.
학교에서 하는 수학 과제연구로 피타고라스 승률을 구해보려고 하는데 너무 막연해서요ㅜㅜ
총 득점과 실점 기록은 어디서 구하셨나요?
R스퀘어값은 어떤 식으로 구하신건가요?
과제연구의 주제가 롯데 자이언츠가 5위를 할 확률을 구하는 것인데 이것은 어떻게 접근하는 것이 좋을까요?
아예 방향을 틀어서 조언해주셔도 괜찮습니당 ㅠㅠ
추측건대 이 블로그 포스트를 읽고 메시지를 주신 것 같습니다.
어떻게 14.4%가 나왔는지 질문 순서대로 한번 차근차근 따라가 보겠습니다. 저도 천천히 가겠지만 여러분도 잘 따라오셔야 합니다.
먼저 피타고라스 승률은 (야구에서) 한 팀 득점과 실점을 가지고 계산하는 '기대 승률'입니다.
이 피타고라스 승률은 기본적으로 이런 공식을 통해 계산합니다.
어디선가 많이 보신 모양처럼 생겼죠?
네, 이 공식이 직각삼각형 세 변 길이 사이 관계를 나타낸 '피타고라스 공식'(a²+b²=c²)과 비슷하게 생겼다고 해서 피타고라스 승률입니다.
(1982년 이 공식이 처음 세상에 등장한 뒤 지수에 얼마를 놓는 게 정확한지 많은 연구를 진행한 상태. 이에 대해 궁금하신 분은 이 블로그 포스트나 이 기사를 참조하셔도 좋습니다.)
한국야구위원회(KBO)에 따르면 롯데는 이날 현재까지 175점을 올리는 동안 192점을 내줬습니다.
따라서 $\frac{175^2}{(175^2+192^2)}$로 피타고라스 승률을 계산할 수 있고 결과는 약 .454가 나옵니다.
현실에서 롯데는 이날 현재 15승 19패로 승률 .441을 기록 중에 있습니다. 큰 차이가 나지 않습니다. 결국 이 정도가 올해 롯데 전력이라고 할 수 있는 것.
하지만 공은 둥글고 경기가 또 시즌이 끝날 때까지는 끝난 게 아닙니다. 롯데가 현재 8위인 성적을 5위까지 끌어올릴 확률은 얼마나 될까요?
(흔히 R스퀘어 또는 R²라고 쓰는 결정계수는 선형 회귀 모형이 데이터에 얼마나 적합한지 측정하는 척도입니다.
좀 더 풀어 쓰면 변수 A가 변할 때 또 다른 변수 B가 어떻게 변하는지 얼마나 설명하는지 알려주는 구실을 합니다.
어려우시죠? 한마디로 포스트에서는 이에 대해 이야기할 필요가 별로 없다는 뜻입니다.)
이런 문제에서 해답을 찾아보는 방법 가운데 하나가 '이항분포'를 이용하는 겁니다. 낱말이 풍기는 느낌부터 어렵습니다.
이항분포는 도대체 무슨 뜻일까요?
먼저 이항(二項)을 낱말 뜻 그대로 해석하면 항이 두 개라는 뜻. 항은 뭘까요?
위키피디아는 "항은 계수와 변수, 그리고 변수가 거듭제곱된 지수로 이루어진다"고 설명합니다. 5, 2x, 3xy² 같은 게 바로 항입니다.
이항분포에 따라 확률을 계산할 때 변수는 세 가지. n, k 그리고 p입니다. n은 시행횟수, k는 성공(해야 하는) 횟수, p는 성공률입니다.
프로야구 각 팀은 한 시즌에 144경기를 치릅니다. 롯데는 이미 34경기를 치렀으니까 110경기가 남았습니다.
그러면 (남은) 시행횟수는 110번이 됩니다. 이게 n입니다.
프로야구가 10개 구단 체제가 된 2015년부터 5위 팀은 평균 71승을 거뒀습니다.
15승을 기록하고 있는 롯데가 이만큼 이기려면 56번 더 이겨야 합니다.
그러면 k는 뭐가 될까요? 네, 그렇습니다. 56입니다.
p에는 어떤 게 와야 하는지 아시겠죠?
맞습니다. 우리에게 성공은 롯데가 이기는 것. 그러니까 롯데 승률이 p가 됩니다.
우리는 이미 피타고라스 승률을 통해 p를 .454로 정한 상태입니다.
따라서 우리는 n=110, p=.454인 이항분포를 따라 k가 56 이상일 확률을 계산하면 됩니다.
딱 5위를 목표로 하는 게 아니라 '가을야구' 진출=5위 이상으로 올라갈 확률을 계산하는 거니까요.
그런데 분명 이항분포는 항이 두 개라고 했는데 여기는 변수 그러니까 항이 세 개 등장했습니다.
이상합니다. 왜 이런 일이 생겼을까요? 무엇 하나를 없애야 할까요?
이를 알아보려면 '분포'가 뭔지 알아보는 게 도움이 됩니다.
통계에서 말하는 분포도 무엇인가 퍼져 있다는 뜻인 건 맞습니다. 퍼져 있는 건 바로 '확률'입니다.
주사위 두 개(A, B)를 던져 합을 구한다고 해봅시다.
이때 합이 2가 나오는 경우는 주사위 A, B 모두 1이 나오는 경우뿐입니다.
주사위에는 1부터 6까지 써 있고, 두 개를 던졌을 때는 총 36가지(=6×6) 경우가 나오니까 주사위 두 개를 던졌을 때 합이 2가 나올 확률은 $\frac{1}{36}$≒2.8%가 됩니다.
같은 방식으로 3부터 12까지 계산하면 아래 그림 같은 결과를 얻을 수 있습니다.
확률이 이리 튀었다가 저리 튀는 게 아니라 일정한 패턴을 그립니다.
이렇게 확률값이 일정한 패턴을 나타내는 걸 두고 '확률분포'라고 부릅니다. 이항분포에서 분포가 바로 이 확률분포입니다.
실제로 이항분포를 한번 그러보겠습니다.
아래는 동전을 100번 던졌을 때 앞면이 k번 나올 확률을 나타낸 그림입니다.
이 그래프에서는 x축에 해당하는 숫자가 각각 k입니다.
그럼 n은 뭐였을까요? 네, 100이었습니다. 동전을 100번 던졌으니까요.
p는? 맞습니다. 0.5였습니다. 동전을 던지면 앞면 아니면 뒷면이 나오기 때문입니다.
그러니까 이항분포는 이런 걸 우리에게 알려줍니다.
만약 이항분포를 모른다면 동전을 100번 던졌을 때 앞면은 50번(=100×0.5)이 나온다고 답을 할 수밖에 없습니다.
실제로는 당연히 그럴 리가 없습니다. 50번이 나올 때도 있지만 대부분은 다른 숫자가 나올 겁니다.
그래도 50번 언저리로 결과가 나올 확률이 제일 높습니다.
이항분포는 이렇게 '동전을 100번 던졌을 때 앞면이 50번 나올 확률은 얼마인가' 같은 질문에 대한 대답을 품고 있습니다.
동전을 가지고 아직 답을 찾지 못했으니 주사위로 돌아가보겠습니다.
주사위를 두 개를 던졌을 때 합이 3이 나와야 성공인 게임이 있다고 해보겠습니다. 이게 가능한 경우는 (A 1, B 2), (A 2, B 1) 두 가지입니다.
그러면 $\frac{2}{36} = \frac{1}{18}$이 답입니다.
이 결과는 이렇게 계산할 수 있습니다.
$\frac{2}{36}^1$× $ (1-\frac{2}{36})^{1-1}$ = $\frac{1}{18}$
성공할 확률이 $\frac{2}{36}$일 때 실패할 확률은 ($1- \frac{2}{36}$)이 됩니다. 1=100%니까요.
또 전체 시도 횟수(n·이번에는 1)에서 성공한 횟수(k·이번에도 1)를 빼면 실패한 횟수(n-k)가 나옵니다.
이번에는 시도 자체가 한 번이라 공식을 쓰는 게 불필요해 보이기 하지만 이런 식으로 성공 확률을 계산할 수 있다는 사실 자체는 알 수 있습니다.
이를 일반화하면 이때 확률은 $p^k×(1-p)^{n-k}$처럼 쓸 수 있습니다.
어떤 사건이 동시에 일어나면 곱하기 = 같은 사건을 반복하면 지수로 나타낸다는 사실만 알면 어렵지 않습니다. (그래야 할 텐데요 ㅡ,.ㅡ)
곱하기 기호는 생략할 수 있으니 실제로는 $p^k(1-p)^{n-k}$로 쓰는 일이 더 많습니다.
그러면 주사를 세 번 던져서 처음과 두 번째는 실패하고 세 번째에만 합이 3인 짝이 나올 확률을 구하는 공식은 어떻께 쓸까요?
네, 어렵지 않습니다. 실패 - 실패 - 성공 공식을 차례대로 쓰고 모두 곱하면 됩니다.
(노파심에 말씀드리면 ·도 곱하기 기호입니다.)
$\frac{2}{36}^0$× $ \frac{34}{36}^{1}$ · $\frac{2}{36}^0$× $\frac{34}{36}^1$ · $\frac{2}{36}^1$× $\frac{34}{36}^{0}$ = $\frac{17}{18}$ · $\frac{17}{18}$ · $\frac{1}{18}$ ≒ 5.0%
지금 이 문제는 순서가 중요했습니다. 처음과 두 번째는 실패, 마지막에만 성공이라고 정했으니까요.
순서가 중요하지 않을 때는 어떨까요? 그러니까 주사위 두 개를 총 세 번 던졌을 때 언제든 합이 3인 짝이 한 번 나올 확률 말입니다.
어렵지 않습니다. 성공을 O, 실패를 X라고 하면 OXX, XOX, XXO인 경우를 찾으면 됩니다.
이때 세 경우 모두 위에서 계산한 결과와 같습니다. 계산 과정에 전부 다 곱하기만 들어 있으니까 (1×2×3과 3×2×1이 6으로 똑같은 것처럼) 순서를 바꿔도 값이 달라지지 않습니다.
그래서 그냥 3을 곱하면 됩니다. 실제 계산 결과는 약 14.9%입니다.
순서에 관계없이 세 번 중 두 번 성공은 어떨까요? 네 번 중 두 번은?
이렇게 순서에 관계없이 성공하는 걸 수학적으로 정리한 개념이 바로 조합(Combination)입니다.
n번 중 k번 성공하는 경우는 $\ _n C_k $라고 쓰고 $\frac{n!}{k!(n-k)!}$로 계산합니다.
!는 해당 숫자에서부터 1까지 전부 곱하라는 뜻입니다.
세 번 중 한 번 성공하는 건 $\ _3 C_1 $로 쓸 수 있습니다. $\frac{3!}{1!(3-1)!}$를 계산하면 되고, 그 결과는 $\frac{3×2×1}{1×(2×1)}$로 3이 됩니다. 앞에서 3을 곱한 이유가 여기 숨어 있습니다.
이렇게 순서를 따지지 않고 계산한 경우의 수를 통계에서는 '이항계수'라고 부릅니다. 그래서 이렇게 계산한 확률이 분포를 '이항분포'라고 부르는 겁니다.
지금까지 논의한 걸 토대로 공식을 다시 일반화하면 $\ _n C_k · p^k(1-p)^{n-k}$로 쓸 수 있습니다.
실제로는 $\ _n C_k$와 똑같은 뜻인 $\binom{n}{k}$를 써서 $\binom{n}{k} p^k(1-p)^{n-k}$로 표기하는 걸 더 쉽게 찾아볼 수 있습니다.
이런 공식을 유식한 말로는 '확률 질량 함수'라고 부릅니다.
자, 이제 다시 롯데 이야기를 할 차례입니다.
공식 유도까지 끝났으니 이미 위에서 정한 숫자 n(=110), p(=.454), k(=56)만 아래처럼 집어 넣으면 됩니다.
$\binom{110}{56} × .454^{56} × (1-.454)^{110-56}$
이걸 계산하면 약 3.9%가 나옵니다.
맨 처음에는 14.4%라고 해놓고 이렇게 적은 숫자가 나온 건 왜일까요?
이 숫자는 롯데가 딱 56승을 기록할 확률입니다.
진짜로 우리가 알고 싶은 건 56승 이상을 기록할 확률. 이를 구하려면 k에 56~110을 각각 넣고 모두 더하면 됩니다.
아래 그림에서 점선 오른쪽 영역이 바로 여기 해당합니다.
이걸 일일이 계산하실 필요는 없습니다. 우리에겐 마이크로소프트(MS) 엑셀이라는 좋은 친구가 있으니까요.
엑셀에서 이항분포를 구하는 함수는 'BINOM.DIST'입니다. (버전에 따라 온점 없이 BINOMDIST일 때도 있습니다.)
엑셀에 '=BINOM.DIST(56, 110, .454, FALSE)'라고 입력하시면 (숫자가 어디서 나왔는지 아시죠?) .038838402이 나옵니다. 위에서 말씀 드린 3.9%가 여기서 나온 것.
맨 끝에 나온 FALSE는 '누적 분포를 구하지 않겠다'는 뜻입니다.
k가 0~56일 때, 그러니까 롯데가 남은 경기에서 0~56승 거둘 확률을 구하는 게 아니라 그냥 56승을 거둘 확률만 구하겠다는 것.
그러면 롯데가 0~55승을 거둘 확률은 '=BINOM.DIST(55, 110, .454, TRUE)'로 쓰면 되겠죠? 이번에는 .856447이 결과로 나옵니다.
우리가 알고 싶은 건 거꾸로 56~110승을 거둘 확률입니다. 이걸 구하려면?
네, 1(=100%)에서 이 숫자를 빼면 됩니다. 그러면 .143553 ≒ 14.4%가 나옵니다.
(페이스북에 친구 공개로 쓴 관련 포스트를 먼저 보신 분은 '3.4%라고 하지 않았어?'라고 의문을 품으실 겁니다. 이건 지난해 5위 SK가 기록한 75승을 기준으로 했기 때문입니다.)
이항분포를 활용하면 이렇게 팀이 특정 성적 이상을 기록할 확률을 예측할 수 있습니다.
저는 지난해 8월 로스엔젤레스(LA) 다저스가 메이저리그 역대 최고 성적을 거둘 확률을 계산한 적이 있습니다.
이를 조금만 더 활용하면 오늘 경기가 얼마나 중요한지 알려주는 '드라마 인덱스'도 만들 수 있습니다.
그러니까 수학 시간에 '도대체 이런 걸 배워서 어디에 써먹지?' 싶은 생각이 드셨겠지만 사실 이렇게 다 쓸 데가 있던 겁니다.
아무리 생각해도 이건 야구가 아니라 수학 이야기라 kini's Sportugese가 아니라 여기 남겨 놓습니다.
댓글,