聰明不如鈍筆
총명불여둔필
assignment Currents

알파고 기력(碁力), 세계랭킹 4위?


kini's sportugese에서 엘로(Elo) 레이팅이라는 지표는 프로야구프로배구를 통해 소개해 드렸습니다. 그래도 개념은 한번 더 짚고 넘어가야겠죠? 헝가리 출신 물리학자 이름을 딴 이 랭킹 시스템은 기본적으로 1500점에서 시작해 이기면 점수를 더하고 지면 빼는 방식으로 순위를 정합니다. 강한 상대를 꺾으면 점수가 많이 오르고, 약한 상대에 패하면 많이 깎이는 방식입니다. 


이 레이팅은 또 과거 성적이 아니라 현재 맞대결에서 누가 더 강한지 알려주는 게 특징입니다. 엘로 레이팅을 처음 소개드렸을 때 썼던 케이스를 다시 소개해 드리면:


예를 들어 한국 여자 축구 대표팀(랭킹 18위·1833점)이 미국(1위·2180점)을 3-0으로 꺾었다면 레이팅은 1864점으로 31점 오릅니다. 반면 같은 점수차로 져도 1829점으로 4점밖에 깎이지 않습니다. 반면 가나(50위·1475점)를 1-0으로 꺾으면 2점이 오르는 데 그치지만 지면 33점이 떨어집니다. 여자 축구팀을 예로 든건 국제축구연맹(FIFA)에서 여자 랭킹만 엘로 레이팅을 토대로 계산하기 때문입니다.


마지막 문장 뒤에 덧붙이자면 "그래서 여자 랭킹이 남자 랭킹보다 더 정확하다는 평가를 받고 있습니다"하고 쓸 수 있습니다. 


사실 이 지표는 맞대결 결과만 있으면 분야를 막론하고 이 레이팅을 계산할 수 있습니다. 당연히 바둑이라고 아니 될 게 없습니다. 만약 알파고가 사람이었으면 세계랭킹은 몇 위라고 할 수 있을까요? 정답부터 말씀드리자면 4위입니다. 알파고하고 '구글 딥마인드 챌린지 매치'에서 붙은 이세돌 9단(33)이 5위로 오히려 도전자가 됐습니다.


이 기준을 만든 건 프랑스 출신 레미 쿨롱 교수(컴퓨터공학). 그는 먼저 전통적인 엘로 레이팅 계산법을 응용해 WHR(Whole-History Rating) 알고리즘이라는 랭킹 시스템을 만들었습니다. 그 다음 1980년부터 열린 5만3037 대국을 분석해 바둑 기사 1719명의 시기별 세계랭킹을 정했습니다. 이 결과는 매일 웹사이트 고레이팅스(www.goratings.org)에 올라옵니다. (엘로 레이팅을 비트는 건 그리 낯선 일은 아닙니다. 한국기원도 원리만 따와 자체 랭킹 시스템을 마련해두고 있습니다.)


이 사이트에 따르면 이 9단과 맞붙기 전 알파고의 레이팅은 3533점이었습니다. 이는 △커제(柯洁·19) 3621점 △박정환(23) 3569점 △이마야 유타(井山裕太·27) 3546점에 이어 세 번째로 높은 점수였습니다. 이 9단은 3521점이었습니다. 알파고하고 이 9단은 12점 차이가 납니다. 엘로 레이팅은 맞대결 상대 사이에 10점 차이가 나면 높은 쪽이 이길 확률이 51.4%라고 예측합니다. 구글에서 '짜릿한 승부' 아니 좀더 정확하게는 '짜릿한 승리'를 원했다면 이 9단이 가장 좋은 파트너였던 셈입니다.


저는 바둑 18급 인생이라 이게 51.4% vs 48.6% 사이를 오가는 승부였는지 알지 못합니다. 확실한 건 이번 다섯 차례 승부를 통해 특히 자기가 패한 4차전을 통해 알파고가 기력을 더욱 끌어올렸으리라는 점. 그리고 자연스레 이 레이팅도 더욱 상승세를 기를 확률도 더욱 높다는 점일 겁니다. 


물론 이게 공식적인 바둑 세계랭킹인 건 아닙니다. 아예 그런 건 존재하지 않습니다. 데미스 허사비스 구글 딥마인드 최고경영자(CEO) 등이 과학전문지 '네이처'에 게재한 논문을 살펴보면 이들도 이 랭킹을 참조했다는 사실을 알 수 있습니다. 이들은 논문에 "판후이(樊麾·35) 2단을 꺾을 때 알파고의 엘리오 레이팅을 3140점 정도로 평가할 수 있다”고 썼습니다.


당시 판 2단은 2904점이었습니다. 레이팅 230점 차이가 날 때는 승률 79%를 기대할 수 있습니다. 구글도 마찬가지 승률을 기대했습니다. 판 2단하고 붙었을 때와 비교하면 알파고는 이번 맞대결에 대비해 중앙처리장치(CPU)는 1202개에서 1920개로, 그래픽연산장치(GPU)는 176개에서 202개로 늘렸습니다. 그건 그만큼 소프트웨어가 발달했다는 뜻입니다.


체스에서는 보통 컴퓨터 성능을 두 배로 끌어올릴 때마다 레이팅이 50~70점 정도 올라간다고 보고 있습니다. 그러니까 결국 이 정도 하드웨어 업그레이드만으로 엘로 레이팅을 끌어올리는 것 자체가 불가능하다는 뜻입니다. 알파고는 판 2단과 붙은 뒤로 '강화학습(Reinforcement Learning)'이라는 소프트웨어 프로세스를 통해 기력을 끌어 올렸습니다. 이 능력을 감당하려면 저 정도 하드웨어는 필요하게 된 겁니다. 


사실 알파고가 다른 바둑 프로그램하고 제일 차별화되는 점이 이 소프트웨어 차이. 그냥 하드웨어만 가지고 될 일이었으면  진작 전 세계 컴퓨터를 다 연결해 붙었으면 그만일 겁니다. 그런데 그런 소리가 나오지 않았다는 게 바로 소프트웨어가 그만큼 중요하다는 뜻입니다.

댓글,

Currents | 카테고리 다른 글 더 보기