聰明不如鈍筆
총명불여둔필
assignment Common Sense

구글이 e북을 완성하는 기발한 아이디어 reCaptcha


폴리 이모는 톰 소여에게 울타리를 페인트로 칠하는 벌을 줍니다.


왼쪽으로 저만치, 오른쪽으로도 저만치 뻗어 있는 울타리를 본 톰 소여는 막막했습니다. 하릴없이 페인트를 칠하고 있는데 친구가 지나다가 말합니다.


"톰, 뭐하니?"


여기서 사실대로 말하면 톰 소여가 아니겠죠. 톰 소여는 "페인트칠 놀이를 하고 있다"고 답합니다. 


그리고는 정말 재미있게 페인트를 칠하는 시늉을 합니다죠. 친구는 자기도 놀이에 끼워달라고 말합니다. 선뜻 자기 장난감도 내밀면서 말입니다.


톰 소여는 마지못해 양보하는 것처럼 친구에게 솔을 건넵니다. 


그러자 점점 '페인트칠 놀이'를 하고 싶어하는 친구들이 늘어납니다. 나중에는 이 놀이에 끼려고 돈까지 내는 친구가 나옵니다. 울타리는 순식간에 새 페인트로 갈아입습니다.


21세기에도 이렇게 '페인트칠 놀이'를 우리에게 부추기는 회사가 있습니다. 구글입니다. 페인트칠은 바로 '리캡차(reCaptcha)'.


리캡차는 이렇게 생겼습니다. 인터넷에서 다들 보신 적이 있을 겁니다.



구글은 홈페이지에서 리캡차를 '책을 디지털화하는 걸 돕는 스팸 방지 도구(Anti-Bot Service that helps digitize books)'라고 소개합니다.


이게 무슨 소리일까요? 스팸 방지라는 건 ‘사람 증명'을 하라는 겁니다.


컴퓨터 프로그램(봇)을 통해 스팸 메시지를 남기거나 암표상들이 표를 대량으로 주문하는 걸 막을 수 있도록 입력자가 사람이라는 걸 증명하라는 겁니다. 이건 무슨 뜻인지 아실 겁니다.


그렇다면 '책을 디지털화 한다'는 건 무슨 뜻일까요?


구글은 전 세계 도서관에 있는 모든 책을 스캔해 e북으로 만들겠다며 '구글 북스 프로젝트'를 진행하고 있습니다.


그런데 옛날 책은 인쇄 상태가 좋지 못한 경우가 많아서 컴퓨터가 잘 읽지 못할 때가 많습니다. 아래 그림처럼 말입니다.



50년이 넘은 책은 컴퓨터가 30% 정도를 제대로 못 읽는다고 합니다. 이걸 사람을 고용해 일일이 바로 잡으려면 천문학적 비용을 써야 할 겁니다.


그래서 리캡차 이전 버전인 '캡차' 개발에 참여했던 루이스 폰 안이 아이디어를 냈습니다.


'어차피 하루에 2억 명이 사람 인증을 하려고 캡차를 쓰는데 이걸 활용하면 어떨까?'


위 그림에서 보시는 것처럼 리캡차는 단어를 두 개 보여줍니다. 하나는 컴퓨터가 이미 정답을 알고 있고 다른 하나는 모릅니다.


그러니까 컴퓨터에서 임의로 만든 낱말 하나, 책에서 스캔은 했지만 제대로 읽지 못한 낱말 하나 이렇게 보여주는 방식입니다.


임의로 만든 낱말을 정학하게 입력하면 리캡차는 입력자가 사람이라는 걸 확인합니다.


그리고 이 사람이 한 낱말을 정확하게 입력했다면 다른 낱말도 정확하리라고 가정하는 겁니다.


만약 많은 이들이 이 낱말을 똑같이 입력했다면 컴퓨터는 자기가 모르던 낱말이 뭔지 알게 되는 겁니다.


이렇게 매일 새로 알게 되는 낱말은 1억 개 수준입니다. 1년에 책 250만 권을 디지털화할 수 있는 양입니다.


한번이라도 리캡차를 입력해 본 사람은 전 세계 인구의 10%가 넘는 7억5000만 명입니다.


구글은 누구에게도 돈을 주지 않고, 이렇게 많은 사람들 손을 빌려 책을 디지털화하고 있습니다. 대단한 발상입니다.


그러니까 앞으로는 리캡차를 마주하더라도 너무 짜증을 내지는 마세요. 세상을 조금 더 근사한 곳으로 만드는 작업에 참여하고 있는 거니까요.

댓글,

Common Sense | 카테고리 다른 글 더 보기