聰明不如鈍筆
총명불여둔필
assignment Kidult

'데이터 시각화 교과서'…못 생긴 그래프를 피합시다


나쁜 그래프는 어디에든 있습니다.


콜 누스바우어 내플릭 씨가 '데이터 스토리텔링: 설득력 있는 프리젠테이션을 위한 데이터 시각화 기법'을 펴내면서 저자 서문에 쓴 것처럼 말입니다.


그래서 기회가 될 때마다 나쁜 그래프를 피하는 요령을 터득하는 건 나쁜 일이 아닙니다.


이번에 도움을 받을 건 '데이터 시각화 교과서: 데이터 분석의 본질을 살리는 그래프와 차트 제작의 기본 원리와 응용'이라는 책입니다.


클라우스 윌케 미국 텍사스오스틴대 교수(통합 생물학)는 이 책을 통해 보는 사람이 쉽게 명확하게 받아들일 수 있는 그래프 제작 방법을 소개합니다.


먼저 잘못 그린 그래프를 '못 생긴 녀석'과 '나쁜 녀석'으로 나누고 이를 바로 잡는 요령을 알려주는 방식입니다.


못 생긴 그래프는 내용은 크게 틀린 게 없지만 미적으로 보완할 게 있는 존재고, 나쁜 그래프는 보기에는 예쁘지만 사실을 왜곡하는 존재입니다.


혹시 오해하실까 봐 말씀드리면 여기서 미적으로 보완한다는 게 아주 현란한 그래프를 만든다는 뜻은 아닙니다.


보는 사람이 불편한 점이 없도록 그래프를 손질한다는 의미입니다.


아, 더러 아예 '틀린 녀석'이 등장할 때도 있습니다. 틀린 녀석은 (파이 그래프처럼) 굳이 그릴 필요와 이유가 없는 존재라고 할 수 있습니다.


예를 들어 2017년 12월 22~24일 박스 오피스에서 가장 좋은 결과를 거둔 영화 매출액을 막대 그래프로 그린다고 해보겠습니다.


그러면 사람들은 흔히 아래처럼 그래프를 그립니다.



이 그래프는 좋지도 나쁘지도 않은 그냥 '보통 그래프'입니다. 이렇게 그리면 누구에게 칭찬을 받을 일은 없겠지만 그렇다고 비판 받을 일도 없습니다.


이렇게 가로 방향으로 막대 그래프를 그릴 때 우리가 제일 자주 마주하는 문제는 항목 이름(레이블)이 겹칠 때가 있다는 것.


이럴 때 마이크로소프트(MS) 엑셀 같은 소프트웨어는 항목 이름을 대각선으로 배치하는 대안을 제시합니다.



윌케 교수는 이런 그래프를 '못 생긴 녀석'이라고 정의합니다. 왜 그렇게 부르는지는 따로 말씀드리지 않아도 아시겠죠?


윌케 교수가 제시하는 대안은 x축과 y축을 바꿔서 그리라는 겁니다. 아래처럼 말입니다.


사실 시각화에 어느 정도 관심이 있는 분들 사이에서는 순위를 나타낼 때는 세로 막대 그래프로 그려야 한다는 게 상식처럼 통합니다.


그래도 이 책 (한국) 이름에 '교과서'가 붙은 만큼 혹시 모르셨다면 이번 기회에 익혀 두시는 것도 나쁘지 않을 겁니다.


물론 이렇게 순위를 그래프로 나타날 때는 순위대로 그려야 합니다. 다른 기준으로 항목 순서를 정하면 '나쁜 녀석'이 나옵니다.




그렇다고 어떤 값을 기준으로 내림차순 또는 오름차순으로 항목 순서를 정하는 게 항상 정답은 아닙니다.


만약 연령대별 중위 소득을 그래프로 그릴 일이 있다면 이때는 나이 순서로 그래프를 그리는 게 맞습니다.



이 책은 이런 식으로 똑같은 데이터를 가지고 어떻게 하면 조금 더 좋은 그래프를 그릴 수 있는지 알려줍니다.


또 좋은 그래프와 나쁜 그래프만 구분하는 게 아니라 좋은 그래프 사이에서도 그래프를 그리는 이유에 따라 어떤 형태를 선택하는 게 더 좋은지도 고민할 수 있도록 해줍니다.


사실 '기본기'를 어느 정도 익히고 나면 못 생기거나 나쁜 그래프 때문에 아니라 좋은 그래프 사이에서 어떤 걸 선택해야 할지 고민하는 시간이 더 많습니다.


이 책은 이런 고민을 하는 분들에게 제일 도움이 많이 될 거라고 믿습니다.


아, 굳이 실물로 책을 구입하지 않으셔도 이 링크에서 책 전문을 확인하실 수 있습니다.


R에 관심이 있는 분이라면 윌케 교수가 이 책을 쓰면서 R로 시각화 작업을 진행했다는 걸 눈치채실 수 있으실 겁니다.


윌케 교수는 이 깃허브 페이지에 본인이 책을 쓰면서 사용한 코드도 전부 공개해 놓고 있습니다.


그러면 여러분 모두 Happy Charting!

댓글,

Kidult | 카테고리 다른 글 더 보기