본문 바로가기

IT + α

이세돌과 세 번의 유혹, 알파고와 데미스 하사비스

이세돌이 알파고를 이기기 위해서 필요한 것들.

 

단도직입적으로 말해서, 이세돌이 지금 알파고와 하고 있는 경기는 바둑의 형태를 띠고 있는 '컴퓨터 게임'이다. 여기서 우리가 반드시 유념해야 할 부분은, 이 대전을 기존에 알고 있던 '바둑'으로만 봐서는 안 된다는 점이다. 원래 바둑은 사람과 사람이 지극히 인간적인 방식으로 서로의 지적 능력을 겨루는 일이고, 당연히 모든 바둑 이론과 기술은 이를 전제하고 만들어졌다.

 

하지만, 알파고와의 대전은 전혀 다르다. 근본적으로 알파고는 인간이 알고 있는 바둑을 그대로 똑같이 인식하는 게 아니다. 다른 모든 컴퓨터 프로그램과 마찬가지로 바둑판 상황을 데이터의 형태로 처리하며, 그냥 기계적인 계산을 통해 돌을 놓을 위치를 선택(첫 번째 인공신경망, 정책망의 역할)하고 승리 확률을 예측(두 번째 인공신경망, 가치망의 역할)할 뿐이다. 그래서 알파고에는 추상적인 기풍이나 심리적인 기세 같은 것들이 아예 존재하지 않는다.

 

이와 동시에, '실수'라는 개념 자체가 없다. 이번에 이세돌과 알파고의 대국을 보면서 바둑 전문가들이 자꾸만 "알파고의 실수"라는 말을 하는데, 사실 이건 좀 다른 얘기다. 알파고는 그저 계산을 통해서 가장 확률이 높은 걸 선택하는 것일 따름이고, 만약 이게 잘못이라면 그건 실수가 아니라 '오류'나 '고장'이라고 불러야 한다(다른 관점에서 '한계' 또는 '약점'의 측면으로 논할 수는 있겠다).

 

단지 그게 왜 승률이 높은지를 인간이 인공지능만큼 빠르게 계산하지 못하는 것일 뿐, 실수라는 건 인간인 이세돌에게나 적용되는 개념이다. 마찬가지로 알파고는 당황하지도 않고, 방심하지도 않으며, 흥분하지도 않고, 겁을 먹지도 않는다. 이 모든 건 사람이 '바둑'을 둘 때나 중요한 부분이지, 인공지능이 '컴퓨터 게임'을 할 때에는 아무런 상관이 없다. 물론, 이번에는 인간 이세돌과 인공지능 알파고가 바둑의 형태를 띠고 있는 컴퓨터 게임을 함께 하는 상황이므로 양쪽의 입장을 동시에 고려해야 한다.

 

알파고에 대해 우리가 알아야 할 점

 

우선, 인공지능 알파고를 하드웨어와 소프트웨어의 측면에서 잠깐 살펴보도록 하자. 흔히 말하는 '슈퍼컴퓨터'로서의 알파고는 별로 그렇게 대단한 수준은 아니다. 세계에서 제일 비싼 슈퍼컴퓨터가 1조 원이 넘고 미국의 주요 슈퍼컴퓨터 가격이 보통 1000억 원대인 걸 감안하면, 100억 원 정도로 추정되는 알파고는 하드웨어적으로는 그다지 놀랄 만한 정도는 아니라고 한다. 슈퍼컴퓨터로서는 평범한 수준이라는 건데, 사실 알파고의 핵심은 소프트웨어인 알고리즘에 있다.

 

[출처: 구글코리아(딥마인드 CEO 데미스 하사비스, 이세돌 9단, 구글 회장 에릭 슈미트)]

 

알파고의 알고리즘을 개발한 '딥마인드(DeepMind)'라는 회사는 인공지능에 조예가 깊은 엔지니어들(원래 극소수다)을 전 세계에서 가장 많이 보유한 스타트업으로 알려졌고, 창업 3년 여 만에 구글에 인수됐다. 국내 언론을 통해서도 많이 소개가 됐지만, 딥마인드의 창업자이자 체스 챔피언이었던 데미스 하사비스(Demis Hassabis, 1976~ )는 한마디로 '게임 천재'다. 겨우 13살에 체스 마스터에 오를 만큼 원래 신동에 가까운 인물이었고, 이미 대학 입학 전(17세)에 세계 3대 게임 개발자로 불리는 '피터 몰리뉴'와 손잡고 명작 시뮬레이션 게임인 '테마파크'를 만들었다.

 

'블랙 앤 화이트'의 피터 몰리뉴는 '심시티'를 만든 윌 라이트, '문명'을 만든 시드 마이어와 함께 컴퓨터 게임 역사상 가장 위대한 개발자로 불렸는데, 바로 이 사람이 스무 살도 안 된 데미스 하사비스와 함께 게임을 만든 것이다. 이건 마치 스티븐 스필버그가 고등학생과 함께 자신의 영화를 연출한 거나 마찬가지 일인데, 그는 이후에도 한동안 게임 인공지능 프로그래밍을 계속했고 개발사까지 차려서 컴퓨터 게임을 만들었다. 현재 딥마인드의 CEO인 데미스 하사비스를 통해 우리는 몇 가지를 유추해 볼 수 있다.

 

먼저 데미스 하사비스가 만든 인공지능 프로그램의 출발점에는 컴퓨터 게임이 있는데, 아마도 이게 '인공지능 바둑 프로그램' 알파고의 개발과 무관하지는 않을 것이다. 그가 만든 게임들은 주로 시뮬레이션 게임이었는데 이때에도 항상 그는 뛰어난 인공지능을 전면에 내세웠다. 어렸을 때부터 유명세를 탔던 하사비스가 체스 마스터와 구글 딥마인드 CEO 사이에 (학교에서 공부한 걸 제외하면) 가장 눈에 띄게 활동한 분야가 바로 컴퓨터 게임이었고, 그는 언제나 인공지능 프로그램 개발에 몰두했다.

 

 

그렇다면 데미스는 컴퓨터 시뮬레이션 게임의 인공지능과 바둑 프로그램의 인공지능을 거의 20여 년 동안 발전시켜 온 셈인데, 예전에 그가 만든 게임 관련기사들을 지금 읽어봐도 요즘 하사비스가 각종 인터뷰와 기자회견에서 말하는 내용과 상당 부분 겹친다는 걸 알 수 있다. 조금씩 표현은 다르지만 어쨌든 지향하는 바가 비슷하고, 그동안 많은 기술 발전이 있었지만 아무튼 그가 이 당시에 게임내에서 보여주고자 했던 것과 지금에 와서 달성하려는 목표가 일맥상통한다.

 

결국 그는 어느 게임·어느 상황에나 적용되는 '범용인공지능'을 만드는 것이 목적이다. 데미스 하사비스는 한 인터뷰에서 "특정 영역에서 학습한 것을 다른 영역에서도 적용할 수 있는 알고리즘에 관심이 있다"고 말했 바 있고, 이세돌과 알파고의 대결도 이런 범용인공지능을 만들어가는 과정 중 하나인 셈이다. 지금은 체스 인공지능 프로그램과 바둑 인공지능 프로그램이 다르지만, 딥러닝과 강화학습이 더 발전하면 언젠가는 하나의 인공지능이 둘 다 할 수 있게 될 것이다. 바둑도 할 수 있고 체스도 할 수 있으면 시뮬레이션 게임도 할 수 있고, 궁극적으로는 운전도 할 수 있다.

 

알파고와 시뮬레이션 게임이 비슷한 점

 

알파고 연구팀은 바둑 인공지능을 개발하기 위해 '몬테카를로 트리 탐색'과 '컨볼루션 신경망' 이렇게 두 가지 알고리즘(논리구조)을 채택했다고 한다. 컨볼루션 신경망은 인간이 눈으로 바라본 것을 뇌에서 인식하는 것처럼 컴퓨터가 이미지를 인지하고 데이터 형태로 처리할 수 있도록 하는 딥러닝 기법이다. 알파고는 전문 바둑기사의 과거 기보를 통해 3000만 가지의 바둑판 상태를 추출해 데이터로 사용했고, 이를 바탕으로 바둑돌을 놓을 위치를 선택하는 '정책망'과 승리 확률을 예측하는 '가치망'을 만들었다. 알파고는 이 두 개의 심층 신경망을 활용해서 최적의 한 수를 찾아낸다.

 

그리고 알파고 알고리즘의 다른 한 축인 몬테카를로 트리 탐색은 한 수를 선택하면 다음 수에 대한 경우의 수를 가지 치는 형태(트리)로 인식해 유리한 선택을 하는 알고리즘(바둑에서의 경우의 수를 줄이기 위해 경우의 수를 나무 구조로 병렬 배치시켜 가장 유리한 선택을 할 수 있도록 하는 알고리즘)이다. 사실 이 알고리즘은 각종 컴퓨터 게임, 특히 전략 게임이나 시뮬레이션 게임에도 자주 사용되는 알고리즘이다. 그래서 알파고의 알고리즘 자체가 근본적으로 시뮬레이션 게임 알고리즘과 유사한 게 당연하고, 우리는 여기서 몇 가지 힌트를 얻을 수 있지 않을까 싶다.

 

[출처: 구글코리아(이세돌과 알파고의 대국 현장)]

 

시뮬레이션 게임을 웬만큼 해본 사람들은 다 알다시피, 게임의 초중반을 잘 이끌고 가면 후반은 상당히 싱겁게 끝나는 경우가 많다. 이건 대부분의 시뮬레이션 게임들이 웬만큼은 다 가지고 있는 특징이며, 예전부터 지금까지 계속 이어져온 공통점이다. 거의 장르적 특성에 가까울 정도로 보편적이고, 그래서 게임 초보자들을 위한 공략법에는 초중반 테크 트리를 몇 가지 정해서 알려주는 경우가 많다. 일종의 예시 전략이라고 볼 수 있는데, 이대로만 따라가도 게임이 훨씬 수월해진다. 이게 좀 익숙해지면, 나중엔 각자가 자기 나름의 트리를 구성할 수 있게 된다.

 

물론 바둑은 이와는 비교도 안 되게 더 복잡하겠지만, 기본적으로 채택된 알고리즘이 유사하다면 시뮬레이션 게임과 알파고에 동일하게 적용되는 공략법을 생각해 볼 수 있다. 최대한 단순명료하게 설명하기 위해 게임 초·중·후반으로 나눠서 서술해 보겠다.

 

1. 초반: 여러 가지 다양한 전략적 선택지 중에서 자신의 승리를 견인할 주요 트리를 결정한 후, 거기에 우선순위를 두고 집중적으로 자원을 투입한다.

 

- 바둑이든 게임이든, 모든 게 다 프로그래밍 되어 있는 인공지능을 사람이 이기기는 쉽지 않다. 인공지능은 언제나 최적의 코스를 밟아나가고, 중간에 망설이지도 않으며, 테크 트리를 넘어가는 동안에 시간적 단절도 전혀 없기 때문이다. 하지만 그 대신에 인간은 선택과 집중을 좀 더 과감하게 할 수 있다. 컴퓨터는 미리 세팅된 일정 범위 안에서만 움직이지만, 사람은 보다 더 자유롭게 자원을 배치할 수 있고 또 자신만의 방식을 개척할 수 있다. 여기서 바로 창의력이 빛을 발한다.

 

 

2. 중반: 집중적으로 성장시킨 능력을 바탕으로 적을 공략해야 하는데, 이때 중요한 건 끝까지 자신의 호흡을 유지하는 것이다.

 

- 어차피 인공지능은 어떤 상황이 발생하더라도 최적의 자원 배분을 하는 데 특화되어 있으므로, 나의 특성과 리듬감으로 적을 압도하는 게 필요하다. 언뜻 보기에는 적의 약점처럼 느껴지더라도 알고 보면 복잡한 계산을 통해 절묘한 균형을 맞추고 있는 경우가 많으므로, 괜히 섣부르게 무리했다가는 오히려 역습을 당하기 쉽다. 인공지능과 대결하는 시뮬레이션 게임에서 대부분의 승패는 중반에 주도권을 잡을 수 있느냐 없느냐로 결정된다. 일반적으로 여기까지가 인간이 인공지능을 이길 수 있는 거의 마지막 기회다.

 

3. 후반: 초중반을 잘 운영해 왔다면, 보통 현상유지만 해도 승리한다. 만약 그렇지 못했다면, 어떻게든 살아남더라도 역전은 거의 불가능하다.

 

- 이쯤 되면 최종 결과를 안 봐도, 사람이 먼저 승패를 예감한다. 굳이 계산할 필요도 없다. 인공지능은 항상 최고 효율의 테크 트리를 이어가므로 (중반에 공략하지 못하면) 후반으로 갈수록 점점 더 엄청난 자원을 보유하게 된다. 때로는 거의 낭비에 가까운 자원소모를 하기도 하는데, 이것 역시 산술적으로 문제가 없기 때문에 그렇게 하는 걸로 봐야 한다. 그리고 혹시 사람이 이기고 있다면 정석을 따르는 게 중요하다. 애초에 선택과 집중을 했기 때문에, 모험을 했다가는 만에 하나 생각지도 못한 약점이 노출되어 다 잡은 게임을 놓칠 수도 있다.

 

이세돌이 극복해야 할 세 번의 유혹

 

이세돌과 알파고의 제1국과 제2국을 처음부터 끝까지 본 사람들은 느꼈듯이, 이세돌 9단은 제1국의 초·중·후반과 제2국의 초·중·후반 분위기가 전부 다 달랐다. 감정적 동요도 심했고, 심리적으로 안정되어 있다고 보기도 힘들었다. 그만큼 알파고에 많이 휘둘렸다고 봐야 할 텐데, 그도 그럴 것이 알파고에 대해 이세돌 9단은 아는 게 거의 없었다. 다른 기사였다면 여기 저기 많이 물어보기도 했을지 모르겠는데, 이세돌은 성격상 그런 편은 못 되는 것 같다. 기풍이나 기세의 측면에서도 그다지 유리하다고 보기 어렵고..

 

[출처: 구글코리아]

 

다만 기존의 이미지와는 달리, 제2국에서는 이세돌 9단이 어느 정도 알파고에 맞춘 대국 방식을 시도하는 모습이 보여서 내심 흥미로웠다. 물론 그렇게 한다고 꼭 이긴다는 보장은 없지만, 적어도 베일에 싸여 있는 알파고에 대해 조금은 더 알 수 있는 기회가 늘어날 것은 분명하다. 이제 세 판이 남았는데, 이세돌 9단은 물론이고 그 어떤 바둑 전문가도 마땅한 수를 찾지 못한 듯하다. 그래서 앞으로 남은 대국을 어떻게 하면 좋을지 함께 고민해 보는 차원에서 초·중·후반으로 나눠서 정리를 좀 해보자.

 

1. 초반: 제1국에서 이세돌 9단은 초반에 두세 번은 정석에서 벗어난 변칙을 구사하기도 했지만, 이건 단순히 알파고를 툭툭 건드리며 테스트해보는 수준이었다. 반면 제2국에서는 이세돌답지 않다는 말이 나올 정도로 굉장히 신중하고 정석적인 대국을 펼쳤다.

 

- 이세돌이 알파고를 이기기 위해서는 초반에 확실한 전략을 가지고 분명한 선택과 집중을 해야 할 것이다. 어차피 초반에는 알파고도 직접적인 데이터가 없기 때문에 과거 기보의 모방일 테고, 이때야 말로 이세돌 9단이 창의성을 최대로 발휘할 수 있는 기회다. 고작 제1국처럼 간보는 게 아닌, 명확한 자신의 전략에 따라 자기만의 방식으로 토대를 닦아야 한다. 알파고는 이때도 인간 입장에서는 좀 이해하기 힘든 수가 나올 수 있는데, 여기에 흔들리지 말고 이세돌 9단만의 큰그림을 그려 나가야 한다.

 

초반에 정석대로 하고 싶은 유혹에 빠지지 않는 것이 무엇보다 중요하다. 상대는 인간이 아니라 인공지능이다. 초반에 정석대로 두는 건 적이 마음 놓고 뛰어놀 공간을 내주는 거나 마찬가지다. 이세돌 9단 스스로 어떻게 이길지 결정해서 그에 맞는 적절한 변화를 줘야 한다. 초반에 나름대로 선택과 집중을 하지 않으면, 경기 내내 힘들 수밖에 없다. 알파고는 먼저 변화를 주는 게 아니라 이세돌 9단의 선택에 따라 그에 맞는 수를 끊임없이 찾을 뿐이다. 초반에 창의력을 제대로 발휘해서 자신의 길을 개척해놔야 한다.

 

2. 중반: 제1국에서 이세돌 9단은 중반에 알파고의 예상치 못한 공격에 맥없이 무너졌고, 제2국에서는 지나치게 조심스러운 태도로 일관했다. 그래서 중반 주도권을 거의 잡지 못했고, 이 아까운 시간을 다 놓쳐버렸다.

 

- 초반의 선택과 집중을 발판으로 중반에는 이세돌 9단이 주도적으로 공세를 펼쳐나가야 할 것이다. 중반에 공격하지 못하면, 그 이후에는 인공지능을 상대로 아예 공격 기회가 없을 수도 있다. 이즈음부터 알파고는 변수를 최대한 줄이며 완벽한 균형상태를 점점 더 만들어 나갈 텐데, 초반에 만든 힘을 이때 집중적으로 쏟아부어야 한다. 자신이 초반에 선택한 강점을 주무기로 집요하게 공격을 이어나가야 하며, 무엇보다 자신만의 호흡을 유지하는 게 중요하다. 인공지능의 실수는 실수가 아니고, 인공지능의 약점은 약점이 아닐 수 있다.

 

이세돌에 앞서 인공지능 체스 프로그램 IBM의 '딥블루(Deep Blue)'에 패한 바 있는 체스 챔피언 '게리 카스파로프'도 지난 2일 한 기고문에서 "초창기의 체스 인공지능은 사각지대와 그것을 파고들 수 있는 약점이 있었다"며 "이는 인간과 다른 기계만의 약점을 공략하고 싶은 유혹을 불러일으킨다"라고 말했다. 이어 "나는 딥블루와의 대결에서 이런 유혹을 거부할 수 없었고, 체스나 바둑처럼 높은 집중력을 요구하는 '두뇌 대결'에서는 결국 유혹을 이겨내지 못하면 스스로 자기 꾀에 넘어가서 엉뚱한 수를 두게 되고, 이는 반드시 대가를 치르게 될 것"이라고 강조한 바 있다.

 

 

3. 후반: 인공지능을 상대로 초반의 전략적 선택과 집중 · 중반의 주도적인 공격을 하지 못한 채 이세돌 9단은 연거푸 2연패를 당했다. 제1국과 제2국 둘 다 후반에는 거의 힘을 쓰지 못했고, 결국엔 2연속 불계패를 당하고 말았다. 첫째 판 뒤에 그는 황당한 웃음을 지었고, 둘째 판 뒤에는 허탈한 웃음만 보였다.

 

- 인공지능은 인간과는 비교도 할 수 없을 정도로 계산이 빠르다. 사람이 움직일 때마다 인공지능은 매번 게임 결과를 예측하며 다음 행동을 결정하고, (시간이 지날수록 인공지능의 예측은 더 명확해지기에) 초반과 중반에 공략하지 못하면 후반은 정말 해보나 마나한 게임이 되기 십상이다. 반대로 초반과 중반 공략에 성공하면, 후반은 그냥 현상유지만 해도 너무나 쉽게 이기는 경우가 많다. 왜냐 하면 초중반 공략 성공시 어차피 인공지능의 승리 확률이 낮아지므로, 인공지능 입장에서는 점점 더 상대적으로 낮은 승률의 수 중에서 선택할 수밖에 없기 때문이다.

 

다만 이때 특히 조심해야 할 부분은, 모험을 하고 싶은 유혹에서 벗어나야 한다는 점이다. 우리는 인간이기에 자신이 이겼다고 생각되면 왠지 자꾸 모험을 하고 싶어진다. 괜히 여기저기 찔러보고도 싶고, 때로는 급격하게 집중력이 떨어지기도 한다. 이세돌 9단도 (인간이 보기에) 유리한 국면에서 몇 번 이런 모습을 보였던 것 같다. 항상 나오는 말이지만, 방심은 절대 금물이다. 이럴 때일수록 더 철저하게 정석대로 게임을 진행해 나가야 하고, 불필요한 만용을 부려서는 안 된다. 이것만 잘 참고 승리하면, 혹시라도 만에 하나 있을지 모를 알파고의 이스터에그(프로그래머가 몰래 프로그램 안에 숨겨 놓은 여러 가지 재미있는 메시지)를 볼 수도 있지 않을까..

 

개인적인 예측으로는 어쩌면 이세돌 9단이 제4국에서 한 번은 이길 수도 있지 않을까 하는 생각을 갖고 있다. 그러기 위해서는 제3국이 참 중요한데, 단순히 이기고 지고 보다는 이세돌 9단이 알파고의 특성을 웬만큼은 좀 파악을 해서 어떻게든 불계패는 면해야 될 듯하다. 그러고 나면 네 번째 대국에서는 어느 정도 해볼 만한 게임이 펼쳐지지 않을까? 또 한 번 이기고 나면 인간은 일종의 요령 같은 게 생길 수도 있을 텐데(알파고는 단기간에 겨우 몇 판으로 능력이 향상되지는 않는다), 과연 이세돌 9단이 제5국에서 그런 요령대로 싸울지는 모르겠다. 아무튼 알파고가 이기는 건 인공지능이 이기는 것이고, 이세돌이 이기는 건 그냥 이세돌이 이기는 거다. 이를 명심하고, 앞으로 남은 세 판을 즐기자.