게시판 즐겨찾기
편집
드래그 앤 드롭으로
즐겨찾기 아이콘 위치 수정이 가능합니다.
[스압] "우리는 왜 착하게 살아야 하는가?" - 팃포탯 이야기
게시물ID : science_53945짧은주소 복사하기
작성자 : 미카엘대공
추천 : 18
조회수 : 2346회
댓글수 : 138개
등록시간 : 2015/09/23 16:22:48

 들어가며

 "착하게 살아라" - 우리는 살면서 이 말을 굉장히 많이 듣고 자랍니다. 결국 어린 시절 도덕 교과서에서 배우는 내용을 종합하면 저 한 마디로 요약될 수 있을 정도입니다. 뿐만 아니라 여러 동화나 소설 주제, 종교적 가르침, 더 나아가 법의 기본 정신마저도 결국 따지고 보면 착하게 살라는 내용이죠.

 그런데 나이를 먹고, 세상을 보게 되며 우리는 종종 그 반대 경우를 보게 됩니다. 착하게 사는 것보다 나쁘게 사는 것이 더 "현명해" 보이는 현실. 영악하게 자기 이득을 챙기는 것이 진정 지혜롭게 세상을 살아가는 방법이 되는 모순. 법을 지키며 성실히 사는 사람보다, 법을 교묘하게 어겨가는 사람이 더 성공해 부를 쌓는 사회.

 그리고 그런 모습을 보며 우리는 의문을 가집니다.
 대체 왜? 우리는 착하게 살아야 할까요?

 이 질문에는 여러 가지 답이 있을 겁니다. 죄를 쌓으면 그 업보가 결국 자신에게 돌아오기 때문에. 혹은 내세에서 고통받을 것이기 때문에. 혹은 옳은 일을 행하는 것이 사람의 의무이기에. 이를 뒷받침하기 위해 고대 성인이나 철학자의 가르침을 인용할 수도 있겠죠.

 본 글도 결국 위의 질문에 대한 대답의 일환으로 작성되었습니다. 다만 여기서 등장하는 "대답"이란 옛 지혜나 철학 같은 것과는 조금 거리가 있습니다. 왜냐면 도덕이나 비유 대신 논리와 수치를 갖고 설명할 거니까요.

 "우리는 왜 착하게 살아야 하는가" - 이번 주제는 다름아닌 "과학"이 들려주는 그 대답입니다.



 배신이 최선인 게임 - 죄수의 딜레마
 

팃포탯1.jpg
 
[이번 비유는 무려 감옥에서 시작합니다]


 사회과학쪽에 관심이 없는 분이라도 "죄수의 딜레마"라는 가상의 사고실험에 관해서는 한번쯤 들어보셨을 겁니다. 정확히 어떤 내용인지 모르는 분들이라도 최소한 단어 정도는 들어본 적이 있으시겠죠. 그만큼 학문 전반에 걸쳐서 굉장히 다양하게 사용되는 비유입니다.

 이 사고실험의 내용은 다음과 같습니다.


 "여기 범죄를 저지른 두 명의 용의자가 있다. 경찰은 이 둘을 공범으로 의심하고 있으며, 이들의 범죄 사실을 밝히기 위해 둘을 각자 독방에 나눠 가둔 뒤 따로따로 불러서 취조를 시작했다. 그리고 서로에게 각각 이런 내용의 사법거래를 제안했다.

 [만약 저쪽이 입을 다물고 너가 자백한다면 저쪽만 20년형을 구형하고, 너는 자유의 몸으로 풀어주겠다. 그러나 만약 반대로 너가 입을 다무는 동안 저쪽이 자백한다면 네가 역으로 20년형을 덤터기쓸 것이다. 그리고 만약 둘 다 서로의 죄를 자백한다면 나란히 8년형을 주고, 둘 다 입을 꾹 다물고 있으면 6개월만 가둔 뒤에 풀어주도록 하겠다.]

 이 상황에서 용의자들은 어떻게 행동하는 것이 최선인가?"


팃포탯2.png

[상황을 간단하게 정리한 도표. Defect가 배신, Cooperate가 협력입니다]


 요약하자면 아래와 같습니다.

 1. 만약 둘다 서로를 배신(defect) 하면? : 둘 다 8년형 구형
 2. 만약 한쪽이 입을 다물어 협력하고(cooperate) 다른 한쪽이 배신하면? : 신의를 지킨 쪽이 20년형의 피해를 배고, 배신한 쪽은 자유
 3. 만약 둘다 서로에게 협력하면? : 둘 다 6개월형 구형

 이 게임의 핵심은 상대가 어떤 선택을 했는지 다른 한쪽은 결코 알 수 없으며, 의사소통도 불가능하다는 점에 있습니다. 즉 내가 의리를 택한다고 해서 상대방도 반드시 의리를 택해줄거라는 보장은 없는 것입니다. 오히려 저쪽이 재빨리 배신 때려버리고 자유를 찾을 수도 있습니다. 그렇다고 이쪽도 배신 저쪽도 배신해버리면 8년이라는 긴 시간을 감옥에서 썩어야 하죠.

 선택이 어렵기 때문에 딜레마일까요? 아뇨, 그렇지는 않습니다. 왜냐면 잘 생각해보면 각자 입장에서 어떤 것이 현명한 선택인지는 명확하거든요.

 우리 한번 A의 입장에서 생각해봅시다. A가 택할 수 있는 선택지는 협력과 배신이고, 상대역인 B의 선택지도 똑같이 협력과 배신입니다. 이때 B의 선택지에 따른 A의 선택과 그 결과를 정리하면,

 1. B가 협력했을 시 : A가 협력하면 6개월형, A가 배신하면 자유.
 2. B가 배신했을 시 : A가 협력하면 20년형, A가 배신하면 8년형.

 보시면 아시겠지만 B가 어떤 선택을 하든 A는 배신을 때리는게 이득입니다. B가 배신했을 경우는 말할 것도 없거니와, B가 협력했을 경우 내가 배신때리면 6개월이라는 형벌도 피할 수 있거든요. B의 입장도 마찬가지여서, A가 뭘 고르든 배신하는 것이 이득입니다.

 이런 상황을 전문적으로 다루는 이론인 게임 이론(Game Theory) 에서, 이런 식으로 상대방이 뭘 고르든 관계없이 내가 이득을 볼 수 있는 선택지를 우월 전략(Dominant Strategy) 이라고 합니다. 이런 게 있다면 그야말로 선택하는 사람 입장에선 땡잡은 것이기에, 당연히 해당하는 전략을 골라주는 게 이득이죠. 이 경우엔 A와 B 둘 다 배신이라는 우월 전략이 있군요.

 결국 A와 B는 "합리적인 사고에 기반해" 서로를 배신하는 선택을 했고, 그 결과 나란히 8년형을 구형당했습니다.
 근데 생각해보면, 그냥 둘 다 협력했으면 걍 각자 6개월씩 받고 끝나지 않았을까요?
 ...어라?


팃포탯3.jpg

[이런, 망했다!!]


 바로 이것이야말로 본 게임이 죄수의 "딜레마"인 이유입니다. 용의자 두 사람은 분명 각자에게 가능한 최선의 선택을 했습니다. 시간을 돌려서 같은 상황에 떨어지더라도 동일한 선택을 할 수밖에 없을 겁니다. 그런데 결과는 그냥 둘 다 협력하는 것만 못하게 되어버렸죠.

 분명 상황을 면밀히 분석해 가장 합리적으로 보이는 선택지를 택했지만, 그 결과는 비합리적인 선택을 한 것보다 못한 이 상황. 개별 주체의 합리적 판단이 반드시 최선의 결과로 이어지지는 않는다 라는 이 난감한 결론을 우리는 죄수의 딜레마라고 칭하는 것입니다.

 죄수의 딜레마와 같은 상황은 일견 특수해 보이지만, 실은 우리 주변에서도 많이 접할 수 있습니다. 멀리 갈 것 없이 대한민국의 비정상적으로 과열된 교육열만 봐도 죄수의 딜레마가 작용한 결과이지요. 남들이 노는 동안 우리 아이를 교육시키면 그만큼 앞서나갈 것이니 이득. 설령 남들이 다 같은 생각을 하더라도, 나 역시 똑같이 교육시켜야 애가 뒤쳐지는 것을 피할 수 있다. 하지만 그 결과 만들어진 사회는 선행학습과 야자가 판치는 지옥과도 같은 수렁입니다. 무언가 잘못됐다는 것을 모두가 알지만, 설령 알아도 낙오되지 않으려면 스스로를 채찍질할 수밖에 없죠.

 또한 냉전 시대의 미-소간 군비 경쟁 역시 죄수의 딜레마 모델로 설명할 수 있습니다. 두 나라가 동시에 군비를 감축하고 그 예산을 복지에 돌릴 수 있다면 두 나라 모두에게 이득이겠지요. 하지만 만에 하나 상대방에게 추월당해 버린다면 그 순간 힘의 균형은 무너져내립니다. 결국 우위를 점하거나 최소 동등함을 확보하려면 예산을 군사산업에 쏟아부을 수밖에 없죠. 물론 민생의 질이 그만큼 하락하는 것은 당연지사.


팃포탯4.jpg

[국부론의 창시자이자 경제학의 아버지, 아담 스미스 옹]


 죄수의 딜레마가 중요한 이유 중 하나는, 아담 스미스가 제시한 경제학의 가장 근본적인 가정을 송두리째 뒤엎어버리기 때문입니다. 아담 스미스는 저서 [국부론]에서 "우리가 매일 식사를 마련할 수 있는 이유는 빵집 주인의 자비심이 아닌 자애심 때문이다"라며, 개개인이 자신의 이득을 고려해 행위한다면 궁극적으로 사회 전체에 이득을 가져다줄 것이라고 주장했습니다. 이제는 너무나 유명해진 보이지 않는 손(Invisible Hand) 이라는 표현은 바로 이러한 사상을 함축적으로 나타낸 단어입니다.

 그러나 죄수의 딜레마에 의하면, 개별 주체들이 "법을 해치지 않고" "합리적인 판단 하에" 자신의 이득을 위해 행동한 경우라도 그 선택이 결과적으로 공동제 전체의 손해를 불러올 수 있게 됩니다. 물론 죄수의 딜레마는 특수한 상황이긴 합니다. 하지만 특수한 상황이 하나가 있으면 둘도 있을 수 있는 법. "죄수의 딜레마"라는 선례가 존재하는 시점에서 이미 보이지 않는 손의 논리는 절대적 진리의 지위를 잃고 추락해버렸죠. 대공황 등을 통해 알음알음 부정당하던 것이 끝내 죄수의 딜레마라는 직격탄을 맞아버린 겁니다.

 이렇듯 죄수의 딜레마는 등장과 동시에 학계에 일대 파란을 불러일으켰습니다. 딜레마를 회피할 방법에 대해 숱한 연구가 쏟아져나왔고, 주체의 행동을 '협력'으로 유도하기 위한 전제조건을 찾기 위해 많은 학자들이 머리를 싸맸지요. 그러나 그들 역시도 딜레마가 제시하는 "합리의 필연적인 한계"에 관해서는 인정할 수밖에 없었습니다. 특수한 상황이라 무시하기엔 주변에 실존하는 유사 사례들도 많았으니까 말이죠.



 IPD 실험, 그리고 팃 포 탯

 그런데 제가 오늘 이야기하고자 하는 것은 죄수의 딜레마 그 자체가 아닙니다. 거기서 파생된 어떤 실험에 대한 것이죠. 그리고 여기서부터가 진짜 본론이기도 합니다.
 
 죄수의 딜레마가 학계를 휩쓸고 지나간 뒤, 많은 학자들은 이 딜레마를 해결하기 위해 여러모로 고민에 빠졌습니다. 그들에게 있어 핵심은 "어떻게 하면 이 죄수들을 협력으로 유도할 수 있을까?" 였지요. 정보 격리를 풀고 서로 담합하게 해주는 것, 보복 가능성을 넣는 것, 연속된 게임에서 상대의 대응에 따라 패턴을 바꾸는 것 등 다양한 안이 제시되었습니다.

 반면 몇몇은 아예 완전히 다른 시각에서 접근하기도 했습니다. 논리를 거쳐서 결론에 다다르는 것이 아니라, 아예 결론부터 구하고 시작해버리자는 겁니다. 처음부터 추론을 통해 뭐가 효율적일지 생각해보는 것이 아니라, 일단 뭐가 효율적인지 알고 난 뒤에 분석을 해도 늦지 않다는 것이죠. 그리고 바로 그런 발상에서 시작된 것이 로버트 액셀로드 교수의 "반복되는 죄수의 딜레마"(Iterated Prisoner's Dilemma) 실험, 줄여서 IPD 실험입니다. 


팃포탯5.jpg

[한 번이 아니라 두 번, 세 번, 네 번...]

 
 이 실험의 취지는 다음과 같습니다.
 "좋아, 합리적인 사고가 최선의 결과를 이끌어내지 않는다는 것을 인정한다. 그렇다면 어떤 전략이 가장 효율적일 것인가? 똑똑한 사람들 죄다 불러모아서 아이디어 짜내게 한다음 그 결과물을 한번 서로 맞부딪혀 보자! 여러번 시도해서 가장 포인트 많이 딴 놈이 우승이다!"

 보시면 아시겠지만 굉장히 천하제일무술대회(...) 같은 발상이죠. 
 실제로 당시 진행된 대회 기록을 보면 정말 온갖 비열하고 야비한 꼼수들이 죄다 동원된 것을 알 수 있습니다. 상대방이 뭘 내든 죄다 배신 찍는 놈부터, 상대방에게 협력할 기미가 보이면 냅다 배신 때리는 통수꾼, 반응속도를 밀리세컨드 단위로 분석해서 복잡한 알고리즘이다 싶은 애들만 협력하고 나머지는 배신때리는 아첨가 등등... 그야말로 인간의 교활한 지혜가 빛나는 복마전이었죠.

 "합리적인 사고"에 의거한다면, 이 반복되는 죄수 실험에서 택해야 할 전략은 계속 배신을 때리는 겁니다. 배신이 우월 전략이라는 것은 플레이가 몇 번이 계속된다 하더라도 바뀌지 않으니까요. 하지만 사람이 바보도 아니고 상대가 계속 배신 일변도로 나오면 당연히 이쪽에서도 배신을 때리겠죠. 같은 논지에서 계속 협력적인 태도로 나오는 호구짓도 좋지 못한 전략입니다. 배신 비중이 높은 알고리즘에 제대로 대응하지 못하고 승점자판기가 되어 탈탈 털릴 테니까.

 그렇다면 어떤 전략이 가장 유리할까요? 과연 어떤 알고리즘이 우승을 차지했을까요?

 바로 글 제목에도 들어있는 팃 포 탯(Tit for Tat) 이 그 주인공입니다.


팃포탯6.jpg

["좋아, 한 대 빚졌다" - 말풍선 해석]


 팃 포 탯이란 미국의 관용어 표현으로, 한국어로 번역하자면 대충 "눈에는 눈, 이에는 이" 정도의 표현입니다. 상대가 나한테 한 짓을 그대로 되돌려주겠다는 정신이죠. 이름에서 느껴지는 인상답게 실제 알고리즘도 굉장히 직설적이고 단순명료합니다. 딱 아래 두 줄이 끝이니까요.

 1. 처음 만난 상대방에게는 협력한다.
 2. 두 번째 만남부터는 상대가 바로 전 만남에서 취했던 선택지를 그대로 되돌려준다.

 2는 말하자면 이런 의미입니다. 상대방이 바로 전 턴에서 나를 배신했다면, 나도 이번 턴에서는 배신해줍니다. 반대로 상대방이 전 턴에서 협력했다면, 그 기억을 살려 나도 이번 턴에서는 협력해줍니다. 만약 상대방이 올 배신이면 나도 첫만남 이후는 올 배신이 될테고, 상대방이 올 협력이면 나도 첫만남 이후엔 올 협력이 되겠죠.

 여기서 중요한 점은, 설령 한번 배신했던 상대라도 다시 협력의 손길을 내밀면 협력해준다는 겁니다. 즉 98판 연속 배신한 놈이라도 99판째에 협력한다면 100판째에는 다시 협력해주는 셈이죠. 이렇게 써놓으면 영 호구같아 보일수도 있지만, 실제로는 저 99판째에 상대방이 협력을 내놓으려면 팃포탯의 배신에 맞대응해야하고, 이러면 1판째에서 벌어들인 이득이 상쇄되기 때문에 사실상 손해는 없습니다. 그렇게 제로 베이스로 돌아오면 과거의 감정 같은 건 잊고 협력의 손길을 내미는 것이 팃포탯의 핵심이죠.

 그렇게 1차 토너먼트에서 팃포탯이 승리했지만... 레이스는 여기에서 끝나지 않았습니다. 엑셀로드는 1차 토너먼트의 성공을 토대로 2차 토너먼트를 예고하며 좀더 많은 사람들을 끌어모았죠. 본래 15명이었던 참가자도 63명으로 늘었습니다. 1차가 클로즈베타였다면 2차는 오픈베타인 셈입니다.

 그리고 1차 우승자였던 팃포탯의 전략은, 당연하지만, 모든 각도에서 분석되어 참가자들에게 그 자료가 제공되었습니다. 팃포탯이 어째서 승리할 수 있었는지, 약점은 무엇인지, 이를 깨기 위해선 어떤 점에 집중해야 할지 등등... 그리고 그 분석자료를 토대로 만들어진 63개의 정예들이 2차 토너먼트 본선에서 팃포탯과 함께 맞붙었습니다.

 결과는?

 믿기지 않게도, 또 팃포탯이 우승했습니다!

 
팃포탯7.jpg

[롤챔스에서도 2연속 우승하긴 쉽지 않은데...]


 이는 상당히 놀라운 일인데, 왜냐면 2차 토너먼트 자체가 "팃포탯보다 나은 전략을 찾기 위해" 열렸던 것이라 당연히 팃포탯에게 집중 견제와 분석이 들어갔기 때문입니다. 애초에 주최자부터가 분석자료를 만들어서 참가자들에게 배포할 정도였으니까요. 그런데 그 모든 환경요인을 뚫고, 63명으로 늘어난 도전을 물리쳐가며 또다시 우승을 차지한 겁니다. 대단하죠.

 제가 여러분에게 팃포탯이 이길 수 있었던 이유를 구구절절하게 설명할 수도 있을 겁니다. 하지만 그건 그다지 중요한 게 아닙니다. 정말 중요한 건 이 2연속 우승의 주인공인 팃포탯이 어떤 특성을 지녔는가 라는 점입니다.

 이 IPD 실험을 하나의 거대한 가상사회라고 가정해봅시다. 전혀 터무니없는 가정은 아닐 겁니다. 각 선택이 기억되고 그 결과가 어찌되든 게임은 계속된다는 점에서 우리네 삶과 유사한 면이 있으니까요. 이때 각 플레이어들은 사람을 상징하며, 선택지는 그들이 삶에서 취하는 여러가지 행동을 상징합니다. "배신"은 당장의 이익을 위한 이기적인 선택이 될 것이고, "협력"은 당장 양보하는 대신 신용을 쌓는 이타적인 선택이 되겠지요. 그렇다면 과연 팃포탯은 어떤 사람 유형을 상징할까요?
 액셀로드 교수는 팃포탯의 "성격"을 다음과 같이 정의했습니다.


 1. 선함 : 팃포탯은 처음 보는 사람에게 무조건적인 협력의 제스쳐를 내밉니다. 그는 결코 먼저 배신하는 법이 없습니다. 초면의 상대에게 팃포탯은 거절보다는 화해의 손길을 먼저 내밉니다. 그리고 그 상대방이 협력적인 태도를 유지하는 한 그는 계속 신사적으로 남을 것이며, 함께 상생의 길을 걸어나갈 것입니다.

 2. 분개할 줄 암 : 팃포탯이 계속 착하기만 한 "호구"와 구분되는 이유입니다. 그는 자신에게 가해진 위해를 용납하지 않으며, 기회가 생기는 즉시 즉각적으로 보복(다음 턴에 배신)합니다. 그는 부당함을 결코 수용하지 않고 맞서 싸웁니다.

 3. 관용 : 비록 불의를 엄격히 응징하는 팃포탯이지만, 상대방이 스스로의 행동을 뉘우치는 모습을 보이면 (배신 -> 협력) 그때부터는 과거를 잊고 다시 화해의 손길을 내밉니다. 만약 상대방이 다시 배신하지 않는다면 그도 결코 다시 배신하지 않을 것입니다. 소위 말하는 뒤끝이 없는 스타일이죠.


 재미있지 않습니까? 인간적인 개념을 대입했을 시 팃포탯은 정말로 이상적인 인간상입니다. 기본적으로 착하고 신사적이지만, 그렇다고 배신때리는 행위를 결코 가만두진 않지요. 그리고 무엇보다 잘못을 저지른 사람을 몇 번이고 용서할 줄 아는 넓은 아량을 지녔습니다. 그리고 바로 이 행동패턴이 63명이라는 경쟁자를 모두 제치고 최고점을 획득할 수 있게 한 근원이 된 겁니다. 

 그리고 더 재미있는 점은, 이러한 팃포탯의 정신이 기독교를 비롯한 모든 종교의 근본 이념인 사랑과 용서와도 일맥상통하는 부분이 있다는 점입니다. 실제로 1번 특성은 사랑에, 3번 특성은 용서에 굉장히 잘 부합하지요. 흔히 대립되는 개념으로 여겨지는 종교와 과학이 오랜만에 한 목소리로 같은 결론을 내게 된 것입니다.

 합리성이 낳은 모순이었던 죄수의 딜레마를 깨뜨릴 방법으로 제시된 해답이, 결국 2000년 전 모 목수 출신 구세주가 세상을 구원할 방법으로 내놓은 답과 똑같다는 것. "사랑과 용서를 바탕으로 실천하라"는 낡은 가르침이, 전혀 예상치도 못했던 과학이라는 주체에 의해 재조명되었다는 것. 여러모로 흥미로운 결과입니다.



 IDP 실험내역 상세 분석!

 다만 팃포탯이 이후에도 난공불락의 성벽으로 군림한 것은 아니었습니다. 액셀로드의 토너먼트 이후에도 각 연구자들은 개별적으로 자기들만의 IDP 실험을 진행했고, 그들 중에는 팃포탯을 뛰어넘는 알고리즘도 있었지요. 허나 이렇게 새로 1위를 차지한 알고리즘들도 팃포탯이라는 베이스를 기반으로 개량한 것이 대부분이었기 때문에 팃포탯의 우승이 가지는 가치가 훼손되지는 않습니다.

 아래는 그런 실험들 중 하나입니다. 총 12개의 전략이 맞붙었고, 순위는 다음과 같았습니다.


팃포탯8.PNG

[실험결과 순위표. 왼쪽이 전략명, 오른쪽이 최종점수]


 순서대로 분석해볼까요?

 1위를 차지한 Gradual 은 기본적으로 팃포탯의 형태를 따르지만, 다음과 같은 차이가 있습니다. 상대방이 두번째 배신한 순간, 그는 한 번 대신 두 번을 배신합니다. 세 번째 배신하면 세 번을 연달아 배신하고, 네 번째 배신하면 네 번을 연달아 배신합니다. 
 즉 쉽게 말하면 기존 팃포탯에게 없었던 "가중처벌의 요소"를 가미한 셈이지요. 원래 팃포탯은 100번 배신을 해도 협력의 손을 내밀면 다시 협력해주지만, 얘는 얄짤없습니다. 진심으로 뉘우치지 않았다고 판단하고 100번 배신을 연속으로 때려버립니다. 팃포탯의 약점인 묘한 호구성(...)을 개량한 버전인데, 결과적으로 2천점이나 더 높게 땄네요.

 3위를 차지한 Soft_majo 는 꽤나 특이한 케이스인데요. 얘는 상대방이 "나"에 대해서 한 행위를 고려하지 않습니다. 대신 상대방이 지금까지 내온 선택지를 보고 배신이 협력보다 많으면 배신을, 아니면 협력을 합니다. 동률이나 첫 수는 협력부터 시작하구요.
 이런 특성은 어떻게 보면 상대방의 과거 행적을 통해 응징할지 협력할지를 결정하는 "정의로운 인간"을 표현했다고 볼 수 있습니다. 상대가 선량한 인간이라면 기꺼이 협력하지만, 비열한 인간이라면 징벌을 내립니다. 고득점하기는 어려운 타입이라고 봤는데 의외로 3위나 했군요.

 4위의 Spite 는 단순하면서도 흥미롭습니다. 일단 상대를 만나면 첫 수를 포함해 무조건 협력합니다. 그러나 상대방이 배신을 때리는 순간, 얘는 다음 턴부터 인정사정없이 연속으로 배신을 때려버립니다. 상대가 아무리 협력하려 들려 해도 소용 없습니다. 통수 맞는 순간 그때부터 계속 거부 메세지를 띄웁니다.
 이는 비유하자면 "착하긴 한데 용서가 없는" 성격을 나타낸다고 보여집니다. 팃포탯이랑 비슷하지만 얘에게는 관용이 없는 거죠. 일단 배신당하면 계속 뒤끝 작렬입니다. 뭐 아마 우리네 사는 방식이랑 가장 비슷하지 않나 싶어요 ㅋㅋ

 5위의 Prober 는 좀 복잡한데, 일단 1~3수는 [협력, 배신, 배신] 으로 고정됩니다. 그리고 상대의 반응이 2턴째에 협력, 3턴째에 거부일 경우 그때부터는 팃포탯으로 전환되고, 아니면 협-배-배 기조를 그대로 유지하죠.
 상대를 가늠하고 시작한다는 점, 그리고 정보가 없는 상태에선 신뢰가 없다는 점에서 흔히 말하는 "간잽이" 유형입니다. 알고리즘이 약삭빠른 편이라 고득점하지 않을까 생각했는데 5위밖에 못했네요. 역시 의외.

 6위 Pavlov 는 컨셉이 좀 난해합니다. 첫 번째는 협력하고, 만약 그 판에서 서로 나온 게 같다면 다음 판도 협력, 아니면 다음 판은 배신인데요.
 이게 이를테면 현재 판의 결과가 [배신-배신]일경우 다음 턴엔 협력을 내는 알고리즘이라 어떤 컨셉인지 저도 잘 모르겠습니다. 독자 여러분들이 한번 자유롭게 상상해보세요.

 7위 Mistrust 는 팃포탯이랑 똑같습니다. 단, 팃포탯과는 달리 첫번째 판이 협력이 아닌 배신으로 고정될 뿐.
 첫번째는 무조건 배신을 때리지만, 상대방이 이후에도 협력해주면 마음을 연다는 점에서 "상처받은/마음의 문이 닫힌 사람" 으로 볼 수 있지 않을까 생각합니다. 라노벨로 치면 고압 츤데레 유형

 8위 Cooperate 는 무조건 협력하는 "호구"입니다. 상대가 배신을 얼마나 때리든 상관없이 좋다고 협력해줍니다. Mistrust하고 잘 지낼 수 있을 것 같네요. 7위랑 8위 합쳐놓으면 라노벨 한권 쓸수있겠다

 9위 Per-kind 와 11위 Per-nasty 는 지속적으로 같은 움직임만 반복하는 로봇입니다. Per-kind는 [협력, 협력, 배신]을, Per-nasty는 [협력, 배신, 배신]을 반복해서 출력하죠. 얘네는 어떤 인간상을 반영한다기보단 타 집단과의 교류 같은 "환경적 요인"으로 생각해야 할 듯 해요.

 10위 Defect 는 무조건 배신만 때리는 비열한 "악당" 입니다. 상대방이 뭘 꾸미든 뒤통수 칠 궁리만 하죠. Cooperate 잡아먹고 쑥쑥 컸을텐데 그래봤자 10위네요. 호구보다 아래...

 12위 Random 은 이름에서 보이듯 완전 랜덤입니다. 50% 확률로 협력 혹은 배신을 출력합니다. 얘도 환경적 요인이라고 생각하긴 하는데, 굳이 따지자면 조커나 투페이스 같은 예측불허의 "싸이코"에 가까운 유형이겠네요.


 보시면 아시겠지만, 전반적으로 협력 기반 알고리즘들이 높은 순위에, 배신 기반 알고리즘들이 낮은 순위에 위치해 있습니다. IPD를 사회에 비유한 것과 연결지어 생각하면 여러모로 시사하는 바가 크지요. 단판승부에서 배신은 언제나 우월전략이지만, 이 순위표는 서로 협력하는 것이야말로 오히려 궁극적으로는 가장 나은 전략임을 증명하고 있습니다.


 
 마치며

 사실 IPD의 결과가 그대로 이 사회에 들어맞는다고 주장하는 것에는 무리가 있습니다. 실제 사회는 배신의 기회가 동등하게 주어지지 않을 뿐더러, 각 판마다 걸린 판돈도 다르지요. 몇 번 자잘하게 협력해서 신용을 쌓은 뒤에 크게 한방 빵 터뜨려 배신하는 방법도 있습니다. 또한 기득권층은 서민층에 비해 보다 많은 "배신"의 기회를 갖고, 주변에 끼리끼리 맞춰주는 사람도 많지요.

 하지만 그럼에도 불구하고 IPD의 결과는 분명 인간 사회의 한 단면을 반영하고 있습니다. 현실에 마찰력이 존재한다고 해서 뉴턴의 관성법칙이 의미가 없어지는 것은 아니지요. 각 판의 성패와 관계없이 "삶"은 이어진다는 점, 그리고 끊임없이 서로간의 교류를 주고받는다는 점에서 IPD는 분명 인간 사회에 대입될 수 있는 면모가 있습니다.

 IPD의 원형이 된 죄수의 딜레마는 배신을 가장 합리적인 전략이라 상정합니다. 실제로 IPD에서도 승부 하나하나만 보면 배신이 언제나 협력보다 유리한 우월전략의 위치에 있습니다. 그러나 우리가 굳이 "열등전략"인 협력을 택하는 이유는, 그 협력했다는 사실 자체가 기록으로 남아 다른 플레이어의 협력을 이끌어내기 때문입니다. 당장의 이득을 포기하는 대신, 미래에 두고두고 작용할 신용을 얻는 겁니다.

  
팃포탯9.PNG

[사상 최고의 서포터로 손꼽히는 샘와이즈 갬지]


 영화 [반지의 제왕]의 말미에서, 주인공 프로도는 온갖 고난을 견디지 못하고 결국 여로 도중에 주저앉고 맙니다. 그리고 무엇을 위해 자신이 이 모든 일을 행해야 하는지 의문을 던지죠. 그리고 그 종자인 샘와이즈 갬지는 다음과 같이 대답합니다.

 "이 세상에 아직도 선함이 남아있다는 믿음 때문이죠. 그리고 그것은 싸울 가치가 있는 믿음이에요."

 IPD의 결론을 적용할 때도 우리는 같은 믿음을 가집니다. 만약 이 세상 사람들이 죄다 defect 유형뿐이라면 팃포탯은 아무런 소용도 없을 것입니다. 그냥 서로 주구장창 배신만 하다가 끝나겠죠.

 하지만 우리는 그렇지 않다는 것을 압니다. 비록 헬조센 소리를 들을 정도로 사회정의가 추락하고 온갖 비열한 사기꾼들이 도처에서 선량한 사람들을 잡아먹고 있지만, 우리는 그럼에도 이 땅에 선함이 존재한다는 것을 믿습니다. 지하철 선로에 추락한 노숙자를 자신의 목숨을 던져 구하는 청년, 폐지 리어카를 끌고 오르막을 오르는 할머니를 뒤에서 밀어주는 소녀, 세월호 사건 때 임금조차 고사하고 팽목항으로 달려온 잠수부. 우리는 합리적인 배신 대신 비합리적인 협력을 택할 수 있는 사람들이 이곳에 존재한다는 것을 믿습니다.

 그리고 바로 그런 믿음이 실천으로 옮겨질 때 팃포탯은 힘을 가집니다. 우리 한 사람 한 사람이 다른 모두에게 먼저 손을 내밀고, 불의에 저항하고, 잘못을 용서할 수 있을 때. IPD는 바로 그런 사람이야말로 "최고점"을 얻는 게 가능하다는 것을 증명합니다. 옛 성인들이 말한 사랑과 용서가 결코 무의미한 것이 아니며, 오히려 자신과 상대방 모두를 이롭게 한다는 것을 수치로써 증명합니다.


 본제로 돌아가겠습니다. "우리는 왜 착하게 살아야 하는가?"

 과학은 말합니다. 선함이 나와 당신 모두를 행복하게 만들어주기 때문입니다.

 
 읽어주셔서 감사합니다.
출처 [자료 출처]
https://en.wikipedia.org/wiki/The_Evolution_of_Cooperation
http://www.lifl.fr/IPD/references/from_lifl/alife5/html/graduels.html
https://namu.wiki/w/%EC%A3%84%EC%88%98%EC%9D%98%20%EB%94%9C%EB%A0%88%EB%A7%88
꼬릿말 보기
전체 추천리스트 보기
새로운 댓글이 없습니다.
새로운 댓글 확인하기
글쓰기
◀뒤로가기
PC버전
맨위로▲
공지 운영 자료창고 청소년보호