데이터를 철학하다: 어떻게 데이터는 지혜가 되는가 리뷰및 정리

dataphil1

책에서 가장 먼저 눈에 띈 부분은 실제 통계 사례를 바탕으로 설명한 3장 양치기 데이터 부분이었다.

통계학은 이론적으로 옳은데 실제 세상에서는 통계학으로 기반해 결과를 나타낼 때 다수의 오류를 그대로 가진채 결과값이라며 보여줄 때가 많다. 이 때 우리가 기만하고 있는 사실들에는 무엇이 있는지 다시 한번 생각해보게 된다.

이를 설명하기 위해 저자는 실제 사례를 가지고 예시를 든다. 특히 대선 여론 조사와 관련된 사례에서 실제 투표 결과와 여론조사들 사이의 오차들을 분석하면서 문제의 원인을 밝힌다.

모집단의 신뢰성과 표본 추출 문제, 표본의 크기 라는 이유를 보여준다.

또한 데이터 활용의 문제점으로 왜곡 현상에 대해서도 이야기 한다.

보통 비교 대상이 될 수 없는 것들을 비교하거나 수치를 해석할 때 문맥에 따른 글쓰기로 인해 오해를 낳는 미사여구들이 있다.

스캐닝 가이드라인에 대해서도 설명하는데

첫번째는 탐색 영역을 포괄적으로 규정한뒤 체계화 시키는 것이다. 이 때 기회를 포착하기 위해 노력해야 한다. 수면 아래에 보이지 않는 빙산처럼 찾으려 노력해야 보이는 정보들을 파악하기 위한 단계이다.

두번쨰는 센싱 능력을 키우는 것이다. 말 그대로 감각을 키우는 부분이다.

세번째는 멀리보는 것이다. 미래를 보려 노력해야 위협과 기회를 포착할 수 있다.

마지막은 자동 감시 및 경보 시스템은 구축하는 것으로 자동화된 스캐닝 기능으로 자동 모니터링 할 수 있도록 하는 것이 필요하다.

횡단적 관점에서 개관: 시간 축을 고정하고 광범위한 대상의 생김새와 모양을 파악하는 것이다. 목적은 광범위한 영역에 내재한 어떠한 구조나 패턴, 그리고 그것을 이해하기 위한 분류 시스템 등이다. 방대한 데이터를 압축적으로 표현한다. 예를 들면, 동식물을 기준에 따라 분류해 계층도를 작성하거나, 세계 여러나라들의 연도를 고정해 주제에 따른 국가들간의 지표 비교 등이 있다.
종단적 관점에서 개관 : 시간 축에 따라 대상의 변화를 추적하는 것이다. 추세 즉 트렌드를 발견하기 위해 한다. 예를 들면 구글 트렌드는 가시적으로 보여주는 좋은 툴이다. 트렌드에도 어떠한 생명주기가 있다고 한다.
시스템 다이나믹스모형(System Dynamics Model) : 경제 사회 생태계를 구성하는 여러 총량 변수 간에 복잡하게 얽혀있는 비선형적 관계를 수학적으로 표현한 것. R=PQ=Pf(P)
에이전트 기반 모형 : 개개인의 소비자의 행위에 영향을 주는 인센티브 구조를 밝히는 것. 예를 들어 소비자의 물건 구입에 대한 동기를 구하는 것이 있다.

책에 검증과 관련한 부분에서 저자는 챕터의 말미에 인공지능이 아무리 발전해도 인간을 대체하는 것이 불가능한 이유에 대해 이렇게 말한다.

“검증의 가장 강력한 수단은 수학이다… 검증은 늘 고차원의 수학적 논리를 필요로 한다. 인간 고유의 자유 의지와 상상력에 기초한 논리 체계를 필요로 한다는 말이다”

지능을 컴퓨터에 담는 방법은 크게 두가지이다.

하나는 인간 두뇌를 모사한 신경 회로를 통해 지능을 구현하는 것이고, 다른 하나는 지식 베이스를 규칙 기반지능으로 구현하는 것이다.(의미 네트워크 코딩 위한 논리 프로그래밍 언어 필요-LISP).

각자 장단점이 존재하며 신경회로는 빅데이터만 있다면 어떤 분야에든지 응용이 가능하다는 장점이 있다. 약점은 완성된 지능에 담긴 메커니즘을 알수가 없다는 점이다. 특히 인공지능의 활용이 법적 윤리적 책임과 연결되는 경우에는 큰 논쟁을 유발할 수 있다.

데이터를 철학하다는 데이터와 통계를 다루는 사람들 뿐 아니라 이 시대를 살아가고 있는 모든 사람들에게 데이터를 올바르게 읽고 다루며 그 이면의 의미를 스스로 탐색하도록 돕는 제너럴리스트로서의 도약을 바라는 듯하다. 특히 기존의 비슷한 책들이 지식적인 관점에서 정보를 전달한다면 이 책은 도덕적, 직업적 윤리를 말하며 어떤 가치관을 독자들에게 홍보하는 느낌이다. 그런 의미에서 신선한 책이었다.