데이터 사이언티스트(Data Scientist)가 부상하고 있다. 소셜네트워크서비스(SNS)의 확산과 더불어 데이터량이 폭증하면서 데이터를 분석하고 의미를 찾아내는 과학자들의 필요성이 대두되고 있다.
컨설팅 기업인 맥킨지 글로벌 인스티튜트는 2020년까지 미국 내 14만~19만 명의 데이터 전문분석가와 150만명 이상의 데이터 매니지먼트 전문가가 필요하다고 예측했다. 하버드 비즈니스 리뷰의 특집 ("데이터 사이언티스트: 21세기의 가장 섹시한 직업(Data Scientist: The sexist job of the 21st century)")과 최근 뉴욕 타임스에 게재된 빅데이터 기사를 중심으로 데이터 사이언티스트에 대해 정리한다.
데이터 사이언티스트의 위력은 링크드인(LinkedIn)의 사례에서 찾아볼 수 있다. 링크드인 초창기에 사용자들은 다른 유저들과 인맥맺기에 서툴렀다. 이때 스탠퍼드대 물리학 박사 출신인 골드만이 상황을 역전시켰다. 그가 링크드인 페이지에 "당신이 알 수도 있는 사람들 (People You May Know)"이라는 서비스를 추가한 것이다. 대부분의 경영진이 반대했지만 설립자인 호프만의 지지로 이 서비스가 가능했다.
이 서비스는 사람들이 서로는 알고 있지만 링크드인 서비스에서 연결되지 않은 사람들을 보여주기 위한 것이었다. 골드만은 '삼각관계 (Triangle Closing)'의 원리를 이용했다. 만약 당신이 A와B를 알고 있다면 A와 B도 서로 알고 있을 가능성이 높기 때문이다. 링크드인은 "당신이 알 수도 있는 사람들"이라는 서비스 하나로 클릭률이 폭증하면서 세계적인 사이트로 비약했다.
◆데이터 사이언티스트, 그들은 누구인가?
구글의 수석 경제학자는 "다음 10년간 가장 섹시한 직업은 통계학 전문가일 것이다. 1990년대에 미래의 가장 유망한 직업이 컴퓨터공학자일줄 누가 알았겠는가"라고 말했다. "섹시"라는 단어는 '수요는 많지만 구하기 힘든' 것을 의미한다. 데이터 사이언티스트는 구하기도 힘들고 비싸서 고용하기도 힘들다. 특히 과학적 지식, 컴퓨터 기술, 분석력을 두루 갖춘 인재는 찾기 힘들다.
이러한 트렌드에 힘입어 각 대학들은 데이터 사이언스 과정의 개설을 서두르고 있다. 올 가을 콜롬비아 대학을 위시하여 뉴욕대, 스탠퍼드대, 노스웨스턴대, UC계열대학 등이 데이터 사이언스 과정을 개설한다. 뉴욕 타임스는 "노스캐롤라이나대 조사결과 데이터 전공자 평균연봉이 10만 달러를 상회하는 것으로 나타났다. 기업의 수요가 급증하고 있어 데이터 사이언티스트의 인기는 계속될 것"이라고 전했다. 1980~1990년대에 수학, 물리학 전공자들이 월스트리트에서 '퀀트' (Quantitative analyst의 줄임말)로 각광을 받자 대학에서 금융공학 학과를 만들고 전문가들을 배출해낸 과정과 비슷한 경로를 밟고 있다.
경영자들은 데이터 사이언티스트 고용도 힘들지만 인재를 어떻게 알아볼 것인지, 어떻게 회사로 영입할 것인지, 어떻게 생산적으로 만들 것인지도 고민이다. 게다가 성과를 어떻게 측정할 것인지도 고민거리 중의 하나다.
기본적으로 데이터 사이언티스트들이 하는 업무는 대량의 데이터를 구조화하여 분석이 가능하게 만들고, 그 데이터로부터 의미있는 결과를 도출하는 것이다. 따라서 코드를 사용할 줄 알아야 하고 업무 관계자들이 이해할 수 있도록 스토리텔링이 가능하며 결과를 시각화할 수 있는 능력이 요구된다.
가장 중요한 특징은 호기심이다. 문제의 핵심을 파고들고, 질문에 대한 답을 찾고, 검증가능한 가설을 세우는 능력이 필요하다. 이것이 그들을 '사이언티스트 (과학자)'라고 부르는 이유다. 그래서 훌륭한 데이터사이언티스트들은 물리학, 사회과학, 생태학, 시스템 생물학자들 중에서 찾을 수 있다. 이들은 구조화되지 않은 데이터를 구조화하고 이를 분석한다는 점에서 전통적인 '데이터 매니저'와는 구분된다.
◆빅데이터의 현주소
빅데이터는 '21세기의 원유'로 비유된다. 작년 세계경제포럼에서 차세대 10대 기술 중에서 첫 번째로 꼽힌 기술이 바로 빅데이터이다. 리서치 기업인 IDC에 따르면, 첨단기술 공급시장은 연30% 이상 급성장, 2016년까지 240억 달러규모에 달할 것으로 예측된다. 대형 테크놀로지 기업과 창업기업들이 데이터 분석기법 개발을 위한 공격적 경영을 추구하고 있는 이유이기도 하다.
현재 빅데이터의 적용범위는 의학, 과학, 정치, 범죄예방, 공중보건, 스포츠, 에너지, 광고 등 모든 분야에 걸쳐있다. 데이터로부터 의미를 발견하고 의사결정을 하기 위한 빅데이터 의존도가 점점 높아지고 있다.
'빅 데이터'는 포괄적 용어다. 요약하면 3가지 의미를 함축하고 있다. 데이터의 집합, 혁신적인 분석기법, 어떻게 결정을 내려야 하는가에 대한 철학적 관점 등이다.
데이터의 집합이란 웹페이지, 브라우징 습관, 소셜 미디어, 스마트폰으로 찾은 GPS 데이터, 지놈 정보, 감시 비디오 등이다. 데이터의 양은 매년 두 배씩 증가하고 있다. UC버클리의 조사에 따르면 역사가 시작된 이래 지금까지 인류가 집적한 정보는 약 5퀀틸리언(10의 18 제곱) 바이트이다. 그 정도의 정보량은 요즘은 이틀이면 생성된다. 그러나 기하급수적인 정보량의 증가에도 쓸모있는 정보를 찾기는 쉽지않다. 마치 바다에 물이 많아도 마실 수 없는 것과 비슷하다.
따라서 데이터 분석 기법이 나날이 진보하고 있다. 컴퓨터의 정보처리 능력 및 저장은 물론 기계학습 같은 인공지능 툴도 함께 진화하고 있다. 이런 기술의 발전에 힘입어 그전에는 결코 찾을 수 없던 결과들을 도출해 낸다. 빅데이터 기술은 디지털 망원경과 현미경 두 개를 모두 가지고 있는 듯한 효과를 발휘한다. 망원경으로 새로운 은하계를 관측하고 현미경으로 세포의 신비까지 들여다 보게 되는 것처럼.
빅 데이터 지지자들은 빅데이터가 미래의 매지니먼트의 큰 흐름을 형성할 것으로 예견한다. MIT의 디지털 비즈니스센터 소장은 "기업이 계량화할 수 없는 것은 경영할 수 없다"고 말하고 "빅데이터가 생각의 기술과 패러다임을 통째로 바꿀 것" 이라고 주장했다.
그러나 이런추세에도 불구하고 개인정보와 사업적 거래가 분석된다는 점에서 '빅 데이터'는 조지오웰의 '빅 브라더'를 연상시킨다. 따라서 데이터를 수집하고 사용하는데 필요한 기본적인 룰은 무엇인가? 우리는 어떻게 개인정보와 사생활보호의 균형을 맞추어야 하는가? 이런 질문들이 본격적으로 시작되고 있다.