빅데이터, 금융을 바꾸다: 리스크와 신용평가, 그리고 씬파일러

모든 금융 비즈니스의 원가는 결국 ‘리스크’다. 여기서 ‘리스크’란 돈을 어디엔가 투자했을 때 원금을 손실할 위험, 혹은 더 큰 수익을 거둘 수 있었음에도 이를 포기하고 여기에 투자해야 하는 기회비용 따위다.

특히 전자의 경우, 원금이 회수될 가능성이 어느정도인지를 분명히 계산해두지 않으면 사업 자체의 지속성을 확보할 수 없다. 때문에 대출의 경우 원금의 부실화 가능성과 예상 회수기간, 기타 제 비용등을 감안 ‘금리’를 산정하고, 이를 청구하게 된다.

여신업에 있어 씬파일 문제는 정확한 금리를 산정할만큼 충분한 데이터가 없는 데서 나온다. 이런 경우 선택지는 크게 세개로 나뉜다. ‘묻지도 따지지도 않고 300‘을 빌려주거나, 엄청나게 고금리로 때리거나, 아니면 아예 대출 자체를 실행하지 않는 것이다.

200701190091_1_wer1017

묻지도 따지지도 않는 그 분…

빅데이터에 이어 ‘핀테크’가 주목받는 이유가 여기에 있다. 모바일, 소셜, 사물인터넷 등으로 폭증한 데이터가 개인과 기업의 신용을 좀 더 정밀하게 평가할 수 있는 마중물 역할을 하게 된 것. 데이터가 오픈되면 오픈될수록, 돈을 빌려주는 입장에서는 리스크가 내려가고, 빌리는 입장에선 그만큼 더 싸게 돈을 빌릴 수 있게 된다.

분명 양자 모두 윈윈이긴 한데, 데이터 오픈에 대한 대중들의 막연한 거부감을 어떻게 이겨내느냐가 관건.

늘 해오던 이야기이긴 한데, 데이터를 다루는 문제는 일종의 사회계약이 필요한 부분이다. 어느정도까지는 데이터를 오픈해 활용해도 되는지, 어디까지는 금기인지가 법제도 뿐 아니라 관념적으로 재정의될 필요가 있다. 아마도 꽤 많은 사고와 갈등과 송사와 입법, 정치적 논쟁이 필요할 것이다.

데이터의 환금성은 점점 더 올라가고 있고, 아마도 당분간은 데이터 주인이 누군지, 누가 데이터를 통제할 수 있는지, 누가 데이터를 활용할 수 있는지와 관련된 다양한 유형의 갈등들이 더 많이 부각될 가능성이 있다. 법적인 이슈를 피해간다는 소극적인 대응은 기본이고, 대중들의 공감을 얻어내는 방법, 그리고 그 공감의 합리적 근거(물질적, 심리적, 사회적 benefit?)를 제시하려는 노력이 필요하지 않나 생각해본다.

씬파일러 문제는 비교적 갈등의 접점이 적은 분야다. 빌려주는 쪽도, 빌리는 쪽도 데이터를 매개로 모두 이익을 볼 수 있기 때문이다. 그런 맥락에서, 금융에 처음 눈을 뜨는 젊은이들(대표적인 씬파일)부터 시작해, 데이터 ‘품앗이’가 모두에게 이득이 된다는 가시적인 경험을 할 수 있도록 돕고 싶다. 그런 쪽부터 시작하는 것도 방법이지 싶다.

시사인에 송고한 기고문 링크와 함께

초안을 밑에 덧붙여 본다.


혹시 연체나 신용불량같은 특별한 신용상의 문제 없이 카드 발급을 거부당하거나 은행 대출 승인을 받지 못한 경험이 있는가? 만약 그렇다면 당신은 씬파일러(thin fiier)”일 가능성이 높다.

씬파일러는 신용을 평가할 서류의 두께가 얇은, 다시 말해 신용을 평가할 만큼의 충분한 정보가 없는 사람을 일컫는 말이다. 취업을 하지 않아 소득이나 재산 정보가충분히 누적되지 않은 20대 청년층이 대표적인 씬파일러다.

우리나라의 경우 씬파일러는 높은 신용등급을 받을 수 있는 근거가 부족하기 때문에 대부분 보수적인 관점에서 6~7 등급의 중하위 등급을 받게 된다. 일반적으로제1금융권 대출을 받을 수 있는 신용등급이 1~4등급임을 감안하면, 이들은 누군가의 보증이나 부동산 등의 자산이 없는 상태에서 최저 2~3%대 금리의 제1금융권대출을 받을 수 없다. 자연스럽게 씬파일러들은 울며 겨자먹기로 금리가 2~30%로 거의 10배 가량 높은 2, 3금융권으로 눈을 돌리게 된다. 1금융권 입장에서도 대출을 집행해 안정적으로 이자수익을 거둘 수도 있는 잠재고객들을 그냥 돌려보내야 하므로 명백한 손해다.

그나마 우리나라는 국가 주도로 신용조회 라이센스를 발급하고 주민등록번호를 매개로 다양한 정보를 일목요연하게 정리할 수 있기 때문에 나은 편이다. 반면 미국은 특별한 라이센스 없이 사기업 중심으로 신용정보 수집이 산발적으로 진행되며, 주민등록번호와 같은 단일 ID가 없어 신용정보 취합이 어렵다. 심지어 동남아 등제3세계 국가에서는 개인 신용데이터 수집 및 평가라는 개념 자체가 생소해, 휴대폰 연체 정보 등 극도로 제한적인 정보 만으로 신용을 평가한다.

DLD15 Conference Munich - "It's only the beginning" - January 18-20, 2015

최근 각광받고 있는 핀테크분야 스타트업들이 주목하고 있는 지점 중 하나가 바로 이 씬파일러 문제 해결이다. 세계 최대 결제 플랫폼 페이팔(Paypal)’의 창업자인 막스 레브친(Max Levchin)이 만든 미국 기반의 핀테크 결제회사 어펌(Affirm)은 신용카드 없이도 5초 이내에 온라인 신용거래를 할 수 있게 해준다. 이용자가입력한 이름, 이메일 등의 간단한 정보를 통해 개인 신용을 빠르게 평가할 수 있는 자체 신용평가시스템(CSS)이 비결이다. 어펌은 공개된 금융 및 기타 데이터를 활용해 개인 신용을 평가하고, 산정된 부도리스크만큼의 결제수수료를 차등으로 청구한다. 어펌을 통하면 신용카드를 발급받을 수 없던 씬파일러들도 카드거래를 할 수있다.

좀 더 도발적인 모델도 있다. 소셜미디어 정보만으로 개인의 신용을 평가하는 렌또(Lenddo). 이들이 주력하는 시장은 동남아, 멕시코, 콜롬비아 등 씬파일러가많은 나라들이다. 이들은 가입자들의 소셜미디어 데이터를 분석해, 친구/팔로워 수, 결혼 여부, 친구의 영향력, 친구의 렌또 신용도를 기반으로 개인의 신용도를 평가한다. 렌또는 자체 개발한 렌또스코어로 가입자의 신용을 1점에서 1000점 사이로 계량화하고, 이를 토대로 신용카드 발급을 보증하기도 한다. 이러한 대안적 신용평가 방법론만으로도 95%의 대출고객이 성실하게 대출금을 상환한다고 한다. 대출 고객의 사회적자본을 계량화해 신용도를 산정하는 렌또의 실험이 성공한다는 것만으로도 기존 신용평가 방식에 대한 큰 도전이다.

개인의 심리테스트로 신용을 평가하는 회사들도 늘어나고 있다. 대표적인 회사인 영국의 비주얼디엔에이(VisualDNA)는 인성평가를 신용평가에 적용해 마스터카드와 러시아, 터키, 멕시코, 말레이시아, 폴란드, 남아공 등에서 시범 테스트를 진행했는데, 신용카드 및 신용대출에서의 부도율이 23% 감소한 결과를 얻었다.

페이오프(Payoff)는 행동과학자이자 심리학자인 갈랜 벅월터(Galen Buckwalter)가 개발한 10개 인간 유형 분류를 대출 심사나 고객응대에 활용한다. 예컨대씀씀이가 헤픈 스토리텔러유형의 고객들은 대출 심사 기준을 까다롭게 하고, 꼼꼼한 아키텍트유형에게는 좀 더 느슨하게 심사한다. 국내에서도 어니스트펀드를 운영중인 비모가 성균관대 심리학과 장승민 교수 팀과 인성평가 기반 신용평가모델을 구축하고 있다.

대출 고객에게도, 금융기관에게도, 씬파일러 해결을 위한 빅데이터 분석 도입은 윈윈(win-win)이다. 유출과 오용을 막을 수 있는 엄격한 데이터 관리 원칙을 전제로, 최대한 많은 데이터가 흐를 수 있도록 제도를 정비할 필요가 있다

시사주간지 시사인에 송고한 글 원문입니다. 기고문 링크는 아래에 :)
http://www.sisainlive.com/news/articleView.html?idxno=24830

측정의 사회성 – 문명과 은유, 그리고 사회계약

최근에 EBS에서 “과학, 철학을 만나다”라는 엄청난 타이들의 강의를 방영했다.
과학도 어려운데 심지어 그런 과학이 철학을 만났다고 해서,
도대체 어떤 강의인지 궁금해 열심히 보기 시작했다.
장하석 케임브리지 석좌교수의 친절한 (그리고 약간은 어눌해보이는) 설명 덕분에,
매우 어려울 수 있는 내용임에도 불구하고 깊이 몰입해 볼 수 있었던 것 같다.

흥미로운 대목들이 꽤 많았으나,
그 중에 특히 3강 “자연의 수량화”가 눈에 들어왔다.
강의 일부가 이렇게 친절하게도 유투브에 공유되어 있다! (EBS 만세!)

 

측정은 은유다!

몇 가지 흥미로운 대목들을 공유해 보면,

너무도 당연하고 자연스럽게들 생각하는
‘온도’라는 개념은
오랜 기간 동안 진행되어 온 사회적 합의의 산물이다.

물이 얼어붙는다는 ‘섭씨 0도’는 어떻게 정의하나?
얼었을 때 항상 같은 점까지 올라온다면, 물이 같은 온도에서 언다는 식으로 정의할 수 있겠지만
‘초냉각’ 현상도 있다. 순수한 물이 0도보다 낮음에도 불구하고 얼지 않는다.
그럴 때 불순물을 넣으면 갑자기 언다. (화씨(파렌하이트)가 1720년쯤에 발견.
섭씨처럼 빙점을 온도의 고정점으로 쓰는게 곤란해지면서 화씨(파렌하이트)가 생겼다.

온도계 고정점의 역사는 측정의 역사를 잘 보여준다.
과거에는 그럴듯한 고정점들이 많이 제안되었는데

  • 여름에 가장 더운 날씨와,
    겨울에 가장 추운 날씨를 고정점으로 하거나
  • 버터가 녹는 점을 높은점으로(끓는 점이 아니고!),
    깊은 지하실 온도를 낮은점으로 (제주도 만장굴 온도는 4계절 비슷)
  • 아이작 뉴튼은 혈온(blood heat)을 높은점으로,
    눈이 녹을때를 낮은점으로

이처럼 다양한 기준들이 제시되었기 때문에
과학자들이 온도계 고정점에 동의하는 데까지 꽤 오랜 시간이 걸렸다.

생각해 보면 우리가 접하는 모든 것들은
소위 말하는 ‘비정형 데이터‘다.
쉽게 셀 수 없고, 쉽게 더하거나 뺄 수 없는,
다시 말해, “구조화되지 않은” 날것인 경우가 많다.

이 내용도 “과학, 철학을 말하다” 강의에서 언급된 적이 있는 내용인데,

“온도의 높고 낮음도 일종의 은유(metaphor)다”

높다와 낮다는 위치의 차이를 반영한 개념이다.
반면 온도가 높고 낮은 것은, 분자의 활성화 정도를 나타내는 개념이다.

이를 표현해주는 ‘온도계’가 없었다면,
혹은 온도계의 눈금이, 분자가 더 활성화된 상태를 아래로 표시했다면
온도가 낮다는 것의 의미와 높다는 것의 의미가 뒤바뀌었을 수도 있다.

다시 말하자면,
수량화된 값들 중 상당수가 이처럼
사회적 합의에 따라 만들어진 “은유의 산물”이라는 것이다.
(사과 한개 두개, 손가락 한개 두개, 이런건 물론 제외다)

실제로, 고대사회에 길이를 측정하는 단위들은
왕의 손가락, 왕의 발바닥, 왕의 팔꿈치와 손가락사이의 길이를 가지고 만들어졌다.

예를 들면

“이 돌은 왕 발바닥 10개만하다”

완벽한 은유다.

 

기준을 어떻게 통일할 것인가?

다만 이 과정에서 문제가 생긴다.

이전 왕의 발바닥 크기와, 현재 왕의 발바닥 크기가 다르다면? (당연하다)
우리나라 왕의 발바닥 크기와, 옆 나라 왕의 발바닥 크기가 다르다면? (매우 당연하다)

만약 갈릴레이의 ‘시간측정법’처럼, 맥박을 가지고 시간을 규정했다면
그리고 아마도, 시대가 시대였던 만큼, 왕의 맥박으로 규정되었을 텐데
왕이 차분할 때와 왕이 흥분했을 때의 시간 측정단위가 달라져버린다.

이처럼 기준이 불균질하고 불균등할때
어디서든 보편타당하게 적용될 수 있는
측정기준을 확립하려는 움직임들이 곳곳에서 일어난다.

그리고 이러한 움직임은 매우 정치적인 행동이기도 하다.
진시황, 다리우스 등, 역대 통일제국의 제왕들은
도량형을 통일해, 균일한 측정도구를 제국 내에 강요했다.
측정은 통제를, 통제는 권력을 주기 때문이었을 것이다.

이러한 상황 속에서, 힘 있는 자들끼리 열심히 싸우다 보면
결론이 안 난 채로 무엇 하나 제대로 측정할 수 없었을 것이다.
다행히도 인류는 이러한 상황을 잘 극복해 왔다.
이는 아마도 장하석 교수가 제시한
“관례주의(conventionalism)’적인 접근의 산물이 아닐까 한다.

간단히 설명하면

기준이 없는 상태에서 기준을 만들면
순환논리에 빠질 수밖에 없다.
예컨대, “신은 위대하다. 고로 위대하지 않은 일을 할 리 없다”라고 하면
이미 신이 위대하다고 해 버린 상황이므로, 무슨 말을 해도 앞의 대전제로 논리가 회귀한다.

이런 불가지론스러운 상황 속에서 그나마 할 수 있는 옵션은

  1. 감각을 신뢰
  2. 연구를 통해 좀 더 나은 측정도구를 찾음
  3. 감각을 보완

있는 걸로 시작해서 시작하고,
더 나은 길이 나오면 원 기준을 수정하고 정제해서 반복한다.
물려받은 기준을 존중하는 것으로 시작하되,
절대적으로 복종하지는 않는다.

과학의 역사는 측정도구 발전의 역사일 수도 있겠다는 생각이 든다.
더 좋은 측정도구가 더 의미있는 결과를 뽑아내고
또 다른 측정대상과 도구를 정의한다.
그것이 새로운 개념, 사물, 서비스, 사회조직, 문화를 만들고
또 다른 측정대상을 만들어낸다.

이렇게 놓고 보면
측정의 역사는 곧
인류 문명 발전사라고 봐도 과언이 아니다.

 

우리는 왜 재는가?

여기서 좀 더 원초적인 질문으로 넘어가 본다.

우리는 왜 재는가?

장하석 교수 강의에서는 명시되지 않았지만
아마도

건물을 짓고(길이),
잉여를 나누고(숫자),
특정한 시점(시간)에 약속하고
특정한 상태에서 가공하는 노하우를 전수하기 위해 (온도)

다시 말해 “사회적 커뮤니케이션” 때문이었다고 이해하는 것이 타당할 것이다.

커뮤니케이션은 문명의 원천이다.
사람과 사람 사이의 감성과 의지의 공유
문명과 문명 사이의 문화와 정보, 기술의 공유
세대와 세대 간의 노하우 전수
이 모든 과정이 없었다면 현대 문명은 존재할 수 없었을 것이다.

다시 한 번 강조하지만,
측정 자체가 문명이다.

 

그놈의 빅데이터…왜 수집해야 하지?

데이터분석을 하는 입장에서
특히 ‘빅데이터‘의 태반이 비정형데이터라는 것을 감안하면
사실 모든 정형데이터가 비정형데이터이며
비정형 상태에서, 기존에 형성된 관념의 은유를 통해 정량화된다는 사실을 리마인드해준
장하석 교수의 강의는 한줄기 빛과 같았달까?

또 한가지.
문명이 고도화될수록
측정해야 할 대상은 늘어나 왔다.

그리고 측정대상이 단기간 동안 가장 폭발적으로 증가하는 시기가
바로 우리 시대가 아닐까 한다.

시간, 온도, 길이, 습도, 무게 등,
근대에 이르면서 비교적 간단히 은유화된 소위 ‘정형데이터’ 뿐 아니라

내 말 속의 긍/부정(감성분석)
내 맥박과 뇌파, 심전도, 피, 체성분
내 위치정보, 통화시간, 친소관계,
내 신용정보, 결제정보, 구매정보, 재방문율, 소비성향 등
각종 정보가 계측되고 분석되면서 나를 평가하는 시대가 되었다.

여기서 가장 중요한 것은
“합의”인 것 같다.
데이터는 모이긴 하는데,
그 데이터를 제대로 분석해서 잘 써먹는 경우는 흔치 않고
제대로 관리 못해서 여기저기 흘리고 다닐 뿐 아니라
데이터를 준 사람들이 누릴 뚜렷한 혜택도 별로 없다.

우리가 온도를 재고, 혈압을 재고, 피검사를 하는 이유는
‘건강’한 삶을 살기 위해서다.
비교적 깔끔하고 명확한 목적이다.

반면에, 데이터 중심사회로 넘어가고 있다고는 하지만
아직 사람들이 왜 데이터를 모아야 하며, 그게 어떤 혜택을 줄지
입을 수 있는 피해를 어떻게 모면할 수 있을지에 대해
사회적으로 합의한 내용이 있다는 소리는 듣지 못했다.

아니, 사실은
그런 시도가 있다는 이야기도 듣지 못했다.

빅데이터를 이야기하기 전에
왜 그것이 필요한지,
어디까지 측정해야 할지,
누가 데이터를 다루고, 누가 어떤 방식으로 관리할지,
관리가 잘 안되거나 오용되었을 때엔 어떻게 징벌할지에 대한
포괄적인 “사회계약“이 한번 더 체결될 필요가 있다는 생각을 자주 하게 된다.

몇 년, 몇 십년, 아니 몇 세대가 걸릴지는 아무도 모르겠지만….. :)

 

 

[148] 이커머스 비즈니스에서 ‘고객생애가치’를 추정하는 방법; 코호트 분석의 예시 (How to estimate lifetime value for an ecommerce business; Sample cohort analysis)

Under the Radar

최근 이커머스 업계에서는 데이터 분석이 매우 중요시되고 있습니다. 이커머스의 성공을 위해서는 타이트한 데이터분석을 통해 고객을 이해하여 상품, 마케팅, UX 등을 꾸준히 개선해나가는 것이 필수입니다. 그중에서도 최근 가장 필수로 여겨지는 것이 바로 코호트 분석(Cohort Analysis)인데요. 이것은 단순히 월 매출로 비즈니스를 판단하는 것이아니라, 고객획득 시점을 기준으로 꾸준히 그 고객들의 행동을 추적해나가는 것을 뜻합니다. 이 방법을 통해 그 당시의 마케팅 효율을 물론 리텐션 정도까지 면밀하게 분석할 수 있습니다. 이 코호트 분석에 대해 간략하게 잘 설명해놓은 글이 있어 공유해볼까 합니다. 이커머스 업계에 종사하시는 분들께는 특히 도움이 되리라 생각합니다. (원문 링크 : http://lsvp.com/2012/06/15/how-to-estimate-lifetime-value-for-an-ecommerce-business-sample-cohort-analysis/, 번역문-원문 병기)


이커머스 비즈니스에서 고객생애가치(lifetime value)를 추정하는 방법; 코호트 분석(cohort analysis) 예시
How to estimate lifetime value for an ecommerce business; Sample cohort analysis

몇 년전 저는 서브스크립션 비즈니스에서 고객의 생애가치를 추정하는 법에 대한 글을 썼습니다. 그 글에서 사람들이 템플릿으로 사용할 수 있는 코호트 분석 샘플도 올려놨습니다.
A couple of years ago I did a post on how to…

원본 글 보기 788단어 남음

갑자기 떴을 때 조심하자 – 윤창중과 청와대 관계망 분석

갑자기 주목받을 일들이 생기면 주변의 달콤한 이야기들에 휩싸여 스스로를 가누기 굉장히 어렵다. 그래도 상식적인 사람들은 최대한 중심을 잡으려 노력하는 편이긴 한데, 관심을 상대적으로 덜 받아왔거나 무시당해왔던 사람들은 스스로를 증명할 기회가 온 양 착각하고 겸손함을 잃게 될 가능성이 높다. 가장 대표적인 사례가 히틀러 아닐까 싶다.

시사저널과 함께 분석한 청와대 인맥 관계망 분석(정관계 파워엘리트 관계망 분석으로는 3차인듯)을 진행하면서 새삼스럽게 조심 또 조심해야 한다는 것을 절실히 느꼈다. 물의를 일으키고 사퇴했던 윤창중 전 대변인 때문이다.

시사저널에 송고한 글 원문입니다. 기고문 링크는 아래에 :)
http://www.sisapress.com/news/articleView.html?idxno=61605

금년 3월과 11월 청와대 인맥을 비교한 이번 분석은, 관료 중심의 실무형이던 청와대 관계망(허브: 조원동 경제수석)이, 측근 위주의 대단히 수비적인 관계망(허브: 김기춘 대통령실장)으로 개편되었다는 사실을 잘 보여준다.  일반적으로 이런 인선은 정권 말 게이트들로 정권 안보가 휘청거릴 때 나온다고들 하는데, 집권 1년차에 벌써 측근 위주의 내각이 꾸려진 걸 보면 정권 수뇌의 위기감 수준이 꽤 높다는 것을 알 수 있다.

관련 내용은 기사 원문을 참조하시고, 이 포스팅에서는 2013년 3월의 관계망만 다뤄볼까 한다.

 

131120_3월_빈도1

그림 1. 2013년 3월, 청와대 비서관 52명 중 인맥이 1회라도 겹치는 사람들의 관계망

한 번이라도 인연이 겹치는 사람들을 모두 연결했을 때의 관계망은 다음과 같다. 파란색과 빨간색 그룹은 주로 사시-행시 등 고시 출신의 관료 집단이다. 딱 봐도 연결이 견고하다. 인연이 2회 이상 겹치는 사람들도 꽤 많아서, 연결선도 더 굵게 나타난다.

하단의 군부 그룹을 제외하면, 연두색 그룹은 외곽에 있다. 윤창중 전 대변인도 연두색 그룹 안에 있는데, 누가 봐도 외곽에 있지만, 힘 있는 사람들 (허태열 전 대통령실장, 정호성 전 박근혜의원 보좌관)과의 몇몇 연결고리가 보인다. 들리는 이야기에 의하면 윤 전 대변인은 김행 대변인을 대놓고 무시했었다고 하는데, 관계망만 봐서는 확실히 김행 대변인보다는 힘이 있어 보인다. 그렇다고 절대 핵심부는 아니다. 밑의 그림을 보면 답이 바로 나온다.

캡처

그림 2. 2013년 3월, 청와대 비서관 52명 중 인맥이 2회 이상 겹친 사람들의 관계망.
좌측의 윤창중 전 대변인은 2회 이상 연결된 인맥이 없어 관계망에서 고립되어 버렸다.
우하단에 있는 보좌관 출신 ‘문고리권력’ 3인방(정호성, 안봉근, 이재만)도
윤 전 대변인과 비슷한 이유로 관계망속에서 매우 취약한 상태다.

연결빈도가 2 이상인 사람들만 시각화해보면 윤창중 전 대변인은 관계망에서 고립된다. 인맥이 2번 이상 겹치는 사람이 없었던 것이다. 윤 전 대변인은 이렇게 취약한 관계망 속에 있다는 사실을 자각하지 못하고 경거망동하다가, 그런 초대형 국가망신 사건을 일으키고 개인 커리어도 수습 불가능할만큼 망가져버렸다.

타인과의 관계가 ‘힘’의 전부는 아니다. 나의 역량과 내공도 중요하고, 외부 환경변화도 중요하다. 그 속에서 명성이나 지위는 바람에 나는 ‘겨’와 같이 한 번에 날라가버리는 허울 같은 것이다.

고작 연결빈도 빈도 2로 올리고 바람 한 번 후 불자 사라져버릴 가벼운 관계망 속에서, 일시적으로 권력에 취했다가 사고 치고 자기 집 아파트 깊은 곳에 숨어버린 윤 전 대변인이, 명성과 지위를 향해 부나방처럼 달려드는 수많은 야심가들에게 꽤 의미있는 타산지석이 될 수 있지 않을까 싶어 공유한다.

심야버스의 비밀, 데이터의 벽을 허물수록 가치는 커진다

어김없이 공개된 금주 시사인 기고문.

이 글에 대한 소셜 반응을 보니 빅데이터 이야기와 데이터베이스 이야기가 혼재되어있다는 피드백도 있던데, 이는 매우 타당한 지적이라고 생각한다. 그것이 빅데이터 담론의 현 주소이기도 하다.

데이터 간의 장벽을 허물면 데이터의 가치는 더욱 커진다. 그것을 할 수 있는 건 사람이다. 그리고 조직간의 신뢰다.

이런 신뢰를 꾸준히 축적해갈 수 있는 파트너들이 주변에 많이 있었으면 좋겠다. 모두가 이길 수 있도록 :)

 


 

빅데이터를 미래의 원유라고 한다. 원유를 가공해서 수많은 물질로 변형해 사용할 수 있듯이, 빅데이터도 데이터 수집시의 용도뿐 아니라 전혀 생각하지 못했던 다양한 용도로 변형해 사용할 수 있기 때문일 것이다.

원유에서 새로운 물질을 만들어내기 위해 원유 정제 과정에서의 배합에 주목해야 하듯, 빅데이터에서 새로운 가치를 뽑아내기 위해서는 이질적인 데이터 집합 간의 배합, 즉 ‘매시업(mash up)’에 주목해야 한다. 이 과정에서 의도하지 않았던 부수적 가치가 당초에 특정 데이터를 수집할 때 기대했던 가치보다 커질 수 있다. 꼬리가 몸통을 더욱 잘 흔들면 흔들수록, 좋은 빅데이터 분석이다.

18411_36483_5345

최근에 국내에서 이질적인 데이터 간의 매시업을 통해 새로운 가치를 창출한 가장 좋은 사례는 서울시 ‘심야버스’일 것이다. 서울시는 서울을 주요 버스정류장 중심으로 반경 1km의 헥사 셀 1,250여 개로 나누고, KT에서 제공받은 2013년 3월 한달 동안의 가입자 심야 통화 기지국 위치 데이터 약 30억 건과 가입자 청구지 주소 데이터, 그리고 스마트카드를 통한 택시 승하차 정보 1주일치 데이터를 확보한 후, 여기에 노선 부근 유동인구 가중치를 계산해 분석했다. 이를 통해 금년 4월부터 2개의 심야버스 노선이 시범 운영되었고, 설문조사 결과 서비스 만족도가 80.15점, 서비스 확대 요구가 88.4%에 달하는 등 시민들로부터 좋은 반응을 이끌어 내면서 금년 9월 12일부터 9개 노선으로 확대 운영 중이다.

서울시의 ‘심야버스’ 사례는, 내부 데이터는 물론이고 외부 기업데이터를 적극 활용하는 데그치지 않고 이해관계자들을 잘 조율해 새로운 가치를 창출했다는 점에서 호평 받을 만하다. 기업이나 기관들 간에 데이터를 공유하는 것은 매우 어려운 일이다. 심지어 같은 기업이나 기관 내에서조차도 부서들 사이의 데이터를 공유하기 위해서는 꽤 많은 노력과 인내가 필요하다. 더군다나 심야버스 도입은 택시기사들의 이해관계와 직접적으로 상충될 수 있는 사안이므로 고도의 정치 행위가 수반되어야 한다. 심야버스 도입과 택시기본요금 인상이 맞물린 것은 우연이 아닐 가능성이 높다.

빅데이터 활용 활성화는 매시업에 달려있고, 매시업 활성화의 키(key)는 정부가 쥐고 있다. 기업들은 조직간 데이터 공유의 벽을 허무는데 소극적일 수밖에 없다. 매출과 이익, 고객 확보와 직결될 수 있고, 심지어는 법적인 책임을 지게 될 수도 있기 때문이다. 때문에 데이터를 둘러싸고 벌어지는 고도의 정치적 행위를 조율하는 유능한 정치가와 행정가가 반드시 필요하다. 공공데이터 공개에 소극적이던 미국은, 오바마가 취임 첫날 연방 기구 수장들에게 “최대한 많은 정부데이터를 개방하라”고 지시한 이래 ‘열린 정부’를 주도하는 국가가 됐다. 2013년 11월 현재 data.gov에 축적된 미국 정부의 224개 기관이 제공한 약 9만개 데이터 집합(set)으로 늘어났다. 영국은 www(world wide web)을 처음으로 고안하는 등 고도의 상징자본을 가지고 있는 인터넷의 아버지 팀 버너스 리(Tim Berners-Lee)가 ‘오픈 데이터 연구소(Open Data Institute)’를 통해 공공정보 개방을 이끌고 있다.

기술이 고도화될수록 사람들이 할 일은 더욱 더 고도화된다. 인사이트는 데이터 안에 묻혀있지만, 성과를 만들어내는 것은 결국 사람이다. 이는 비단 분석 인사이트 발굴에 그치지 않는다. 개인과 조직간의 이해관계를 조율하고, 의미 있는 데이터들 사이의 연결을 적극 추진할 유능한 정치가와 행정가의 활약이 절실하다. 우리 정부가 구축한 공공데이터 포털(data.go.kr)에 올라온 데이터 집합 수는 아직 2,461건뿐이다.

시사주간지 시사인에 송고한 글 원문입니다. 기고문 링크는 아래에 :)
http://www.sisainlive.com/news/articleView.html?idxno=18411

더 이상 시장을 쪼개지 말자. 마이크로타게팅으로 고객을 개발하자

금주에도 어김없이 시사인 기고문 링크가 풀렸다. 근데 이번주 기고문은 아쉽게도 편집 과정에서 가장 핵심적인 부분이 누락되어버렸다. 아무래도 원문을 공개해야 기고문의 의도가 더 잘 살아날 것 같다는 생각이 든다.

빅데이터와 마이크로타게팅은 여태까지 시장과 고객을 바라보던 몇 가지 대전제들을 근본적으로 뒤흔들어놓을 것이다. 그 중 가장 중요한 것은 인간이 단면적이라는 환상이다. 과거 전통적 마케팅은 특정 세대, 특정 소득, 특정 성별, 특정 지역에 살면 모두 비슷한 욕구(needs)를 가질 것이라는 전제로, 많게는 고작 몇백 명에서 몇천 명, 적게는 유저 몇 명 인터뷰해서 몇 가지 기준으로 사람들의 욕구를 쪼개고 ideal point에 제품을 우겨넣고, 매스미디어 광고로 밀어내면서 제품을 판매해 왔다. 하지만 이런 방식으로는 빚내서 명품사는 여대생이나, 하루 종일 알바해서 최신휴대폰 할부금을 근근히 내고, 백억 대 빌딩 펜트하우스에 살면서 전기 아깝다고 선풍기만 틀게 하는 따위의, 인간의 다차원적인 모습을 입체적으로 규명할 수 없다. 상황과 맥락에 따라 사람들은 다양한 가면(persona)을 쓰고 있기 때문이다.

모수에 가까운 데이터를 수집할 수 있는 빅데이터 시대엔 굳이 샘플링할 필요가 없다. (물론, 아직까지는 예산이 넉넉해야 한다) 대신에, 연상되는 다른 제품이나 서비스, 혹은 더 나아가 인식의 ‘프레임’을 포착하고, 그들에게만 선별적으로 제품을 팔면 된다. 인간의 욕구를 조사할 수 있는 도구는 다양해지고 있고, 측정 방식은 정교해지고 있으며, 분석 시간도 빨라지고 있다.

굳이 가설을 정밀하게 세워서 크게 실패할 필요도 없다. 소수의 사람들에게 A/B 테스트를 하면 된다.

이러한 신세계를 먼저 탐험하고 있는 회사들이 있다. 이번 기고문에서 소개한 A2B Korea라는 회사가 그 중 하나다. 이 회사 윤영선 대표님과 트리움정성영님이 멋진 시도를 하셨었는데, 자세한 내용은 아래 링크의 정성영 님 블로그 글에 상세하게 설명되어 있다. :)

제품을 개발하는 회사 vs. 고객을 개발하는 회사

소셜미디어나 모바일앱 등을 토대로 개인화되고 있는 반응성 웹 등은 이러한 추세를 점점 더 가속화시킬 것이다.


 

Barack Obama, Suzanne Stern

지난 2012년 미국 대선에서 오바마 캠프의 캠페인 매니저였던 짐 메시나(Jim Messina)는 “2012년 선거는 2008년 선거를 구석기시대처럼 보이게 할 것”이라고 호언장담했다. 그의 호기 어린 발언의 근거는 바로 ‘마이크로타게팅’이라 불리는 데이터 기반(data-driven)의 선거운동 전략이었다.

실제로 오바마 캠프는 약 1억 9천만 명의 유권자들과 관련된 약 1,000여가지의 데이터 항목을 기반으로 선거운동을 벌였다. 여기에는 유권자 개인의 주소, 전화번호, 사진, 나이, 직업, 인종, 결혼여부, 취미, 과거 지지 후보, 정치후원금 기부내역, 보유 차종, 신용카드 사용액, 물품 구매 내역 등의 오프라인 기반 데이터는 물론, 페이스북이나 트위터, 인스타그램, 핀터레스트, 유투브 등 소셜미디어 계정 활동을 통해 축적된 각종 개인정보가 포함되었다. 가히 ‘빅데이터’라 할 만하다.

이렇게 수집된 정보를 통합적으로 분석하기 위해 컴퓨터공학, 언어학, 통계학, 수학, 물리학, 사회심리학 등 다양한 전문분야의 최고 전문가들이 모여 약 240개의 유권자 설득 스토리들을 만들어 냈고, 이 스토리를 특정 그룹의 유권자들에게 전달해 후원금 모집액을 비교하는 A/B테스트를 연쇄적으로 시행해 이메일로만 6억 9천만 달러의 선거자금을 모금하는 성과를 거두었다. 이 때 발송된 메일 내용을 보면, 같은 가족구성원 내에서 아버지와 어머니, 딸에게 전달된 내용이 모두 달랐다고 한다. 지역이나 세대, 가구 단위로 덩어리 지어 분석하던 기존 데이터분석을 ‘석기시대’의 것으로 일축할 수 있을 만큼 정교하고 영리한 분석이었다.

이러한 세밀한 데이터 분석을 통해 추출된 중간층(swing voter)을 대상으로 설득작업을 집중한 결과, 경합주 9개 중 8개를 오바마가 싹쓸이하며 여유 있게 재선에 성공한다. 그리고 오바마 캠프 데이터 분석팀 출신들은 영미권의 주요 기업들에서 스카우트 1순위로 떠올랐다.

기존의 마케팅 기법은 STP(Segmentation, Targeting, Positioning) 전략, 즉 4P(Product, Price, Place, Promotion)로 대표되는 마케팅 믹스를 시장 내에 존재하는 다양한 표적시장 별로 재 조합해 배분하는 포지셔닝 전략이 주를 이뤘다. 대형 할인마트라는 채널(Place)을 통해 저가(Price)의 양산형 제품(Product)을 할인쿠폰 행사를 통해(Promotion) 서민들 대상으로(Segmentation, Targeting, Positioning) 판매하는 식이다.

이러한 전략에는 인간이 비슷한 조건 하에서 비슷한 욕구(needs)를 가지게 된다는 전제가 깔려있다. 그리고 이러한 전제의 배경엔 시장조사 수행상의 제약조건들이 크게 영향을 끼쳤다. 수집할 수 있는 데이터의 종류가 적었으며, 이를 수집하고 분석하는 데 최소 몇 달 이상을 써야 했다. 오바마 캠프처럼 1억 9천만 명에 대한 1,000여 개의 데이터 값을 한 번에 분석할 수 있는 슈퍼컴퓨터 급의 컴퓨터 인프라를 갖추기도 어려웠다. 그러다 보니 몇 백에서 몇 천의 표본을 특정 기준에 맞춰 추출해 수행하는 정량조사(quantitative research)나, 중요한 인물들 몇 명씩을 뽑아 인터뷰를 진행하는 정성조사(qualitative research)가 시장조사를 위한 몇 안 되는 대안의 전부였다. STP 전략을 위시한 기존 마케팅 패러다임은 이러한 한계 속에서 배태되었기 때문에, 소득이 낮은 사람들이 명품이나 고가의 휴대폰에 오히려 더 열광하고 부유층이 오히려 저가 상품을 선호하는 따위의, 역설적이고 다차원적인 인간 욕구의 고차방정식을 풀기에는 역부족이었다.

그 대안으로 빅데이터에 기반한 마이크로타게팅 기법이 떠오르고 있으며, 생각보다 꽤 가깝게 우리 곁에 다가와 있다. 기초적인 수준이지만, 이미 페이스북은 마이크로타게팅 광고를 집행할 수 있는 플랫폼을 구축하고 있다. A2B Korea라는 전기자전거 수입 업체는 이를 활용해 창업 첫 달 만에 4천만원의 매출을 올리고, 3개월 만에 2차, 3차, 4차 예약판매까지 조기 종료되는 성과를 거두었다. 이 회사가 판매하는 전기자전거는 한 대에 최소 150만원을 호가하는 고가의 자전거였고, 따로 판로를 가지고 있던 것도 아니었다. 오로지 페이스북 타게팅 광고 만으로 거둔 성과다.

이들은 고객개발워크숍을 통해 전기자전거 구매에 흥미를 느낄 만한 퍼소나(persona) 4개를 추출하고, 페이스북 타게팅 광고에서 제공하는 다양한 옵션들(성별, 연령, 거주지, 좋아하는 운동, 좋아하는 음악, 종교, 사용하는 모바일 디바이스 등)을 적용해 각 퍼소나의 클릭율(CTR)을 비교 측정하는 일종의 A/B 테스트를 시행했다. 그 결과, 애플 제품과 외제차를 좋아하는 고액 연봉의 전문직 종사 30대 싱글 남자 퍼소나 그룹에서 잭팟이 터졌다.

불확실하고 부정확한 시장 조각(Segment)에 자원을 투여하는 대신, 빅데이터 기반으로 퍼소나에 대한 가설 몇 개를 구축해 데이터를 통해 검증하는 마이크로타게팅은 장차 만개하게 될 ‘스마트 데이터’ 기반의 새로운 마케팅 패러다임의 서막을 연 것에 불과하다. 눈치 빠른 마케터들은 벌써부터 움직이기 시작했다. 변화는 빨라지고 있고, 준비는 빠를수록 좋다.

시사주간지 시사인에 송고한 글 원문입니다. 기고문 링크는 아래에 :)
http://www.sisainlive.com/news/articleView.html?idxno=18274

[수능특집] 재미로 보는 전공선택 가이드

오늘이 수능이라고 한다. 본지 오래되서 기억도 가물가물한데, 수능 보고나면 원서쓸 때 어떤 학교 어떤 과에 넣어야 할지 고민이 꽤 되었던 기억이다. 졸업 후 전망도 중요하고, 재미도 중요한데, 정확히 어떤 전공이 유망할지, 어떤 전공이 재미있을지 감이 잘 오지 않아 고민했던 기억도 난다. 직접 경험해보지 않고, 부모님이나 선생님, 혹은 친구나 선배들 말만 듣고 의사결정을 해야 하니 더욱 더 힘들었던 것 같다.

이럴 때 유용한 게 관계망분석(social network analysis)이다. 개별 전공의 속성만 보지 않고, 어떤 전공들과 연결되는지 관계를 시각화해서 그 관계 속에서 얼마나 중요한 위치에 있는지 살펴보는 것이다. 중심부에 있을수록, 혹은 다른 전공들 사이를 잘 매개할수록 중요도가 높은 전공이다.

수능을 맞이하여 어떤 전공과목을 공부하는게 중요한지 네트워크분석을 해 봤다. 특정과목을 공부할 때나 나중에 사회에서 활용할 때 연관성이 높은 것들을 연결했다. 문과 출신이다보니 이과쪽 과목들에 대한 연결은 다소 틀릴 수 있다.

너무 다큐로 보지 마시고, 흥미거리로 휘리릭 봐 주시길 :)

캡처

컴퓨터가 자동으로 분류한 그룹을 보면 문과계통과 이과계통이 정확히 나뉜다. 이 중 결절지점에 있는 통계학이나 수학, 철학, 심리학은 기본중의 기본이라고 할 수 있을 것 같다. 이 4개 중 1~2개는 자유자재로 다룰 수 있어야 유능한 인재라고 할 수 있지 않을까?

대충 보더라도, 네트워크 가운데에 있는 과목들이 중요해 보인다. 이 중에서 ‘매개중심성(betweenness centrality)’을 가지고 순위를 세워보면 다음과 같다. 참고로 매개중심성은 다른 전공 사이를 잘 매개하는 정도를 나타낸 지표다.

캡처2

수학, 경영학, 통계학, 산업공학, 사회학, 경제학 순이다.

이런 전공을 꼭 택하라는 것은 아니지만, 부전공이나 이중전공, 복수전공 등을 통해서라도 해당 분야에 대한 이해도가 높아야 여러모로 유리하지 않을까 싶다.

참고하시길 :)

수험생 여러분들 수고하셨구요!

참고: 생물학, 도시공학 등등 다양한 학문들이 빠져있는데, 나중에 시간되면 다 넣어서 다시 분석해보려 합니다 :)