신재현 bio photo

신재현

저는 ...더보기

Email Github Stackoverflow LinkedIn

작년 이맘때, 그야말로 빅데이터 붐이었다. 개발자들 뿐만 아니라 비지니스를 하는 수많은 사람들이 Hadoop같은 빅데이터 처리기술이나 NoSQL에 많은 관심을 가지고 있었다. 나도 그 시류를 타고 싶었다.

하지만 ‘빅데이터를 활용해 무엇을 무엇을 해볼까?’라는 질문에 선뜻 답하기 어려웠다. 아마도 내가 직접 만질 수 있고 서비스에 적용해 볼 수 있는 ‘빅데이터’가 주변에 없었기 때문이었을 것이다. 당시 개발하고 있던 서비스는 A/B 테스트조차도 신뢰를 얻기 힘들정도로 모집단이 적었다.

자연스럽게 빅데이터에 대한 갈증보다 ‘난 데이터를 볼 수 있는가?’라는 의문에 아쉬움이 컸졌다. 매일 구글 애널리틱스만 들여다보고 있었다. 그것을 완벽하게 활용하고 있다고 말하기도 힘들었지만 G.A 만으로는 많은 것들을 놓치고 있다는 생각이었다. 무엇보다 통계라곤 합계와 평균밖에 몰랐다.

중요한 것은 이미 내가 지속적으로 만들고 운영하는 서비스에 쌓여있는 데이터를 빠르고 정확하게 살펴보고 필요한 질문에 답하는 것이다. 이것이 첫번째다. 그것을 공유하고 교훈을 만들어가는 것이 두번째다. 이것이 당시 내게 더 필요했다.

그렇게 코세라를 통해 존스 홉킨스 대학에서 진행하는Data Science Specialization 코스를 시작했다. 중간에 드랍도 하고 일이 바쁘다는 핑계로 쉬기도 했지만(그래서 1년이 흘러버렸지만), 4주짜리 코스 9개와 8주짜리 프로젝트를 완료했다.

Data Science Specialization Certificate

덕분에 R을 통해 수십개의 Relational Data를 SQL보다 더 빠르고 편하게 탐험1 해보며 살펴 볼 수 있게 되었고, 데이터를 정제하여 그래프나 문서등의 다양한 형태의 Output으로 만들어 볼 수도 있게되었다.2 맛보기로나마 머신러닝3 도 경험해볼 수 있었다.

개발자에게 수료증이나 자격증 따위가 얼마나 중요하겠냐만, 이 목표 덕분에 책상 위에서 책과 노트를 펴고 통계 분석을 공부할 수 있었던 소중한 시간을 만들어주었다. R이라는 언어도 매우 흥미로웠지만, 합계와 평균등의 단순 통계를 넘어서 Regression 모델4 을 토함한 다양한 통계 추론5 들을 공부할 수 있는 기회였다.

아직은 작은 부분만 업무에 활용하고 있지만, 다양한 관점으로 데이터를 보고 정제해 볼 수 있다는 것. 그리고 그 결과물들을 동료들과 나누어 볼 수 있다는 것. 그런 계기가 되었다는 것에 뿌듯하다.