Big Data : 대량의 원본 데이터를 실시간으로 분석하는 행위. 혹은 그러한 행위가 저비용으로 가능한 환경을 구축하는 활동. 본격적인 연구에 앞선 예비조사 혹은 일단 믿어보고 아니면 그만인 가설을 세우는 용도.

대량의 데이터

양이 곧 질이다.

빅데이터는 어디까지나 더 자세히 알아보거나 일단 믿어볼만한 경향성을 찾는 용도이다. 믿었다가 틀렸을 때 비용이 큰 경우엔 인과관계를 조사해보고 결과에 따라 선택하는 것이고, 비용이 작으면 일단 해보고 성공하거나 실패하는 것이고. 조사비용이나 실패비용을 줄이기 위해서 데이터의 양으로 현실을 좀 더 정확히 분석한 결과를 내려는 것이다.

원본 데이터

빅데이터는 Map&Reduce(의 캐시)가 아니다.

새로운 아이디어가 떠올랐을 때 데이터가 없어 확인할 수 없어서는 안된다. 즉, 원본 데이터를 계속 유지하고 있어야 한다. DAU니 ARPU니 하는 전통적인 KPI를 빅데이터 시스템으로 처리하는 이유는 그저 할 수 있기 때문이다. KPI 수치를 따로 저장하는 건 바뀌지 않을 데이터니까 캐시하는 것 뿐으로, 그런 리듀스 값을 만드는 것은 부수적인 효과이다.

실시간

빨라야 한다 빠르고 또 빨라야 한다. 더 낮은 비용으로.

  1. 대량의 원본 데이터가 빠르게 늘어난다. 늘어난 데이터를 나중에 처리할 시간은 없다.
  2. 시간은 귀중한 자원이다. 이론이 아닌 직관을 근거로 시간을 투자하는 건 한계가 있다. 그러니 몇 번이고 투자할 수 있도록 짧은 시간에 결과가 나와야 한다.

귀납적 추론에 이어 직관마저 기계로 넘기는 것이 기계 학습이고 AI이고. 그래도 여전히 검증은 사람의 몫이겠지?