1.1 데이터!

데이터의 크기는 끊임없이 증가하고 있고, 이를 저장하고 분석하는 일은 어려워지고 있다.

1.2 데이터 저장소와 분석

1.3 전체 데이터에 질의하기

MR은 한 번의 쿼리로 전체 또는 큰 규모의 데이터셋을 처리하는 것이 전제임. 그리고 장점임. ?

MR은 일괄 질의 처리기이고, 아 batch query processor 이다. 전체 데이터셋을 대상으로 ad hoc 쿼리를 수행해주고, 나름 합리적인 시간 내에 그 결과를 도출해준다.

너무 오래 걸려서 얻기 힘들었던 문제를 해결할 수 있게 되어서 새로운 통찰력으로 우리를 이끌어주고 있다.

1.4 일괄 처리를 넘어서(Beyond Batch)

이런 모델을 지원하는 데에는 YARN이 조력하고 있음. YARN은 클러스터 자원 관리 시스템인데, MR 뿐만 아니라, 여러 분산 프로그램에 대해서 데이터 처리를 지원하게 해줌.

1.5 다른 시스템과의 비교

최초의 분산 시스템은 아니지만, 다른 시스템과 확실히 구분되는 독특한 특성이 있음. 이를 알아보자!