<aside> 💡 많은 기술이 나오지만 조금 참고 보자. 이번 장은 몇 번 정도 더 시청하는 것도 추천! Hadoop 에코시스템의 난해한 이름들에 대해 개괄적으로 파악할 수 있을 것이다.

</aside>

본 강의에서는 Hadoop 에코시스템을 크게 세 가지로 구분한다.

Core Hadoop Ecosystem
Query Engines
External Data Storage

Core Hadoop Ecosystem

Hadoop 플랫폼에 직접 개발된 파트.

HDFS / YARN / MapReduce는 Hadoop 자체 시스템으로 나머지는 Addon의 형태로 추가 된프로젝트

HDFS

Hadoop Distributed FileSystem (하둡 분산 파일시스템), Hadoop 버전의 GFS
빅데이터를 클러스터 노드에 분산해서 저장하는 시스템으로, 클러스터의 디스크를 하나의 큰 파일 시스템으로 구성
Replication 기능이 있어, 노드에 장애가 발생하는 경우엔 백업 복사본을 활용해 자동으로 손실을 복구

YARN

Yet Another Resource Negotiator (또 다른 리소스 협상가)
데이터 Process 파트를 담당함. 즉, 클러스터의 리소스를 관리하는 시스템.
누가 어떤 작업을 언제 실행하고, 어떤 노드에는 추가 작업을 할당 또는 할당하지 않는 등의 다양한 자원 관련 결정을 내림.

MapReduce

데이터를 클러스터 전반에 걸쳐 처리하고자 하는 프로그래밍 모델
Mapper와 Reducer로 구성됨
- Mapper - 클러스터에 분산되어 있는 데이터를 효율적으로 병렬 처리함
- Reducer - Mapper가 수행한 결과물을 Aggregation

Pig