<aside>
💡 많은 기술이 나오지만 조금 참고 보자. 이번 장은 몇 번 정도 더 시청하는 것도 추천! Hadoop 에코시스템의 난해한 이름들에 대해 개괄적으로 파악할 수 있을 것이다.
</aside>
본 강의에서는 Hadoop 에코시스템을 크게 세 가지로 구분한다.
- Core Hadoop Ecosystem
- Query Engines
- External Data Storage
Core Hadoop Ecosystem
Hadoop 플랫폼에 직접 개발된 파트.
- HDFS / YARN / MapReduce는 Hadoop 자체 시스템으로 나머지는 Addon의 형태로 추가 된프로젝트
HDFS
- Hadoop Distributed FileSystem (하둡 분산 파일시스템), Hadoop 버전의 GFS
- 빅데이터를 클러스터 노드에 분산해서 저장하는 시스템으로, 클러스터의 디스크를 하나의 큰 파일 시스템으로 구성
- Replication 기능이 있어, 노드에 장애가 발생하는 경우엔 백업 복사본을 활용해 자동으로 손실을 복구
YARN
- Yet Another Resource Negotiator (또 다른 리소스 협상가)
- 데이터 Process 파트를 담당함. 즉, 클러스터의 리소스를 관리하는 시스템.
- 누가 어떤 작업을 언제 실행하고, 어떤 노드에는 추가 작업을 할당 또는 할당하지 않는 등의 다양한 자원 관련 결정을 내림.
MapReduce
- 데이터를 클러스터 전반에 걸쳐 처리하고자 하는 프로그래밍 모델
- Mapper와 Reducer로 구성됨
- Mapper - 클러스터에 분산되어 있는 데이터를 효율적으로 병렬 처리함
- Reducer - Mapper가 수행한 결과물을 Aggregation
Pig