마스코트

노란 코끼리

정의

범용 하드웨어로 구축된 컴퓨터 클러스터의 아주 방대한 데이터 셋을 분산해 저장하고 처리하는 오픈 소스 소프트웨어 플랫폼이다.

→ PC가 아닌 컴퓨터 클러스터에서 동작하는 소프트웨어 묶음.

→ 다수의 피시를 활용해 빅데이터를 다룬다는 뜻

분산 저장은 하둡이 제공하는 가장 주 기능임. 분산 저장의 장점은 클러스터에 컴퓨터를 더하기만 하면 그 컴퓨터의 하드 드라이브가 데이터 저장소의 일부가 된다는 점이다.

분산되어 저장된 데이터를 단일 파일 시스템으로 보여준다.

예를 들어, 클러스터의 컴퓨터 중 하나가 불이 나서 데이터와 함께 녹아버렸다고 치자. 하둡은 데이터 복원이 이런 상황에서도 가능한데, 데이터의 백업본을 클러스터의 다른 컴퓨터에도 보관하기 때문이다. 이런 상황이 생기면 자동으로 소실된 데이터를 복구함.

또한 하둡은 분산 처리를 한다. 즉, 데이터를 클러스터 전체에 걸쳐 저장할 뿐만 아니라, 그 데이터를 처리할 때도 클러스터의 컴퓨터들과 함께 한다.

Hadoop은 모든 작업을 병렬 처리를 한다. 동시에 모든 컴퓨터 CPU에게 맡겨서 처리하도록 한다.

엄청 큰 데이터를 하둡은 클러스터의 모든 컴퓨터와 함께 분할 정복할 수 있다.

역사

2003-2004년에 구글에서 GFS와 MapReduce에 관한 내용을 다룬 논문을 보인다. 요게 이제 하둡의 기반이 된 것.

하둡 자체는 원래 야후가 개발했고

사실.. 하둡은 더그 커팅의 아들이 갖고 놀던 장난감 코끼리의 이름이다. ㅋㅋㅋ

왜 하둡을 쓸까?