1. Hadoop이란 무엇인가?

architecture.gif

Hadoop은 분산 소프트웨어 플랫폼입니다.
이것은 대량의 데이터를 처리할 수 있는 애플리케이션을 쉽게 제작하고 운영하는 것을 도와줍니다.

다음과 같은 이유로 인해서 Hadoop은 유용합니다.
- 규모: Hadoop은 안정적으로 페타바이트 단위의 자료를 저장하고 처리할 수 있습니다.
- 경제적이다: 일반적으로 쓰이는 컴퓨터 클러스터들 간에 데이터를 분산하고 처리할 수 있습니다.
- 효율적이다: 데이터를 분산시킴으로써 하둡은 데이터가 위치한 노들들을 병렬적으로 처리할 수 있으며 이것은 매우 빠릅니다.
- 안정적이다: Hadoop은 자동적으로 많은 데이터복사본을 유지합니다. 또한 문제가 생겼을 시에 자동적으로 재배치를 수행합니다.


2. MapReduce

Hadoop은 HDFS(Hadoop Distributed File System)을 이용해서 MapReduce를 구현하고 있습니다.
MapReduce는 애플리케이션을 많은 작업단위로 나눕니다.
HDFS는 안전을 위해 여러개의 데이터 블럭 복사본을 클러스터에 위치한 노드들에 만듭니다.
MapReduce는 어디에 그것이 위치에 있던지 데이터를 처리할 수 있습니다.

하둡은 2000개의 노드들을 클러스터로 구성해서 시연을 했습니다.
현재의 디자인은 10000개의 노드들을 클러스터로 운영하는 것을 목표로 합니다.
이 게시물을..