'Programmer/hadoop' 카테고리의 글 목록 (2 Page)
본문 바로가기


Programmer/hadoop

(10)
하둡 완벽 가이드 - 4. YARN 사용자의 입장으로만 하둡을 바라보게 되어 깊이가 부족하다는 생각을 하게 되었다. 하둡 완벽 가이드를 읽고 이해한대로 정리한다. YARN은 (yet another resource negotiator)은 하둡의 클러스터 자원 관리 시스템이다. 맵리듀스의 성능을 높이기 위해 하둡2에서 도입되었고, 그 외의 분산 컴퓨팅 도구도 지원한다. YARN은 클러스터의 자원을 요청하고 사용하기 위한 API를 제공한다. 이 API는 사용자 코드에서 직접 호출할 수는 없고, YARN이 내장된 분산 컴퓨터 프레임워크에서 고수준 API를 작성해야하며, 사용자는 자원 관리의 자세한 내용을 알 수 없다. 맵리듀스, 스파크 같은 분산 프레임워크가 YARN 어플리케이션으로서 cluster compute layer와 cluster st..
하둡 완벽 가이드 - 3. 하둡 분산 파일시스템 사용자의 입장으로만 하둡을 바라보게 되어 깊이가 부족하다는 생각을 하게 되었다. 하둡 완벽 가이드를 읽고 이해한대로 정리한다. 분산 파일 시스템: 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템 하둡의 분산 파일 시스템: HDFS (Hadoop Distributed FileSystem)로 추상화되어 S3나 로컬 파일시스템도 가능 3.1 HDFS 설계 HDFS는 매우 큰 파일을 스트리밍 방식(읽기 시작한 이후로 순서대로 출력)으로 접근할 수 있도록 범용 하드웨어(싼 것도 상관 없이)를 활용하여 저장할 수 있도록 설계되었다. 그러므로, 수많은 작은 파일(파일 하나는 기본으로 하나의 블록이므로 네임노드에 블록의 위치를 기록하기 위한 용량을 많이 차지)을 저장하고, 빠르게 읽고(스트리밍 방식이..