[Spk] Apache Spark 아키텍처 및 구현

2022. 9. 12. 11:34

/*
-- Title : [Spk] Apache Spark 아키텍처
-- Tag : aparch spark architecture 아파치 스파크 아키텍처
*/

■ Spark 프레임워크(Framework)

ㅁ Spark Core

Drive Program	- 클러스터 구조의 master - spark context에서 메인함수가 실행 - spark application의 정보 유지/관리 스케줄링 작업
Worker Node	- 클러스터 구조의 slave - 각 노드의 Executor가 작업 수행 - Task 단위 작업

ㅁ Cluster Manager

Standalone	단일 서버 자원 관리용으로 별도 설치 없이 Spark 자체에서 제공
Yarn	여러 대 서버를 관리용으로 별도 설치가 필요하며, 가장 많이 활용
Mesos	1만대 이상의 노드에도 대응 가능한, 웹기반의 UI, 자바, C++, 파이썬 API제공

ㅁ Spark Library

Saprk SQL	질의형 라이브러리 > 데이터 프레임을 SQL쿼리를 통해 처리 가능
Spark Straming	실시간 데이터 처리 라이브러리
MLlib	머신러닝 라이브러리 > keras, tensorflow 등 별도 설치하여 설치 가능
GraphX	그래프 라이브러리 > 페이지랭크,레이블 전파, 삼각 계수 등

ㅁ Data Source

■ Apache Spark 아키텍처

ㅁ 드라이버(Driver)

ㅁ 실행자(Executors)

ㅁ 클러스터 관리자

ㅁ 언어 지원

ㅁ Spark API

■ Spark Application 구현방법

ㅁ RDD(Resilient Distributed Datasets)

데이터 로드 시, 생성
분산 노드에서 다수의 파티션으로 관리됨
RAM을 활용하면 속도는 빠르지만 장애 발생(Fault)하는 경우 수행한 작업이 전부 사라짐(휘발성)
RDD(Resilient Distributed Datasets)라는 신규 개념 도입하여 RAM을 read-only로만 사용
연산자 유형
- Transaction : 실행 계획만 수립, map/filter/gropuby/union 등
- Actioin : 수행결과를 제공하기 위해 작업 실행, count/take/collet 등
데이터 처리 특징
- Fault-tolerant : 어떻게 만들었는지 기록(Lineage)하여 장애에 문제가 없음
- Lazy-Executioin : 지연 실행으로 자원의 배치를 최적화하여 분산 수행

ㅁ Dataframe / Dataset

Dataframe	- 사용자정의함수(UDF)를 사용 가능 - 스키마를 가질 수 있게 자동화/최적화 - Scala, Java, Python, R 지원
Dataset	- 스키마 필수 - 사용자가 데이터를 객체화할 수있도록 하여 안전 - Scala, java 지원

ㅁ RDD vs. Dataframe vs. Dataset

디비랑[dɪ'bɪraŋ]