반응형

/*
-- Title : [PySpark] PySpark 이란?
-- Tag : pyspark 파이스팍크
*/


■ PySpark이란?

  • Apache Spark와 Python의 공동 작업용 Python 기반 언어
  • Apache Spark을 위한 Python API
  • Apache Spark와 Python 언어로 RDD(Resilient Distributed Datasets)에 접속

 

■ Py4J

PySpark에 내장된 대중적인 Library로 JVM 개체로 Python 인터페이스 허용

ㅁ PySparkSQL

  • 대량의 구조적, 반구조적 데이터에 SQL 유사 분석 언어 제공
  • Apache Hive 연결, HiveQL 적용 가능
  • PySpark 코어를 통한 WRAPPER

ㅁ MLlib

  • PySpark 코어를 통한 WRAPPER
  • Apache Spark의 머신러닝(ML) Library
  • 데이터 병렬 처리 기법 사용

ㅁ GraphFrame

  • 특수 제작한 그래프 처리 Library로 효율적 그래프 분석 수행
  • PySpark과 PySparkSQL 사용
  • 고속 분산형 컴퓨팅에 최적화

 

 

■ PySpark 구성

 

ㅁ Spark SQL 및 DataFrame

Spark SQL은 구조화된 데이터 처리를 위한 Spark 모듈. DataFrame이라는 프로그래밍 추상화를 제공하며 분산 SQL 쿼리 엔진으로도 작동

ㅁ Pandas API on Spark

Spark의 pandas API를 사용하면 pandas 워크로드를 확장

  • 이미 pandas에 익숙한 경우 학습 곡선 없이 Spark로 즉시 생산성 향상.
  • pandas(테스트, 더 작은 데이터 세트) 및 Spark(분산 데이터 세트) 모두에서 작동하는 단일 코드베이스를 보유.
  • 오버헤드 없이 쉽게 pandas API 및 PySpark API 컨텍스트로 전환.

ㅁ Streaming

Spark의 사용 용이성과 내결함성 특성을 상속하면서 스트리밍 및 기록 데이터 모두에서 강력한 대화형 및 분석 애플리케이션을 지원

ㅁ MLlib

Spark를 기반으로 구축된 MLlib는 사용자가 실용적인 기계 학습 파이프라인을 만들고 조정하는 데 도움이 되는 균일한 고급 API 세트를 제공하는 확장 가능한 기계 학습 라이브러리

ㅁ Spark Core

다른 모든 기능이 기반으로 구축되는 Spark 플랫폼의 기본 일반 실행 엔진으로 RDD(Resilient Distributed Dataset) 및 인메모리 컴퓨팅 기능을 제공


References:

 

 

반응형

+ Recent posts