반응형

/*
-- Title : [DBR] 데이터브릭스 소개
-- Tag : databricks 데이터브릭스 스파크 spark
*/


■ 데이터브릭스란

  • 데이터브릭스는 아파치 스파크 기술을 모티브 
  • 스파크라는 기술은 UC버클리대학 내 빅데이터 연구 조직인 AMP랩에서 처음 탄생 
  • 해당 연구실 교수와 연구원들은 가치가 커질 것으로 예상하고 2013년에 데이터브릭스를 공동 설립
  • 2020년 기준 연 매출이 4억 2500만 달러(한화 약 4740억 원)


■ 데이터브릭스 아키텍처

https://www.databricks.com/spark/comparing-databricks-to-apache-spark

ㅁ Apache Spark외에 여러 솔루션 도입

https://www.databricks.com/spark/comparing-databricks-to-apache-spark

  • Delta Lake : 데이터레이크의 ACID를 지원해 DW처럼 활용
  • mlflow : 머신 러닝 개발과 관리 기능 지원(ML 개발 + MLOps)
  • Koalas : 대량의 데이터 분석 지원(Pandas와 비슷한 활용)
  • Redash : SQL 시각화 기능 지원


■ 구독 플랜

  • SaaS(Software as a Service)형 서비스로 클라우드 비용에 상관없이 SaaS 구독 정책 따름
  • 자원 활용 만큼 후불 지불 정책

https://www.databricks.com


■ Databricks vs. Snowflake

https://www.datagrom.com/data-science-machine-learning-ai-blog/snowflake-vs-databricks

  1. 모두 Data Warehouse에서 Data Lakehouse로의 전환 사상에서 발전
  2. EDW의 경우 
        - 구조화된 데이터
        - 중앙 집중식 저장 및 처리 방식
        - 고가의 장비
        - ETL 중심
        - 데이터 신뢰성 확보
  3. Data Lake의 경우 
        - 다양한 유형의 데이터
        - 분산 저장 및 처리
        - 저가의 장비
        - ELT(저장 후 필요에 따라 활용)
        - 데이터 신뢰성 부족
  4. EDW와 Data Lake의 장점을 결합한 것이 Data Lakehouse 개념


■ Databricks vs. Snowflake 아키텍처 비교

https://www.datagrom.com/data-science-machine-learning-ai-blog/snowflake-vs-databricks


■ 개인적 사견

  • Snowflake는 클라우드 기반의 DW엔진처럼 보여짐, NoSQL 영역을 제대로 처리 못하는 듯.
  • Databricks는 각기 다른 Solution이 연결된 플랫폼으로 보여짐, 체계적으로 개발된 엔진은 아닌 것으로 보여짐.
  • 아직 많은 정보를 확인하지 못한 사견에 불과.

※ Resources

 

 

반응형

+ Recent posts