반응형
/*
-- Title : [DBR] 데이터브릭스 소개
-- Tag : databricks 데이터브릭스 스파크 spark
*/
■ 데이터브릭스란
- 데이터브릭스는 아파치 스파크 기술을 모티브
- 스파크라는 기술은 UC버클리대학 내 빅데이터 연구 조직인 AMP랩에서 처음 탄생
- 해당 연구실 교수와 연구원들은 가치가 커질 것으로 예상하고 2013년에 데이터브릭스를 공동 설립
- 2020년 기준 연 매출이 4억 2500만 달러(한화 약 4740억 원)
■ 데이터브릭스 아키텍처
ㅁ Apache Spark외에 여러 솔루션 도입
- Delta Lake : 데이터레이크의 ACID를 지원해 DW처럼 활용
- mlflow : 머신 러닝 개발과 관리 기능 지원(ML 개발 + MLOps)
- Koalas : 대량의 데이터 분석 지원(Pandas와 비슷한 활용)
- Redash : SQL 시각화 기능 지원
■ 구독 플랜
- SaaS(Software as a Service)형 서비스로 클라우드 비용에 상관없이 SaaS 구독 정책 따름
- 자원 활용 만큼 후불 지불 정책
■ Databricks vs. Snowflake
- 모두 Data Warehouse에서 Data Lakehouse로의 전환 사상에서 발전
- EDW의 경우
- 구조화된 데이터
- 중앙 집중식 저장 및 처리 방식
- 고가의 장비
- ETL 중심
- 데이터 신뢰성 확보 - Data Lake의 경우
- 다양한 유형의 데이터
- 분산 저장 및 처리
- 저가의 장비
- ELT(저장 후 필요에 따라 활용)
- 데이터 신뢰성 부족 - EDW와 Data Lake의 장점을 결합한 것이 Data Lakehouse 개념
■ Databricks vs. Snowflake 아키텍처 비교
■ 개인적 사견
- Snowflake는 클라우드 기반의 DW엔진처럼 보여짐, NoSQL 영역을 제대로 처리 못하는 듯.
- Databricks는 각기 다른 Solution이 연결된 플랫폼으로 보여짐, 체계적으로 개발된 엔진은 아닌 것으로 보여짐.
- 아직 많은 정보를 확인하지 못한 사견에 불과.
※ Resources
반응형