Spark Summit 2019

SPARK+AI 
SUMMIT 2019
아이나비시스템즈 선행기술개발팀
박대성 (bigcastle@inavi.kr)
APRIL 23 - 25 | SAN FRANCISCO

SPARK+AI SUMMIT 2019
Koalas Scheduling Policies
Nested Columns
Recommendation System
Design Structured Streaming Pipelines
Data Pipelines
Real-Time Analytics
Neptune
…
Experienced Things

OVERVIEW
▸ 현장 이미지
▸ What’s Next for Apache Spark
▸ Databricks Platforms
▸ Streaming Data Pipelines
▸ Other Sessions

현장 이미지

WHAT’S
NEXT FOR
APACHE SPARK

SPARK 1.0
SPARK 2.0
2014 2016
SPARK 3.0
2019
(expected)
1000가지 이상의
기능 및 버그 수정
APACHE SPARK 3.0

APACHE SPARK DESIGN PRINCIPLES
1 Unify Data + AI
2
3
Run Everywhere
Easy-to-use APIs

1 Unify Data + AI
2
3
Run Everywhere
Easy-to-use APIs
Spark MLLib
PYTORCH
TensorFlow
mxnet
CNTK
…
Tracking,
Management

1 Unify Data + AI
2
3
Run Everywhere
Easy-to-use APIs
Spark
Standalone Mode

1 Unify Data + AI
2
3
Run Everywhere
Easy-to-use APIs
2013: APIs for data engineers
2015: APIs for data engineers & scientists

1 Unify Data + AI
2
3
Run Everywhere
Easy-to-use APIs
Typical journey of a Data Scientist
Education,
Analyze Small Datasets
PANDAS SPARK
Analyze Large Datasets
Koalas - Pandas Dataframe API on Spark

DELTA LAKE
▸ 데이터는 분석을 위해 준비되어 있지 않음
고객 데이터 클릭 이벤트
센서 데이터
이미지 데이터

DELTA LAKE
▸ Delta Lake - Open Source Project
고객 데이터 클릭 이벤트
센서 데이터
이미지 데이터
Delta Lake
ACID Transactions
Unified Streaming & Batch
Scalable Metadata handling
Time Travel
Schema enforcement

DELTA LAKE
▸ 복잡한 람다-아키텍쳐를 단순화 시킴
Event

DELTA LAKE
▸ 복잡한 람다-아키텍쳐를 단순화 시킴
Event
df.write.format(“parquet”).save(“data”)
df.write.format(“delta”).save(“data”)

DELTA LAKE
▸ Pros
▸ Full ACID Transactions 지원
▸ 데이터 버저닝
▸ 배치 & 스트리밍 통합
▸ 기존 Apache Spark API와 100% 호환
▸ 테이블 스키마 변경 가능
▸ Cons
▸ Apache Spark 2.4.2 이상 지원
▸ 읽기 성능을 높이기 위해 주기적으로 Compaction(Merge) 작업이 필요함.
▸ 일부 유용한 기능이 Managed 버전에서만 지원되고 OSS버전에선 사용할 수 없음. 
(향후 지원계획)

ML FLOW: OPEN SOURCE ML PLATFORM
▸ ML Lifecycle
Raw Data Data Preparation Training Deployment

▸ ML Lifecycle
Raw Data Data Preparation Training Deployment
AWS S3
Hadoop
Delta Lake
MongoDB
Kafka
…
Apache Spark
SQL
Python
Pandas
Scikit-learn
…
Apache Spark
PYTORCH
XGBoost
TensorFlow
R
…
Docker
Apache Spark
AWS SageMaker
Mobile Phone
….
Model Exchange

▸ Custom ML Platforms
Facebook FBLearner
Uber Michelangelo
Google TFX
Samsung Brightics AI
Dataiku
+ ML Cycle 을 일반화 시켜서 그냥 가져다 쓰기만 하면 된다.
- 알고리즘/프레임웍에 제약이 있거나 일부 도메인에만 유용할 수 있음

▸ MLflow Tracking : experiment tracking
▸ MLflow Projects : reproducible runs
▸ MLflow Models : model packaging

mlflow.log_param(“lambda”, 0.5)
mlflow.log_metric(“rmse”, 0.2)
아래와 같은 코드만 넣어주면
Managed by Databricks
Docs : mlflow.org

참고한 세션들
▸ FIS - Life Is but a Stream
▸ SpotX - Spark Streaming
▸ COMCAST - Winning the Audience With AI
▸ Databricks - Productizing Structured Streaming Jobs
▸ Spark Commiter - Designing Structured Streaming Pipelines
▸ Eventbrite - Near Real-Time Analytics With Apache Spark
▸ Sparkflows.Io - Self-Service Apache Spark Structured Streaming
Applications & Analytics

CASE: FIS GLOBAL
▸ 1968년 창립된 직원수 53,000명의 금융 소프트웨어를 만드는 기업
▸ 주 고객은 은행과 금융회사
BUSINESS
INTELLIGENCE HYBRID ETL PURE
STREAMING

CASE: FIS GLOBAL
초창기 파이프라인
STREAMING EVOLUTION

CASE: FIS GLOBAL
▸ 이후 Streaming 샘플을 Databricks Platform으로 보여줌
▸ https://github.com/KevenMellott91/spark-summit-2019-demo

CASE: SPOTX
▸ Spark Streaming, DStream, Structured Streaming를 설명
▸ 개발 시, Small Datasets을 가지고 Local Mode에서 개발하는 것을 강조함
▸ 개발도구는 IntelliJ와 SBT를 추천함
▸ 테스팅은 .queueStream() 과 같은 유닛 테스트를 진행
▸ 모니터링은 리스너를 오버라이딩하여 mysql, influxdb, grafana를 통해 모니터링
▸ Kafka Offset 관리는 배치완료 리스너를 오버라이딩 하여 MySQL에 offset을 기록하
고 읽어올 수 있도록 하였음
▸ 몇가지 유용한 설정들 공유
▸ kafka의 auto commit off, rdd.compress, spark.storage.memoryFraction …

CASE: COMCAST
▸ 세계에서 가장 큰 케이블 텔레비전 방송사 및 ISP
▸ 음성으로 컨텐츠를 찾아주는데 많은 어려움이 있음
▸ 고객의 의도를 파악하기 어려움
▸ 초당 수십억개의 세션과 수백만의 트랜잭션이 발생
데이터 수집 처리
(전처리)
세션화
(분석)
최적화
(저장/배포)
초창기 파이프라인

CASE: COMCAST
▸ 그렇게 서버가 터졌습니다!
(전처리)
세션화
(분석)
최적화
(저장/배포)
초당 1500만 트랜젝션 발생
AWS S3는 초당 3,500건의 제한이 있음

CASE: COMCAST
▸ 2차 시도 (분산처리)
(전처리)
세션화
(분석)
최적화
(저장/배포)
S3
S3
S3
S3
키로 분산 저장
…
…
“이제 잘될거야!”
640 Machines
32Jobs (2.5 PB)
key=1
key=2
key=3

CASE: COMCAST
▸ 2차 시도 (분산처리): 그리고 서버가 터지기 시작합니다.
(전처리)
세션화
(분석)
최적화
(저장/배포)
S3
ERR
S3
S3
키로 분산 저장
…
…
640Machines
32Jobs (2.5 PB)
key=1
key=2
key=3
COMPLEX!!
FREQUENT FAILURES!!
UNMANAGEABLE!!

CASE: COMCAST
▸ 3차 시도 (Delta Lake): Scale, Reliability, Performance
(전처리)
세션화
(분석)
최적화
(저장/배포)
S3
Auto Optimize
Delta Lake
Single Job
64 Machines
Enable Random Prefix
= No more Key Management
S3
Delta Lake
Auto Optimize
Delta Lake

CASE: COMCAST
▸ 3차 시도 (Delta Lake): Scale, Reliability, Performance
(전처리)
세션화
(분석)
최적화
(저장/배포)
S3
Auto Optimize
Delta Lake
Single Job
64Machines
= No more Key Management
S3
Delta Lake
Auto Optimize
Delta Lake

CASE: COMCAST
▸ 추가적인 문제: Complex Development Environment of ML
다양한 개발 환경
PB 단위의 방대한 데이터
100여가지의 많은 모델
데이터 과학자가 세계에 퍼져있음
PYTORCH
XGBoost
Scikit-Learn
+
SLOW ITERATION

CASE: COMCAST
▸ SELF-SERVICE AI
PYTORCH
XGBoost
Scikit-Learn
Delta Lake
데이터는 Delta Lake로
개발도구 간의 Data Replication 을 최소화
학습 모델은 Databricks Workspace로
Notebook 편집 모드로 모델 작성/개발
모델은 mlflow로
Tracking, Packaging
완성된 모델은 Kubeflow로
상용 서비스로 배포, 적용
클릭 1번으로 실행, 코드 재사용, 추적, 배포

CASE: COMCAST
▸ 신뢰성 확보: PB 단위의 데이터를 처리하면서 에러가 발생하지 않음
▸ 인스턴스 10배 감소: 640 -> 64!
▸ 팀 생산성 향상: 전세계의 데이터 과학자들이 협업
▸ 빠른 적용: 몇 주 걸리던 배포가 5분만에 가능해짐

CASE: DATABRICKS
▸ Structured Streaming 에 대한 전반적인 설명을 함 
(구축/테스팅/모니터링/배포)
▸ Data Pipelines @ Databricks

CASE: DATABRICKS
▸ Bronze Table
▸ 데이터를 가공하진 않고, 중복제거와 JSON으로 변환하여 Parquet Format으로 저장
▸ 만약의 경우를 대비하여 데이터에 오류가 있으면 수정하기 위해 2주 가량 보관
▸ Silver Table
▸ 10/100 개의 직접적인 쿼리를 날릴수 있는 테이블
▸ 개인정보 등을 마스킹하고 일부 교정된 데이터를 저장함
▸ Gold Table
▸ Silver Table로 부터 연산/집계된 테이블
▸ 데이터 사이언스 팀으로부터 만들어짐

DESIGNING STRUCTURED STREAMING PIPELINES
▸ Tathagata Das (Spark Committer, PMC)
Spark는 자동으로 batch-like 하도록 실행 계획을 최적화 함

▸ Streaming Pipelines을 설계할 때는 3가지의 질문을 던져야함
How?
What? Why?
데이터는 무슨 데이터인가?
무슨 결과가 나와야 하는가?
얼마나 빠른 응답이 요구되는가?
처리량은 얼마나 되는가?
왜 스트리밍으로 처리해야하는가?
결과는 누구(사람/컴퓨터)를 위한 건가?
언제 사용되는 결과인가?
어떻게 데이터를 처리할 것인가?
어떻게 결과를 저장할 것인가?

“나는 대시보드의 숫자를
매 초마다 업데이트 하길 원해”
WHY? 에서 이뤄지는 일반적인 실수
사람이 몇 분/시간 안에
행동을 취한다면
매 초마다 업데이트 할 필요가 없음
“나는 매 초마다 장애를
진단하기 위해서 만들거야”
(하지만 내 데이터는 자주 장애가 발생 해)
낮은 품질의 데이터와
결과에 대한 신속한 조치를
할 필요가 없음
(데이터는 key-value 스토어에 쌓고 있어)
“데이터를 머신러닝 학습에
사용할 거야”
Key-value 스토어는
데이터 스캔 작업으로 인해
큰 데이터를 처리하는데 적합하지 않음

▸ Streaming Design Patterns
How?
What?
Why?

▸ Streaming Design Patterns
How?
What?
Why?
비정형 데이터를
구조적 테이블 데이터로 변환할거야
Latency : few minutes
구조화된 최신의 데이터를
인터렉티브하게 질의하거나,
배치 작업에 사용해야 해
Structured Streaming을 사용하여 데이터를 정형화
저장은 확장 가능한 구조적 스토리지를 사용 할 것.
Data Skipping 지원이 필요.
=> Parquet, ORC, Delta Lake, or even better

TensorFlow 2.0
▸ TensorFlow 2.0 High Level API - Keras
▸ Improved Debugger with Eager Execution
▸ Distribute Strategy - Easy to use Training on Multiple GPU
▸ Deploy Anywhere
▸ Server - TensorFlow Extended
▸ Edge Devices (Mobile) - TensorFlow Lite
▸ JavaScript - TensorFlow .JS

Geospatial Analytics at Scale with Deep Learning and Apache Spark
▸ Databricks 에서 발표
▸ 대용량 위성사진(타일 이미지)을 딥러닝을 이용하여 자동차를 인식하고
이를 처리하여 지도에 히트맵 형태로 뿌려주는 과정을 이야기
▸ Magellan 을 소개

Geospatial Analytics…: Magellan
▸ Geospatial 분석을 위한 분산 실행 엔진 오픈소스 라이브러리
▸ 다양한 포맷을 지원
▸ ESRI, GeoJSON, OSM-XML, WKT
▸ 기본적인 지오메트릭 연산을 수행가능함
▸ Polygon intersection, Joining
▸ Spark SQL 엔진에 통합되어 높은 퍼포먼스로 인덱스를 생성함

Geospatial Analytics…: Magellan
https://github.com/harsha2010/magellan

ETC
▸ Microsoft - Black in AI
▸ KPMG - Overview of the Recommend System
▸ Apple - Nested Columns Support in Parquet
▸ Netflex - Recommendation System “Taste Cluster”
▸ Neptune: Extended DAG Scheduler @ Spark 2.4 extension
▸ DASK - Distribution Parallel Computing in Python

SUMMARY
▸ 세션들의 난이도는 쉬운 편
▸ 기초적인 설명과 사례 예시를 많이 들어줬음
▸ Apache Spark를 위한 Summit
▸ Spark의 큰 변화가 있을 것으로 예상
▸ Hive 3의 변화처럼 큰 변화가 계속 진행 중임 
Spark 2.3과 2.4의 차이도 매우 커짐
▸ 앞으로도 Spark의 인기는 지속될 것으로
보임
▸ Structured Streaming이 너무 강력함. 
쉬운 Lambda 아키텍쳐 구현이 가능.

Spark Summit 2019

More Related Content

Similar to Spark Summit 2019 (20)

More from Daesung Park (8)

Spark Summit 2019