'2020/10/29 글 목록

Apache Spark, ETL 데이터 파이프라인 생성하기

개요 Apache Spark는 분산 컴퓨팅을 위한 인메모리 데이터 프레임워크이다. 어떤 크기의 데이터라도 클러스터로 서로 연결된 n대의 노드에 인메모리 데이터 처리를 통해 분석 및 가공이 가능하다. 현재 관련 기술에서는 적수가 없을 정도로 명성을 얻고 있다. Apache Parquet은 컬럼 기반의 구조체의 특화된 데이터 파일 형식이다. 적절하게 파티셔닝되고 압축 처리된 Apache Parquet 파일은 대용량에서도 좋은 조회 성능을 보여준다. 이번 글에서는 Apache Spark 프레임워크를 이용하여 원격지에 위치한 다양한 데이터 소스로부터 가공과 Apache Parquet으로의 변환, 적재하는 방법을 설명하고자 한다. (잠재적으로 Amazon EMR에서 제출 가능한 작업을 만드는 것을 고려했다.) W..

SW 개발/Kotlin 2020. 10. 29. 18:08

이전 1 다음

이전 다음

공지사항

처음 오신 분들을 위한 바로 가기 모음

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2020/10 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

Software Engineer, Java, Spring Boot, JAX-RS REST API, OAuth 2.0, Microservice, DevOps

티스토리툴바