빅데이터 고속 처리, 아파치(PySpark) 입문

2020-03-16
조회수 92



안녕하세요 러닝클루입니다.

이번 소개드릴 프로그램은 인공지능 연계과정입니다.




인공지능(AI) 프로그램 중

"빅데이터 저장 및 처리를 위한 기술- 아파치 하둡 입문"

(앞과 정은 소개는 여기를 눌러주세요)

과정을 소개 드린 적이 있는데요.


이번 소개드릴 프로그램은

"빅데이터 고속 처리를 위한 기술 - 아파치 스파크 입문" 입니다.


같은 과목 아닌가??라고 생각하실 수 있는데요.

이 부분을 중점으로 자세히 소개 드리도록 하겠습니다.







"빅데이터 고속 처리?"



처음 과정명을 보았을 때 "빅데이터의 고속 처리?" 기존 데이터 처리하는 기술과 빅데이터 처리는

무엇이 다를까? 라는 의문이 생겼습니다.



앞서 소개해 드렸던 "빅데이터 저장 및 처리를 위한 기술 - 아파치 하둡 입문"

과정에서와 같이 빅데이터는 이전 초기의 데이터와 달리 형태도 다양하고 생성되는 속도는 빠르며

앞으로도 누구든 데이터 생성이 가능하기 때문에 그 속도는 점점 더 빨라질 것입니다.


그렇다면 기존 데이터 처리 방식으로는 과부하가 걸리게 될 것이며,


대용량&다양한 형태의 데이터를 처리하는 일은 어려운 일이기 때문에 빅데이터에 맞는

아파치 스파크를 사용하여 처리할 수 있습니다.








"스파크란?"



아파치 스파크란? 오픈소스 클러스터 컴퓨팅 프레임워크입니다.

캘리포니아 대학교 버클리의 AMPLab에서 개발되었고 코드 베이스는 나중에 아파치 소프트웨어 재단에 기부

되어 현재까지 유지 보수가 되어지고 있습니다.


스파크는 암시적 데이터 병렬성과 장애 허용과 더불어  완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공합니다.


또한 아파치 스파크는 대용량 데이터 고속 처리 엔진이며 JAVA, Python, scala, R을 기반으로 구동됩니다.





"

2009년 UC 버클리 AMPLab에서 시작된 오픈소스 프로젝트

2013년 아파치 프로젝트 선정

2014년 아파치 최상위 프로젝트 선정

2016년 Stable release 2.0.1

"






"스파크와 하둡"


가장 큰 차이점은 하둡보다 스파크의 처리 속도가 100배 빠르다는 것입니다.


그리고 하둡과 스파크는 빅데이터를 처리하는 프레임 워크지만 역할은 다릅니다.

하둡과 스파크는 서로 필요하지 않은 채 독립적으로 사용도 가능하지만 함께 사용될 때 가장 좋은 결과를 보여줍니다.


스파크의 빠른 속도가 꼭 필요하지 않지만  특수한 상황에서 애플리케이션 작업에 스파크가 많은 도움이 됩니다.









▒추천대상자▒


스파크 시스템을 이용하면 SQL과 같은 데이터를 처리하는 툴 사용,

구조화된 데이터 처리, 머신 러닝, 그래프 데이터 프로세싱을 배울 수 있습니다.


웹 개발자에게 익숙한 자바, 스칼라, 파이썬을 이용해서 로컬 환경뿐 아니라 클러스터 환경에서

고속의 데이터 분석을 할 수 있으며 빅데이터를 공부하는 학생부터 현장에서 근무하는 엔지니어까지

활용적인 프로그램입니다.


스파크 '초보자' 데이터 과학자데이터 엔지니어는 스파크의 장점을 배우 실 수 있으며,

빅데이터와 데이터 분석 경험이 있다면  이번 과정에서 데이터 패턴과 프라그마(pragmas)를 경험할 수 있습니다.


저희 러닝클루와 함께 인공지능 개발에 한발 더 다가가 보시는 건 어떨까요?








▒학습목표▒


스파크 특징과 처리 모델을 이해하고 파이썬 기반의 PySpark를 활용해 클러스터 기반의

병렬 분산 처리 애플리케이션을 만들 수 있는 역량을 확보합니다.





   






자세한 문의 사항은  아래 문의하기를 통해 연락 주시길 바랍니다.