빅데이터 저장 및 처리, 아파치 하둡 입문과정

2020-03-16
조회수 234


안녕하세요 러닝클루 입니다 : )


요즘 날씨가 매우 쌀쌀합니다. 가을은 천고마비의 계절이라고 하죠?

[천고마비 : 하늘이 높고 말이 살찐다]

말도 살이 찌듯이 이번 과정은 빅데이터의 살이 어떻게 찌워져서 저장이 되는지 알아보도록 하겠습니다.


오늘은 과정명부터가  조금 어렵지만 빅데이터란 무엇인지, 하둡이란 무엇인지

차근차근 소개해드리는 시간을 갖도록 하겠습니다.







"빅데이터란?"

"

빅데이터는 미래 경쟁력을 좌우하는 21세기 원유

기업들은 다가오는 데이터 경제시대를 이해하고 이에 대비해야 한다.

"

미국 시장조사기관인 가트너


빅데이터는 단순한 데이터양이 많다는 합성어가 아닌

기존의 정형화된 데이터와 기존 활용하지 못한 반 정형화 데이터, 정형화된 데이터보다 

더 방대하며 기존의 방법과 도구로 수집/저장/분석 등이 어려운 비정형 데이터들을 의미하며

데이터를 효과적으로 처리하고 분석할 수 있는 기술에 초점을 둔 용어입니다.







"빅데이터의 특징"


빅데이터의 특징은 디지털 환경에서 생성되는 데이터로 규모가 방대하고 생성 주기가 짧으며,

수치데이터 뿐 아니라 문자, 영상 데이터를 포함하여 사람들의 행동, 위치정보 sns를 통해

생각과 의견까지 분석하고 예측할 수 있습니다.

과거에 비해 PC와 인터넷, 모바일 기기 이용이 생활화되면서 사람들이 남긴 데이터는 기하급수적으로 증가하며

데이터의 양이 증폭했기 때문입니다.


예를 들면 과거 오프라인에서 물건을 구매할 때만 데이터가 기록되었지만

현재 온라인 쇼핑의 활성화로 구매를 하지 않고 방문자가 돌아다닌 기록이 자동적으로 데이터로 저장이 되면서

어떤 상품에 얼마나 관심이 있는지, 얼마 동안 쇼핑몰에 머물렀는지 알 수 있습니다.


또한 현대인들은 쇼핑뿐만 아니라 금융거래, 교육과 학습, 여가활동, 자료 검색과 이메일 등 하루의 대부분의 시간을 PC와 인터넷에 속에서 보내기 때문에 다방면에서 데이터가 기록되고 있습니다.


최근에 사용자가 직접 제작하는 동영상 콘텐츠, 휴대전화, sns 등에서 생성되는 문자 등은 데이터의

증가 속도, 형태와 질에서도 기존과 다른 현상을 보이고 있으며,

특히 SNS는 글을 쓴 사람의 성향과 소통하는 상대방의 연결 관계까지도 분석이 가능합니다.


이런 제작되는 데이터 외에도

중요 도로와 공공건물에 설치된 CCTV가 촬영하고 있는 영상 정보의 양도 넘쳐나고 있습니다.

여러분의 일상생활의 행동 하나하나가 빠짐없이 데이터로 저장되고 있으며, 공공분야도 데이터를 양산 중입니다.

"

현재 글로벌 데이터의 규모는 미 의회 도서관 인쇄물에 10만 배에 해당하는 정보량이다

"

Lynman, P., & Varian, H., 2003


이렇듯 기업/단체/기관은 빅데이터를 자산으로 관리하고 가치를 이끌어내야 살아남을 수 있습니다.







"빅데이터 사례"


글로벌 금융위기로 인해 미국에서 탈세와 사기 등 금융범죄가 늘어났고

미국 국세청은 2011 빅데이터와 IT 기술을 결합하여 시스템을 구축했습니다.

이러한 시스템으로 이상 징후를 미리 찾아낼 수 있었습니다.

예측 모델링을 통해 납세자의 과거 행동 정보를 분석하고 유사한 행동을 검출 후 

SNS를 통해 범죄자와 관련된 계좌, 주소 연관관계 등을 분석 후 고의 세금 체납자를 찾아냈습니다. 

미국 국세청은 오픈소스 기반의 빅데이터처리 소프트웨어인 하둡 등을 적용하여 저렴한 비용으로 데이터를

분석하고 그 결과 세금 누락을 막을 수 있었습니다.


다음은 미국 국세청의 세금 누락을 막은 소프트웨어 중 하둡이란 무엇일지 알아보도록 하겠습니다.








"하둡이란?"


여러 개의 저렴한 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 분산처리할 수 있는

오픈소스 자바 프레임워크입니다.

아파치 루씬 창시자로 유명한 더그 커팅이 만들었으며,

다른 개발자도 자유롭게 가져다 쓰고 발전시킬 수 있도록 소스를 공개했습니다.


하둡은 분산 저장과 병렬처리 2개의 프레임 워크로 구성되어 있습니다.

분산 저장 : 클러스터 환경에서 대용량 데이터를 분산해서 안정적으로 저장하는 프레임 워크

병렬처리 : 저장 환경 위에서 병렬로 데이터를 처리하는 프레임 워크

여러 대의 서버에 데이터를 저장하며 데이터가 저장된 각 서버에서 동시에 데이터를 처리하는 방식입니다.


이렇듯 하둡은 오픈소스로 라이선스 비용이 없으며,  X86 CPU에 리눅스 서버라면 얼마든지 사용할 수 있습니다.






"빅데이터 분석 왜 배워야할까요?"


사차 산업시대에 꼭 필요한 빅데이터 분석 이제는 빅데이터를 수집하는 것을 넘어서

효과적으로 분석할 때입니다.


파이썬의 크롤링으로도 데이터를 수집할 수는 있지만 빅데이터 전문 프로그램은 하둡입니다.


기업 내 정보화 담당자, IT혁신사업 담당자, 기업의 전산시스템 및 데이터 관리 담당자, 빅데이터에 관심있는 재직자

 혹은 빅데이터 전문가를 희망하신다면 하둡은 필수!


또한 일상의 사소한 부분까지 예측이 가능하기 때문에 그 어떠분이 배워도 실무에 적용이 가능합니다.

실제 취업사이트를 확인해도 하둡 프로그래밍이 가능하다면 우대를 받고 있습니다


여러분들의 빅데이터 분석 러닝클루에서 시작해보시는 것은 어떤가요?? 


러닝클루의 "빅데이터 저장 및 처리를 위한 기술" 입문과정은

하둡의 개요, 맵리듀스, 하둡 클러스터 운영, 에이브로, 파케이, 플룸, 하이브, 주키퍼로 이루어져 있습니다.






▒교육목표▒

빅데이터 표준 플랫폼인 아파치 하둡과 하둡 에코 시스템을 구성하고 있는 관련 프로젝트들

(에이브로, 파케이, 플룸, 스쿱, 하이브, 주키퍼 등)을 활용해 빅데이터를 효율적으로 수집, 저장, 처리

할수 있는 역량을 확보합니다.







▒주요내용▒


- 하둡개요, - 맵리듀스

- 하둡 클러스터 운영, - 에이브로

- 파케이, -플룸

- 하이브, - 주키퍼





   




자세한 문의 사항은  아래 문의하기를 통해 연락 주시길 바랍니다.