데이터 분석을 위한 파이썬 라이브러리

2020-03-16
조회수 98


안녕하세요 오랜만에 교육 프로그램 소개로 돌아온 러닝클루입니다!

이번도 데이터 분석에 관한 내용을 전해드리게 되었습니다.


최근 데이터 분석 능력이 대두되고 있는데요 .


오늘은 조금 더 자세한

데이터 분석을 위한 파이썬 라이브러리

Numpy, Pandas, Matplotlib 활용 과정


소개해드리겠습니다.


먼저 데이터 분석이 왜 중요한지부터 알아보도록 하겠습니다.










"데이터 분석의 중요성"


데이터가 유기적으로 수집되고, 모든 사물이 인터넷과 연결되면서 자동화된 데이터 분석을 통해

징후와 이슈 등이 파악 가능해졌습니다.

컴퓨터의 분석 능력을 효과적으로 개선하고 개발하는 것이 중요한 업무 능력으로 발전되며

다량의 데이터를 실시간으로 분석함으로써 올바른 판단이 가능해졌습니다.


오늘날 누구나 적은 비용으로 데이터를 분석할 수 있는 시대가 도래했으며,

금융, 마케팅, 생산관리 등 산업분야를 시작으로 데이터 분석의 쓸모와 가치는 점차 확대되고 있습니다.


초반에는 비용/능력 등의 문제로 개인 및 중소기업은 다가가기 힘든 영역이었지만

오픈소스 기반의 분석 도구 증가로 누구나 대량의 데이터 수집과 분석이 가능해짐으로써

데이터는 기업 및 국가의 경쟁력의 포인트가 되었습니다.


데이터는 어떻게 활용하는 것이 따라 가치가 있으며, 이를 분석하기 위해서는

데이터를 보는 눈 통계학적 사고와 분석하기명확한 목적목표가 꼭! 필요합니다.


데이터 분석을 시작하려면 프로그래밍 언어를 활용해야 하는데요??

최근 엑셀을 활용한 데이터 분석도 현업에서 많이 사용하지만 프로그래밍 언어에 비해서 한계점이 존재하게 됩니다.


데이터 분석의 입문에서 프로그래밍 언어는 파이썬과 R이 대표적이며

최근 가장 인기 있는 '파이썬' 프로그래밍 언어를 소개 드리겠습니다.









"파이썬이란?"


파이썬은 네덜란드 개발자 귀도 반 로섬이 만든 프로그래밍 언어입니다.


파이썬 영어의 의미는 그리스 신화에 나오는 뱀 이름입니다. 

파이썬 로고에 위와 같이 두 개의 뱀이 서로 마주 보는 그림이 있는 이유도 이 때문입니다.


하지만 귀도 반 로섬은 실제 ‘파이썬’이란 단어를 선택할 당시 그리스 신화를 참고한 것이 아니라

영국 방송의 코미디 프로그램을  좋아해 가져온 단어였습니다.

파이썬 공식 홈페이지에 따르면 “귀도 반 로섬은 짧고, 특별하고, 미스터리한 

느낌의 단어를 찾았다”라며 “그래서 파이썬이란 이름을 결정했다”라고 설명되어 있습니다.


네덜란드 개발자 귀도 반 로섬은 ABC 언어 개발과 분산시스템 연구를 하며 영감을 받아서

아모에바 프로젝트에 일하며 하이레벨 언어가 필요하다는 것을 깨달았고 

취미생활로 새로운 언어를 개발하기 시작했습니다.


그 후 1990년 파이썬의 첫 버전이 공개되었고

개발 이후 CWI 내 동료들이 사용하며 그들의 피드백으로 지금의 파이썬이 되었다고 합니다.


그렇다면 프로그래밍 언어 중 파이썬이 최근 주목받는 이유는 무엇일까요?


파이썬은 코드 경진대회 프로그래밍 인기 순위 1이라고 합니다.

파이썬은 문법이 간결하고 표현 구조가 인간의 사고 체계와 닮아

초보자도 쉽게 배울 수 있는 언어라고 합니다.

또한 파이썬은 위와 같은 장점으로 유지 보수와 관리도 쉽게 할 수 있도록 도우며,

외부의 풍부한 라이브러리가 있어 다양한 용도로 확장이 가능합니다.

실제 파이썬은 웹 개발뿐 아니라 데이터 분석, 머신러닝, 그래픽, 학술 연구 등 여러 분야에 활용이 가능하며,

생산성이 높은 언어입니다.


수많은 장점으로 많은 사람들의 사랑을 받고 있는 언어 파이썬은 활용 분야도 다양하다고 합니다.

프로그래밍 언어 중 파이썬은 간결한 문법으로 입문자가 이해하기 쉽고, 다양한 분야활용이 가능합니다.

이 외에도 파이썬은 머신러닝, 그래픽, 웹 개발 등 여러 업계에서 선호하는 언어로 꾸준히 성장해 나가고 있는데요?


다음에서는 어디서 활용이 되는지 어떤 라이브러리와 프레임워크가 존재하는지 알아보겠습니다.








"파이썬 라이브러리"


우선 파이썬의 라이브러리를 소개해 드리겠습니다.


첫 번째,  NumPy는 고성능의 다차원 배열을 제공하고 과학적 계산을 위한 라이브러리입니다.

두 번째,  Pandas는 NumPy와 비슷하며 좀 더 데이터를 다루기 쉽습니다.

세 번째,  SciPy는 NumPy 기반의 라이브러리로 좀 더 확장적인 기능과 함수를 제공합니다.

네 번째,  Matplotlib는 플롯을 만들거나 그래프를 만드는 등, 시각화에 많이 이용됩니다.

다섯 번째,  PyGame는 게임과 같은 멀티미디어 개발 라이브러리입니다.

여섯 번째,  pillow는 이미지 처리에 많이 이용됩니다.

일곱 번째,  FlasK는 파이썬 용 마이크로 프레임워크로 간단한 웹 서비스 혹은 모바일 서버를 구축하는데 적합합니다.

마지막으로  Django - 위에서 언급하신 Flask와 비슷한 라이브러리이나 가장 많이 사용하는 웹 프레임워크입니다.



위의 라이브러리 중  이번 과정에서 사용하게 될

Numpy는 파이썬에서 과학 분야의 컴퓨팅을 하기 위해 필요한 필수 패키지라고 할 수 있습니다.

넘피는 강력한 다차원 배열 객체를 지원하고,

선형대수, 푸리에 변환, 난수 생성 기능을 제공합니다.


다음으로 Pandas는 파이썬으로 데이터 분석을 할 경우 사용하는 사실상의 표준 라이브러리로

데이터 프레임과 같은 강력한 데이터 구조와 다양한 분석 도구를 제공하고


마지막  Matplotlib는 파이썬에서 자료를 차트나 플롯으로 시각화하는 패키지입니다.

정형화된 차트나 플롯 이외에도 다양한 시각화 기능을 제공합니다.


본 과정의 주요 내용은  데이터 분석과 파이썬, Numpy/ Pandas/ Matplotlib의 기본과

데이터 로딩과 저장/ 정제/ 준비, 그래프 시각화, 파이썬 모델링 라이브러리로 진행되며,


이 과정은 파이썬의 기초 다음 과정인

"데이터 분석을 위한 파이썬 라이브러리 Numpy, Pandas, Matplotlib 활용입니다.







▒교육목표▒


Python 기반의 필수 데이터분석 라이브러리 활용법을 학습함으로써

데이터분석에 필요한 기술 역량을 확보할 수 있을 것 입니다.






▒교육대상자▒


체계적으로 배우고 싶은 예비 개발자 분들

인공지능에 관심있는 기업/단체/기관

프로그래밍 언어에 관심있는 기업/단체/기관





   






인공지능의 기초에 대해서 선수 지식이 있으며,

평소 인공지능, 데이터 분석, 프로그램 개발에 관심 있으신 기업/기관/단체 분들!!



자세한 문의 사항은  아래 문의하기를 통해 연락 주시길 바랍니다.