python에서 데이터 분석에 사용되는 주요 라이브러리가 있죠. pandas, numpy, matplotlib 등이 있는데요. 라이브러리별 주요 기능 및 설치 방법 등을 정리해 보려고 합니다.
파이썬의 데이터 분석용 플랫폼인 Anaconda를 깔면 위의 주요 라이브러리와 주피터 노트북 등의 편리한 툴들까지 모두 깔리니까 좀 더 사용하기 편리합니다. 또한 라이브러리 설치나 import 등은 본인 취향에 따라 다른 방법을 사용하셔도 됩니다.
1. pandas
가. 주요 기능 : pandas는 유용한 데이터 구조를 제공하는 파이썬 패키지이다. 주요 데이터 구조로는 Series와 DataFrame이 있음. 이 중 DataFrame은 일종의 엑셀같은 스프레드시트형태의 데이터를 관리할 수 있는 데이터 구조라고 할 수 있음.
나. 설치 명령어 : pip install pandas
다. import문 : import pandas as pd
라. 튜토리얼 : https://pandas.pydata.org/pandas-docs/stable/tutorials.html
2. numpy
가. 주요 기능 : numpy는 수학 및 과학연산을 위한 파이썬 패키지로 다차원 배열 데이터 구조와 관련 도구들을 제공한다. 파이썬으로 수치해석, 통계 관련 작업을 수행할 때 사용되는 다양한 기능들을 포함하고 있다.
나. 설치 명령어 : pip install numpy
다. import문 : import numpy as np
라. 튜토리얼(한글) : http://aikorea.org/cs231n/python-numpy-tutorial/#numpy
3. matplotlib
가. 주요 기능 : 데이터 분석 결과를 표현할 수 있는 강력한 시각화 도구이다. 쉽게 얘기하자면 출판할 수 있는 수준의 그래프를 표현해 줄 수 있는 패키지이다.
나. 설치 명령어 : pip install matplotlib
다. import문 : import matplotlib.pyplot as plt
-> 주로 주피터 노트북 환경에서 사용하게 될 텐데 새창이 아닌 현재 노트북에서 시각화 경과를 표시해 주기 위해서는 아래 두 가지 방법 중 하나를 선택한다. 그래프 결과를 조작하고자 하는 경우에는 2) 방법을 택하는 것을 추천한다.
1) %matplotlib inline
2) %matplotlib notebook
라. 튜토리얼 : https://matplotlib.org/tutorials/introductory/pyplot.html
주피터 노트북(Jupyter Notebook)에서 위 3가지 패키지를 임포트 하고 간단한 그래프를 그리면 아래와 같은 형태가 되겠다.
글이 너무 길어지는 것도 별로니까, 이번 글에서는 여기까지 하고 다음글에서 좀 더 다뤄보도록 하죠.
'프로그래밍 > 데이터분석' 카테고리의 다른 글
특정 키워드(중고) 트위터로 워드클라우드 만들기 (0) | 2017.06.26 |
---|---|
특정단어 언급한 트위터 데이터 가져오기 (0) | 2017.06.25 |
R Studio를 통해 트위터 데이터 가져오기(2) (2) | 2017.04.10 |
R Studio를 통해 트위터 데이터 가져오기(1) (0) | 2017.04.09 |
SNS 여론 추이 분석 서비스 - 소셜메트릭스(SOCIAL metrics) (0) | 2015.12.08 |