프로그래밍/데이터분석

파이썬 데이터분석 필수 라이브러리 - pandas, numpy, matplotlib

&+&& 2018. 3. 29. 00:51

  python에서 데이터 분석에 사용되는 주요 라이브러리가 있죠. pandas, numpy, matplotlib 등이 있는데요. 라이브러리별 주요 기능 및 설치 방법 등을 정리해 보려고 합니다.

  파이썬의 데이터 분석용 플랫폼인 Anaconda를 깔면 위의 주요 라이브러리와 주피터 노트북 등의 편리한 툴들까지 모두 깔리니까 좀 더 사용하기 편리합니다. 또한 라이브러리 설치나 import 등은 본인 취향에 따라 다른 방법을 사용하셔도 됩니다.



1. pandas

 가. 주요 기능 : pandas는 유용한 데이터 구조를 제공하는 파이썬 패키지이다. 주요 데이터 구조로는 Series와 DataFrame이 있음. 이 중 DataFrame은 일종의 엑셀같은 스프레드시트형태의 데이터를 관리할 수 있는 데이터 구조라고 할 수 있음.

 나. 설치 명령어 : pip install pandas

 다. import문 : import pandas as pd

 라. 튜토리얼 : https://pandas.pydata.org/pandas-docs/stable/tutorials.html



2. numpy

 가. 주요 기능 : numpy는 수학 및 과학연산을 위한 파이썬 패키지로 다차원 배열 데이터 구조와 관련 도구들을 제공한다. 파이썬으로 수치해석, 통계 관련 작업을 수행할 때 사용되는 다양한 기능들을 포함하고 있다.

 나. 설치 명령어 : pip install numpy

 다. import문 : import numpy as np

 라. 튜토리얼(한글) : http://aikorea.org/cs231n/python-numpy-tutorial/#numpy



3. matplotlib

 가. 주요 기능 : 데이터 분석 결과를 표현할 수 있는 강력한 시각화 도구이다. 쉽게 얘기하자면 출판할 수 있는 수준의 그래프를 표현해 줄 수 있는 패키지이다. 

 나. 설치 명령어 : pip install matplotlib

 다. import문 : import matplotlib.pyplot as plt

      -> 주로 주피터 노트북 환경에서 사용하게 될 텐데 새창이 아닌 현재 노트북에서 시각화 경과를 표시해 주기 위해서는 아래 두 가지 방법 중 하나를 선택한다. 그래프 결과를 조작하고자 하는 경우에는 2) 방법을 택하는 것을 추천한다.

      1) %matplotlib inline

      2) %matplotlib notebook

 라. 튜토리얼 : https://matplotlib.org/tutorials/introductory/pyplot.html



  주피터 노트북(Jupyter Notebook)에서 위 3가지 패키지를 임포트 하고 간단한 그래프를 그리면 아래와 같은 형태가 되겠다.


  글이 너무 길어지는 것도 별로니까, 이번 글에서는 여기까지 하고 다음글에서 좀 더 다뤄보도록 하죠.