기본 콘텐츠로 건너뛰기

파이썬(Python) Pandas 연습


안녕하세요 ?

너무 큰 엑셀파일은 다룰때마다 걱정이 됩니다.

한가지 행동을 할때마다 기다리기 일수이고, row 제한을 넘어가서 난처하기도 하죠.

파이썬 라이브러리인 pandas는 익숙해지기만 한다면 엑셀보다 훨씬 편리하게 데이터를 다룰 수 있을 것 같습니다.

 기억을 위해, 이번에 다뤘던 기능들을 간단하게 정리해 놓습니다.


0. 파이썬에서 판다스 라이브러리 불러오기

   import pandas as pd


1. 파이썬에서 판다스를 이용하여 엑셀파일 불러오기

   data = pd.read_excel('data.xlsx')



2. 파이썬에서 판다스를 이용하여 CSV파일 불러오기

   data = pd.read_csv('data.csv')



3. 파이썬에서 판다스로 불러온 데이터 확인하는 방법

   data.head(10)
   data.shape



4. 파이썬에서 판다스로 데이터 연결하기

   data00 = data01.append(data02, ignore_index=True)
혹은
   data00 = pd.concat([data01,data02], axis=0)
   #data01 아래에 data02를 연결함

   data00 = pd.concat([data01,data02], axis=1)
   #data01 옆으로 data02를 연결함








5. 파이썬 판다스, 엑셀의 피벗 테이블 기능

   traffic3 = pd.pivot_table(traffic2, index=['지점번호', '월', '일', '방향'], 
                                   columns='시', values='교통량')






6. 파이썬 판다스, 역피벗 테이블 기능

   traffic2 = pd.melt(traffic, 
               id_vars=['지점번호', '월', '일', '방향'],
               value_vars=list(traffic.columns[4:]), # list of days of the week
               var_name='시', 
               value_name='교통량')






7. 파이썬 판다스, merge 기능 (엑셀의 vlookup)

traffic3 = pd.merge(traffic2, location, # merge할 DataFrame 객체 이름
             how='left', # left, rigth, inner (default), outer
             left_on='지점번호',
             right_on='지점번호')






7. 파이썬 판다스, CSV로 저장하기

   data00.to_csv("./data00.csv",
                  sep=str(','), header=True, index=True, encoding='CP949')









댓글

이 블로그의 인기 게시물

텐서플로와 머신러닝 놀이터(Tensorflow playground and Machine learning playground)

  안녕하세요?   딥러닝을 공부하다보면, Learning rate, Activation, input feature, hidden layers 등 많은 것을 결정하게 됩니다.  보통은 자세하게 알지 못하고, 사실 잘 몰라도 딥러닝 방법을 적용하고 원하는 결과를 얻는데에는 아무런 문제가 없었습니다.   '우리들이 이것저것 해봤더니, Activation은 그냥 ReLU를 사용하면 되더라' 정도의 결론을 내고 넘어가더라고요.   아니면, 너무 앞부분에 대한 설명이어서 gradient decent가 이러저러하고, back propagation이 이러쿵 저러쿵 하는데 여전히 마음속 깊숙히 딥러닝 과정이 그려지지는 않는 듯 합니다.   그래서 텐서플로는 놀이터를 만들어 주었는데요. 코드를 배우느라 머릿속에서 빙글빙글 거리는 개념들을 시각화 해서 다뤄볼 수 있습니다. https://playground.tensorflow.org/   우선 익숙한 단어들이 보이네요 아무 생각 없이 이것 저것 눌러보면서 해볼 수 있어요.  그래서 분류(Classification) 문제 중에 가지고 가장 복잡한 데이터셋을 골라보았습니다.  회오리 모양으로 되어 있는데 과연 이렇게 Non-linearity가 극대화(?)된 데이터셋도 분류가 될까 싶어서 이거저것 눌러보았습니다.  어떤 feature가 회오리 무늬를 만들어낼 수 있을지, 몇겹의 hidden layer가 적당할지 고민해볼 수도 있었고, Epoch가 증가함에 따라 모델이 어떻게 발전해나가는지도 확인 할 수 있었습니다.  결국에는 잘 분류 할 수 있는 모델이 만들어 졌습니다.   비슷한 놀이터가 하나 더 있었습니다. https://ml-playground.com/  머신러닝들을 가지고 해볼 수 있는 곳입니다.  분류 문제만 다룰 수 ...

회로도 그려보기 (Fritzing)

 회로도를 그릴일이 생겼습니다. 간단하게 설명할 수 있는 정도의 회로도면 충분한 상황인데요, 구글에 검색하다보면 브래드보드와 함께 나오는 예쁜 회로들은 어떻게 그린 것일까요 ?   검색결과, "Fritzing" 이라는 소프트웨어 였습니다.    https://fritzing.org/home/  공식사이트에서는 무료라고 하면서도 다운을 받으려면 돈을 내라고 하는데요.  낮은 버전을 찾아서 테스트 해보았습니다.  기본제공 부품도 있지만, 구글에 ~~ fritzing part라고 검색을 하면  .fzpz 확장자의 파일을 다운로드 받을 수 있고 import 하여 사용할 수 있습니다.

Mnist Hands-on (2/4) - DNN(Deep Neural Network)로 학습해보기

앞에서 이어집니다. Mnist hands-on 두번째 입니다.      1. Mnist data 살펴보기      2. Mnist - DNN(Deep Neural Network)로 학습해보기      3. Mnist - CNN으로 학습해서 정확도 높이기      4. 직접쓴 숫자 넣어보기, 연구 적용 고민 앞서 다뤄보았던 Mnist 데이터를 이용해서 간단한 딥러닝을 수행해보려고 합니다. DNN 부분은 Markdown 부분에 코드를 적어놓아서, 아래에 코딩을 직접 따라서 해 볼 수도 있고, 복사/붙여넣기로 진행해볼 수도 있습니다. 주요 라이브러리를 불러오고 Mnist 데이터셋을 불러옵니다. Neural network에 넣기 위해서는 배열의 형태, demension을 맞춰주어야 합니다. 28x28 형태로 되어있던 것을 784 로 만들어 주는 것은 2D 형태였던 데이터를 1열(1D)로 만드는 것을 뜻합니다. 모든 값을 255로 나누는 것은 값을 0-1 사이에 위치시켜(scaling) 학습을 원활하게 합니다.  앞서 설명했던대로, label 값은 one hot vector 형식으로 변경해줍니다. 모델은 64개의 뉴런으로 구성된 Dense 층을 Input 으로 하고, 10개의 뉴런(label 이 10가지) 의 output 층을 갖습니다. Hidden layer은 64개의 뉴런층이 두층 추가되어있습니다. 여기서도 Input 부분의 dimension과 output 부분뉴런 개수가 X_train 값, Y_train 값의 형태와 잘 맞아야 합니다. 최근에 activation은 그냥 relu를 사용하는 경향이 있고, 마지막 output 층에서만 softmax(classification의 경우만) 를 사용하였습니다. *Activation 이란?  loss 를 계산 하는 방법 (Cost...