본문 바로가기

Python/데이터 분석23

[DataFrame] DataFrame - 구조 확인 속성 index : index(기본 값으로 RangeIndex) index의 타입은 RangeIndex df1.index # RangeIndex(start=0, stop=4, step=1) type(df1.index) # columns : column 명 columns의 타입은 Index # 분석할 데이터의 타입을 한 번에 확인 df1.columns # Index(['name', 'address', 'age'], dtype='object') type(df1.columns) # values : numpy array 형식의 데이터 값 values의 타입은 ndarray df1.values ''' [['James' 'NY' 33] ['Tom' 'Texas' 44] ['Jane' 'NY' 55] ['Peter' 'L.. 2022. 4. 2.
[DataFrame] DataFrame - 생성 DataFrame은 2차원 배열형식. 표 같은 스프레드시트 자료구조 여러 개의 컬럼을 가지며 서로 다른 종류의 값이 담긴다. DataFrame은 다양한 방식으로 생성되지만 가장 흔하게 생성하는 방법으로 1)리스트를 값으로 가지는 딕셔너리 방법으로 생성 2)Numpy 배열을 이용해서 생성 3)read_csv(), read_excel()함수등을 이용해서 생성 1. 딕셔너리로 dataframe 만들기 key는 자동으로 column으로 value(리스트)는 values로 들어감 key : [리스트] import numpy as np import pandas as pd from pandas import Series, DataFrame import matplotlib.pyplot as plt df_dic = { '.. 2022. 4. 2.
[pandas] pandas - Series 1. 시리즈 생성, 구조확인 Pandas의 Series는 1차원 배열로서 인덱스(index) 사용 가능 문자 인덱스 사용 가능 데이터 타입 존재 (dtype) import numpy as np import pandas as pd from pandas import Series, DataFrame #Series? # ndarray 기반의 일차원 배열이다. ser = Series([1,2,3,4,5]) ser ''' 0 1 1 2 2 3 3 4 4 5 dtype: int64 ''' ser.shape # (5,) ser = Series([1, '2', 3,0, '네 번째', 5]) # 데이터 타입 맞춰야 하지만 섞어서 입력 ser ''' 0 1 1 2 2 3 3 0 4 네 번째 5 5 dtype: object .. 2022. 4. 2.
[pandas] pandas - Series, DataFrame 관계형 또는 레이블이 된 데이터로 쉽고 직관적으로 작업할 수 있도록 설계되었고, 빠르고, 유연한 데이터 구조를 제공하는 python 패키지 ⇒ Numpy + $a$ Excel과 같은 표 구조의 직관적인 작업이 가능하도록 설계됨 pandas의 대표적 모듈 두 가지 Series ⇒ dtype 동일, DataFrame ⭐ index + columns + values ⇒ Matrix 구조 이 하나씩 떼어온 것을 Series라고 함, 데이터 타입이 동일한 칼럼의 묶음이어야 한다. 이 하나씩 떼어온 것을 Series라고 함, 데이터 타입이 동일한 칼럼의 묶음이어야 한다. ndarray 역시 같은 데이터 타입의 묶음이었다. 따라서 비슷한 구조를 가지는 것이 dataframe의 칼럼으로 추출한 series ⇒ seri.. 2022. 4. 2.
[Numpy] Numpy 배열의 통계함수 sum 합 min 최소값 max 최대값 mean 평균 median 중간값 quantile arr의 제 1사분위수(0.25), 중앙값(0.5), 제 3사분위수(0,75) 값을 반환 std 표준편차, 분산의 제곱근 var 분산, variance, 데이타가 펴져 있는 정도를 수치화 한 것 corrcoef 상관관계 import numpy as np arr = np.arange(1, 13).reshape(3,4) arr ''' array([[ 1, 2, 3, 4], [ 5, 6, 7, 8], [ 9, 10, 11, 12]]) ''' np.sum(arr) # 78 # 행 방향으로 총합 arr.sum(axis=1) # array([10, 26, 42]) np.sum(arr, axis=1) # array([10, 26.. 2022. 4. 2.
[Numpy] Numpy 배열의 정렬 정렬 함수 np.sort(ndarray) ndarray.sort() np 자체에 존재하는 정렬 함수 np.sort(ndarray), 배열을 정렬, 재대입 해주지 않으면 정렬이 유지되지 않음, 원본 유지, 반환값 있음, 원본 array에 재할당 해줘야 함 ndarray를 파이썬 기본 ndarray.sort() 함수 사용, 배열 자체를 정렬하면서 동시에 원본 변경, 반환값 없음, 자동으로 array에 정렬되어 재할당 원본 데이터의 훼손을 방지하기 위해 반환값 있고, 없고, 원본에 바로 반영하고, 안 하고 나누어 사용 📍 np.sort(arr) 를 사용하여 원본을 훼손하지 않게끔 하는 방식 추천 arr3 = np.array([1, 10, 5, 8, 2, 4, 3, 8, 9, 10]) # 1. np의 기본 정렬.. 2022. 4. 2.