본문 바로가기

전체 글275

[DataFrame] DataFrame - 타입 변경 함수 ⭐ astype() : 타입 변경 후 재대입 필수 float형 → int 형으로 변환하면 소수점 아래 자리는 절삭 df3.info() ''' RangeIndex: 245 entries, 0 to 244 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 total_bill 245 non-null float64 1 tip 244 non-null float64 2 sex 244 non-null object 3 smoker 244 non-null object 4 day 244 non-null object 5 time 244 non-null object 6 size 244 non-null fl.. 2022. 4. 2.
[DataFrame] DataFrame - 조회 함수 head() - 앞에서 5개 조회 tail() - 뒤에서 5개 조회 head(10) - 앞에서 10개 조회 tail(10) - 뒤에서 10개 조회 df3.head() df3.tail() ⭐ describe() - 각 컬럼에 대한 요약 통계 제공 ⇒ Numeric한 칼럼에 대해서만 (day, time, sex 칼럼 제외) info() - 각 컬럼별 정보 확인 columns - 데이터프레임을 구성하는 컬럼명 확인 value_counts(subset=['칼럼명1', '칼럼명2']) : 칼럼 별 동일한 데이터 개수(빈도수) ⇒ sql의 groupby와 유사 df3.describe() 245 / 244(nan 값으로 1개 줄어들게 나옴) describe는 숫자형 칼럼에 대해서만 추출하기 때문에 include 속성.. 2022. 4. 2.
[DataFrame] DataFrame - 구조 확인 속성 index : index(기본 값으로 RangeIndex) index의 타입은 RangeIndex df1.index # RangeIndex(start=0, stop=4, step=1) type(df1.index) # columns : column 명 columns의 타입은 Index # 분석할 데이터의 타입을 한 번에 확인 df1.columns # Index(['name', 'address', 'age'], dtype='object') type(df1.columns) # values : numpy array 형식의 데이터 값 values의 타입은 ndarray df1.values ''' [['James' 'NY' 33] ['Tom' 'Texas' 44] ['Jane' 'NY' 55] ['Peter' 'L.. 2022. 4. 2.
[DataFrame] DataFrame - 생성 DataFrame은 2차원 배열형식. 표 같은 스프레드시트 자료구조 여러 개의 컬럼을 가지며 서로 다른 종류의 값이 담긴다. DataFrame은 다양한 방식으로 생성되지만 가장 흔하게 생성하는 방법으로 1)리스트를 값으로 가지는 딕셔너리 방법으로 생성 2)Numpy 배열을 이용해서 생성 3)read_csv(), read_excel()함수등을 이용해서 생성 1. 딕셔너리로 dataframe 만들기 key는 자동으로 column으로 value(리스트)는 values로 들어감 key : [리스트] import numpy as np import pandas as pd from pandas import Series, DataFrame import matplotlib.pyplot as plt df_dic = { '.. 2022. 4. 2.
[pandas] pandas - Series 1. 시리즈 생성, 구조확인 Pandas의 Series는 1차원 배열로서 인덱스(index) 사용 가능 문자 인덱스 사용 가능 데이터 타입 존재 (dtype) import numpy as np import pandas as pd from pandas import Series, DataFrame #Series? # ndarray 기반의 일차원 배열이다. ser = Series([1,2,3,4,5]) ser ''' 0 1 1 2 2 3 3 4 4 5 dtype: int64 ''' ser.shape # (5,) ser = Series([1, '2', 3,0, '네 번째', 5]) # 데이터 타입 맞춰야 하지만 섞어서 입력 ser ''' 0 1 1 2 2 3 3 0 4 네 번째 5 5 dtype: object .. 2022. 4. 2.
[pandas] pandas - Series, DataFrame 관계형 또는 레이블이 된 데이터로 쉽고 직관적으로 작업할 수 있도록 설계되었고, 빠르고, 유연한 데이터 구조를 제공하는 python 패키지 ⇒ Numpy + $a$ Excel과 같은 표 구조의 직관적인 작업이 가능하도록 설계됨 pandas의 대표적 모듈 두 가지 Series ⇒ dtype 동일, DataFrame ⭐ index + columns + values ⇒ Matrix 구조 이 하나씩 떼어온 것을 Series라고 함, 데이터 타입이 동일한 칼럼의 묶음이어야 한다. 이 하나씩 떼어온 것을 Series라고 함, 데이터 타입이 동일한 칼럼의 묶음이어야 한다. ndarray 역시 같은 데이터 타입의 묶음이었다. 따라서 비슷한 구조를 가지는 것이 dataframe의 칼럼으로 추출한 series ⇒ seri.. 2022. 4. 2.