본문 바로가기

Python36

[Seaborn] Seaborn을 이용한 시각화 Seaborn Matplotlib를 기반으로 만들어진 파이썬 라이브러리 Matplotlib을 더 사용하기 쉽게 만들어진 강력한 라이브러리 통계함수를 공학도들이 통계원리를 포함시켜 만듦 공식 사이트 http://seaborn.pydata.org seaborn과 matplot과 다른 점? 내가 분석한 그래프를 시각화할 때 내가 색감을 지정해서 디자인을 구성하는 능력 중요! seaborn에서 지정하는 palette 를 사용할 건데 어떤 그래프를 골라서 사용하는지도 중요하지만 color 선택이 정말 중요하다. 통계와 알고리즘을 절묘하게 섞어서 API를 만들어내어야 하는데 color는 미국 뉴욕의 현역 디자이너들, 전문가와 협력하여 만든 것이다. Seaborn에서만 제공되는 통계기반 plot # seaborn을 .. 2022. 4. 9.
[Matplotlib] Matplot을 이용한 시각화 Matplot 파이썬으로 데이타를 시각화 하는데는 matplotlib 라는 라이브러리를 가장 많이 사용matplotlib은 파이썬에서 2D 형태의 그래프, 이미지 등을 그릴때 사용하는 것으로실제 과학 컴퓨팅 분야나 인공지능 연구분야에서도 많이 사용됨 matplotlib 모듈 중에는 다양한 모듈들이 있는데 그 중에서 가장 많이 사용하는서브모듈이 pyplot 이다. import matplotlib.pyplot as plt matplot의 서브 모듈인 pyplot을 사용한다. 1. 직선 그래프 그리기 plot(), subprot(), subplots() x = np.arange(10) plt.plot(x) # 원래는 x, y 형식으로 넣어줘야 하는데 매개변수 하나만 넣으면 x와 y 동일하게 들어가서 대각선 출.. 2022. 4. 9.
[Pandas] Pandas - plot plot kind 옵션을 어떻게 지정하느냐에 따라서 다양한 그래프를 그릴수 있다.시각화 목적에 맞게 kind를 잘 지정해줘서 그린다 line 선그래프 bar 바그래프 barh 수평 바그래프 pie 파이그래프 box 박스플롯 kde 커널 밀도 그래프 hist 히스토그램 scatter 산점도 그래프 area 면적 그래프 df['분양가격'].plot() # 서울지역에 대한 집값만 보겠다. df_s = df.loc[df['지역명']=='서울'] df_s # 서울지역 연도별 분양가 df_s_year = df_s.groupby('연도').mean() df_s_year df_s_year['분양가격'].plot(kind='line') # 그려줘 plt.show() # 지역별 분양가 df.groupby('지역명')['분.. 2022. 4. 9.
[Dataframe] Dataframe - 데이터 병합 Concat, Merge 서로 다른 데이타프레임을 하나로 합치는 작업 1) Concatenate 행 방향으로 연결됨 기본값이 axis=0 지정 이 경우에는 두 DataFrame이 서로 동일한 인덱스,컬럼을 가지고 있는 경우가 대부분 위+아래로 연결되는 방식이 기본이지만 좌,우로도 연결 가능하다. outer join이 기본방식이다. sql에서 join과 같음 두개의 DataFrame에 공통적으로 포함되어 있는 하나의 컬럼을 기준으로 합치는 방식 즉, 서로 다른 구성의 DataFrame이지만 공통된 key(컬럼)값을 가지고 있다면 병합 가능하다. inner join이 기본방식. => 교집합 on 속성뒤 공통의 컬럼명 how 속성뒤 조인기법을 적용함 concat은 동일한 데이터의 날짜가 다르다던지, 분기별로 .. 2022. 4. 9.
[DataFrame] DataFrame - Grouping, pivot_table groupby() 데이타를 특정 기준으로 그룹핑 할때 사용(엑셀의 피봇 테이블과 유사)그룹핑을 한 후에는 반드시 통계함수를 적용한다. 그룹핑 => 세분화시킨다세분화 된 객체들의 통계함수를 적용하여 구한다 # 성별로 그룹핑 # 성별로 그룹핑하면 데이터프레임이 두동강 나잖아! # groupby 함수만으로는 아무것도 출력되지 않는다. # 그룹핑 된 객체 자체만 반환된다. DataFrameGroupBy tips.groupby('sex') # # 출력 결과를 받아 보려면.. DataFrameGroupBy 객체에 통계함수를 적용 tips.groupby('sex').describe() # 평균 함수를 적용해보면 numeric한 칼럼만 추출됨 tips.groupby('sex').mean() # 흡연, 비흡연자 여부로 .. 2022. 4. 8.
[DataFrame] DataFrame - 통계 함수, 날짜 변수 통계는 데이터 분석에서 굉장히 중요한 요소이다. 데이터에 대한 통계 계산식으로 Pandas 함수로 제공하기 때문에 어렵지 않게 통계 값을 산출할 수 있다. describe() - 요약통계 전반적인 주요 통계를 확인할 수 있음 기본 값으로 수치형(Numerical) 컬럼에 대한 통계표를 보여줌 count : 데이터 개수 mean : 평균 std : 표준편차 min : 최솟값 max : 최대값 tc5 = tips.copy() # numerical 칼럼에 대한 통계 tc5.describe() # 각 컬럼에 대한 개수, 누락 데이터는 건너 뛰기 때문에 244로 나옴 tc5.count() ''' total_bill 245 tip 244 sex 244 smoker 244 day 244 time 244 size 24.. 2022. 4. 8.