- 관계형 또는 레이블이 된 데이터로 쉽고 직관적으로 작업할 수 있도록 설계되었고, 빠르고, 유연한 데이터 구조를 제공하는 python 패키지 ⇒ Numpy + $a$
- Excel과 같은 표 구조의 직관적인 작업이 가능하도록 설계됨
pandas의 대표적 모듈 두 가지
- Series ⇒ dtype 동일,
- DataFrame
⭐ index + columns + values ⇒ Matrix 구조
이 하나씩 떼어온 것을 Series라고 함, 데이터 타입이 동일한 칼럼의 묶음이어야 한다.
이 하나씩 떼어온 것을 Series라고 함, 데이터 타입이 동일한 칼럼의 묶음이어야 한다.
ndarray 역시 같은 데이터 타입의 묶음이었다. 따라서 비슷한 구조를 가지는 것이 dataframe의 칼럼으로 추출한 series ⇒ series는 ndarray 기반
dataframe은 series이 묶음!
dataframe에서 칼럼 두 꼭지를 떼어오면 series 아님, dataframe임
✔️series는 values의 데이터 형이 동일(ndarray)해야 하며 일차원(Vector)이다.
일차원이기 때문에 columns가 없다.
✔️dataframe은 이차원 구조이기 때문에 행과 열이 존재한다.
행과 열이 교차하는 부분에 값들로 채워져 있다.
- 시계열 데이터, 시간의 연속으로 순차적인 데이터 (ex. 날짜별 영화 평점 데이터)
- Panel - 3차원(대상아님)
'Python > 데이터 분석' 카테고리의 다른 글
[DataFrame] DataFrame - 생성 (0) | 2022.04.02 |
---|---|
[pandas] pandas - Series (0) | 2022.04.02 |
[Numpy] Numpy 배열의 통계함수 (0) | 2022.04.02 |
[Numpy] Numpy 배열의 정렬 (0) | 2022.04.02 |
[Numpy] Numpy 배열의 Indexing & Slicing (0) | 2022.04.02 |
댓글