오늘은 데이터 전처리 혹은 분석 전에 간단하게 데이터프레임의 기본 정보와 통계적 정보를 확인하는 방법을 정리해겠다.
데이터프레임의 기본 정보와 통계적 정보를 간단하게 확인할 수 있는 몇 가지 메서드가 있다.
import pandas as pd 를 해준 후 아래 메서드들을 사용할 수 있으니 데이터프레임 관련 작업 시 판다스를 꼭 임포트 해줘야 한다.
데이터프레임 기본 정보 - .info( ) :
사용 방법:
데이터프레임명.info()
정보를 확인하고자 하는 데이터프레임 이름에 .info() 를 붙여 코드를 실행하면 아래와 같이 해당 데이터프레임의 기본적인 정보를 알 수 있다.
- 총 인덱스 개수
- 총 열 개수
- 각 열의 이름
- 각 열의 결측치 (null 값)
- 각 열의 데이터타입
- 사용 메모리

위 예시의 경우 총 1309개의 행이 있으며, 열은 14개다.
14개의 열 중 age, fare, cabin, embarked, boat, body, home.dest 열에 null 값이 있음을 알 수 있다.
따라서, 분석 진행 전에 결측치에 대한 데이터 전처리가 필요할 것으로 보인다.
데이터타입 또한 분석에 따라 변경해줘야할 때가 있어 중요한 정보다.
데이터프레임 통계 정보 - .describe( ) :
사용 방법:
데이터프레임명.describe()
데이터프레임에서 numeric 데이터타입의 열인 경우 .describe() 메서드를 사용하여 기본적인 통계 정보를 얻을 수 있다.
- 열 별 총 데이터 개수
- 평균값
- 표준 편차
- 최소값
- 25% 구간의 데이터
- 50% 구간의 데이터 (중앙값)
- 75% 구간의 데이터
- 최대값

특정 열의 통계적 정보만 필요하다면 아래처럼 인덱싱하여 확인할 수 있다.
데이터프레임명['열이름'].describe() 혹은
데이터프레임명.열이름.describe()

데이터프레임 열이름 확인 - .columns :
데이터프레임의 열이름만 퀵하게 확인하고 싶다면 .columns 메서드를 사용하면 된다.
사용 방법:
데이터프레임명.columns

데이터프레임 열 별 데이터 개수 확인 - .count( ) :
데이터프레임의 특정 열/변수에 총 데이터 개수만 간단하게 확인하려면 .count() 메서드를 사용하면 된다.
사용 방법:
데이터프레임.count()
아래처럼 열별 데이터 개수를 정리해서 보여준다.

특정 열에 대한 것만 확인하고 싶다면 데이터프레임['열이름'].count() 혹은 데이터프레임.열이름.count() 로 확인 가능하다.

데이터프레임 특정 열의 고유값 확인 - .unique( ) :
데이터프레임의 특정 열/변수에 들어가 있는 고유값을 한 눈에 확인할 수 있는 방법은 .unique() 를 사용하는 거다.
즉, 해당 변수에 들어가 있는 값들을 중복 없이 리스팅해준다.
사용 방법:
데이터프레임['열이름'].unique 혹은
데이터프레임.열이름.unique()

데이터프레임 특정 열의 데이터타입 확인 - .dtype:
사용 방법:
데이터프레임.['열이름'].dtype 혹은
데이터프레임.열이름.dtype

데이터프레임 첫 5행에 대한 데이터 프리뷰 - .head():
행이 매우 많은 데이터프레임을 코랩에서 한 눈에 보기는 어렵다.
대신, 첫 5행에 대한 데이터를 프리뷰처럼 볼 수 있는 방법은 있다.
사용 방법:
데이터프레임.head()

다만, 열이 많을 경우 아래처럼 일부 잘려서 나온다. price_20고 price_20_rev 사이가 " ... " 처리되었다.

'파이썬 - 분석 라이브러리' 카테고리의 다른 글
[파이썬] 시리즈/데이터프레임 인덱싱 - iloc, loc (0) | 2024.06.12 |
---|---|
[파이썬] 데이터프레임 인덱스 수정 - set_index, reset_index, reindex, drop, index.name (0) | 2024.06.11 |
[파이썬] 시리즈를 데이터프레임으로 만들기 (0) | 2024.06.09 |
[파이썬] 딕셔너리, 리스트를 데이터프레임 (DataFrame)으로 만들기 (0) | 2024.06.08 |
[파이썬] 시리즈 (Series) 만드는 방법 (0) | 2024.06.06 |