본문 바로가기

분류 전체보기20

[파이썬] 데이터프레임 인덱스 수정 - set_index, reset_index, reindex, drop, index.name 데이터프레임의 인덱스를 사용하여 원하는 데이터를 불러오고, 수정하고, 삭제할 수 있다. 인덱스를 잘 활용할 수 있으면 데이터 전처리와 분석 또한 수월해지기 때문에 인덱스 관련 메서드를 익혀둘 필요가 있다. 오늘은 인덱스 자체를 지정, 원복, 수정, 삭제하는 방법을 정리하려 한다. 데이터프레임 만들 때 인덱스 지정하는 방법은 데이터프레임 생성 관련 글에서 다루었으니 여기서는 데이터프레임이 만들어진 후 인덱스 수정 관련으로 정리하겠다. 그리고, 판다스를 임포트 해줘야하니 import pandas as pd 코드를 작성, 실행해준다 원하는 열을 index로 지정하기 - .set_index()이미 지정된 인덱스 대신 다른 열을 인덱스로 변경하고 싶다면 .set_index()를 사용하여 바꿀 수 있다. 사용 방법.. 2024. 6. 11.
[파이썬] 데이터프레임 정보 확인 - info, describe, columns, count, unique, dtype, head 오늘은 데이터 전처리 혹은 분석 전에 간단하게 데이터프레임의 기본 정보와 통계적 정보를 확인하는 방법을 정리해겠다. 데이터프레임의 기본 정보와 통계적 정보를 간단하게 확인할 수 있는 몇 가지 메서드가 있다. import pandas as pd 를 해준 후 아래 메서드들을 사용할 수 있으니 데이터프레임 관련 작업 시 판다스를 꼭 임포트 해줘야 한다. 데이터프레임 기본 정보 - .info( ) :사용 방법: 데이터프레임명.info() 정보를 확인하고자 하는 데이터프레임 이름에 .info() 를 붙여 코드를 실행하면 아래와 같이 해당 데이터프레임의 기본적인 정보를 알 수 있다. - 총 인덱스 개수 - 총 열 개수 - 각 열의 이름 - 각 열의 결측치 (null 값) - 각 열의 데이터타입 - 사용 메모리 위 .. 2024. 6. 10.
[파이썬] 시리즈를 데이터프레임으로 만들기 단일 시리즈는 to_frame()으로,다수의 시리즈는 pd.DataFrame() 혹은 pd.concat()을 사용하여 데이터프레임으로 만들어줄 수 있다. 단일 시리즈 → 데이터프레임단일 시리즈를 데이터프레임으로 만들어 준다면 아래 형식을 사용하면 된다.     시리즈명.to_frame(name='열이름') 아래는 시리즈 s1을 데이터프레임으로 변환하기 위한 코드의 예시다.# 시리즈 -> 데이터프레임 변환df=s1.to_frame(name='점수')print('\n>')print(df,type(df)) 아웃풋 이미지의 첫번째 부분은 s1이 시리즈였을 때의 결과고,두번째 부분은 데이터프레임 df로 변환한 후의 모습이다.데이터프레임으로 변환할 때 열이름을 '점수'로 지정해주었다. 각 케이스의 데이터 타입으로 .. 2024. 6. 9.
[파이썬] 딕셔너리, 리스트를 데이터프레임 (DataFrame)으로 만들기 데이터프레임 (Dataframe)은 딕셔너리, 리스트 자료형을 pd.DataFrame() 을 사용하여 만들 수 있다.또한, 시리즈를 데이터프레임으로 변환할 수도 있는데, 단일 시리즈를 데이터프레임으로 바꿀 경우 to_frame()을 통해 변환할 수 있고, 다수의 시리즈를 데이터프레임을 병합할 경우에는 pd.DataFrame() 혹은 pd.concat() 을 사용할 수 있다. 일단 오늘은 딕셔너리와 리스트를 데이터프레임으로 바꾸는 방법을 아래에 정리해보도록 하겠다. 1) 딕셔너리 → 데이터프레임 기본 형식은 아래와 같다.    데이터프레임명=pd.DataFrame(딕셔너리명) 데이터프레임으로 만들 딕셔너리를 준비하고, 해당 딕셔너리의 이름을 pd.DataFrame() 의 소괄호 안에 넣어주면 된다. 아래는.. 2024. 6. 8.
[파이썬] 시리즈 (Series) 만드는 방법 판다스:판다스 (Pandas)는 Python Data Analysis Library의 약어로 파이썬에서 데이터 분석과 조작을 위해 사용하는 강력하고 유연한 오픈 소스 라이브러리다.  판다스의 주요 역할과 가능은 아래와 같다:- 데이터 처리: 결측값 처리, 데이터 정제, 필터링, 병합, 연결 및 변환 등을 위한 다양한 기능 제공- 데이터 분석: 기술통계, 그룹화, 시계열 분석 등 복잡한 분석 작업 제공- 입출력 기능: CSV, Excel, SQL, JSON 등 다양한 파일 형식의 데이터를 읽고 쓸 수 있는 기능을 제공- 시각화 지원: matplotlib과 연동하여 데이터 시각화 가능 특히 데이터 분석 전에 전처리를 하는 과정에서 핵심적인 패키지로 사용된다. 그리고 이 과정은 대부분 데이터프레임 (Dataf.. 2024. 6. 6.
[파이썬] 구글 코랩(colab)으로 파일 불러오기 - 로컬 PC에서 불러오기 구글 코랩에서 구글 드라이브와 연동하여 파일을 불러올 수도 있지만 로컬 PC에서도 가져올 수 있다. 로컬 PC에서 불러오는 방법은 아래와 같다. 불러오는 코드는: from google.colab import filesuploaded_file=files.upload() 코드 작성 후 실행하면 아래처럼 "파일 선택" 창이 뜬다. "파일 선택"을 클릭하여 로컬 PC에 저장된 폴더에 있는 파일을 클릭하면 아래처럼 선택된 파일에 대한 정보가 뜬다. 성공적으로 파일이 업로드 되었고, 파일 내 데이터 활용을 위해 데이터프레임으로 읽어오기 위해 아래 코드를 사용하면 된다.import pandas as pdfile_path='stock valuation.xlsx'df=pd.read_excel(file_path)df.he.. 2024. 6. 2.
반응형