본문 바로가기

분류 전체보기20

[파이썬] 데이터 이상치 확인 | Matplotlib 박스플롯 시각화, subplots 데이터 이상치/이상값  >이상치는 특정 범위를 벗어난 튀는 데이터이며 데이터 분석에 영향을 줄 수 있어 보통 제거하는 편이다.하지만 경우에 따라 보류하고 별도 분석을 진행할 수도 있다. 데이터 전처리를 어떻게 할 것이냐는 분석 목적, 상황 등에 따라 다르다. 이상치는 데이터 입력 오류, 측정 오류, 실험 오류, 고의적인 이상값, 표본추출 에러 등에서 발생할 수 있으며, 소비자 조사 같은 경우 간혹 정말 특이한 특성을 가진 고객이라 일반적 범위에서 많이 벗어난 경우도 있다. 예를 들어, 대부분이 연봉 4000 - 6000만원인데 2억 이상인 경우 등. 이상치를 알아내기 가장 쉬운 방법은 시각화를 통해서 한 눈에 보는 방법인 것 같다.개인적으로 그 중 제일 편한 방법은 박스플롯 (상자수염그림) 사용인 것 같.. 2025. 2. 15.
[PPT] PPT 도형으로 그림 그리기 | SVG 파일, 곡선 사용 PPT 작업을 할 때 원하는 이미지나 아이콘을 넣어 꾸미고 싶은데 색상이나 형태가 마음에 들지 않을 때가 많다.이럴 때 간단하고 비교적 편한 방법은 svg 파일로 원하는 형태에 가까운 이미지/아이콘을 여러개 다운 받아 합치는 방식이다.  SVG (Scalable Vector Graphics) 는 확장 가능한 벡터 그래픽 파일 형식이다. JPEG 같은 픽셀 기반의 이미지를 다운 받아서 PPT에 넣고 확장시키거나 하면 품질이 와장창 깨질 때가 많다.또한 이미지 안의 요소들의 색상을 바꾸거나 특정 부분만 크기를 바꾸는 등은 불가능하다.SVG 는 그리드 위의 점과 선을 기반으로 하는 수학 공식을 통해 이미지를 저장하기 때문에 확장/축소해도 이미지가 깨지는 현상이 일어나지 않는다. 또한, PPT에서 도형으로 변환.. 2025. 2. 14.
[파이썬] 데이터 전처리 | 데이터 정제, 결측값 처리 - isna().sum(), replace(), fillna() 데이터 분석을 정확하게 하기 위해서는 우선 분석 목적에 맞는 데이터 세트를 만드는 것이 중요하다.설문 조사를 진행하든 웹크롤링 등으로 데이터를 수집하든 긁어 모은 데이터 속에 불순물이 섞여 있는 일은 아주 흔하다.Garbage in, Garbage out 이란 말이 있듯, 애초에 불량한 샘플이라면 아무리 화려하게 분석 능력을 펼쳐봤자 잘못된 결과물을 얻게된다.따라서, 분석에 앞서 데이터를 목적에 맞게 준비하기 위한 데이터 전처리는 필수이며, 다음과 같이 데이터 정제 과정을 밟는다. 1. 데이터 오류 원인 탐색 결측값 확인 - 필요한 데이터 값이 누락됨이상값 확인 - 특정 범위를 벗어난 튀는 값 (평균값 등에 영향을 미쳐 부정확한 해석으로 이끌 수 있음)노이즈 확인 - 실제 입력되지 않았지만 입력되었다고 .. 2025. 2. 12.
[노션] 노션으로 이력서 & 포트폴리오 만들기 (+기본 기능 소개) 기본적이고 깔끔한 이력서 & 포트폴리오를 노션으로 만들어 보았다.노션을 처음 사용할 때는 따라 만들며 기능을 익히는게 가장 쉽고 빠른것 같다.아래에 기본 양식의 이력서+포트폴리오 만드는 방법과 사용된 기능에 대한 설명을 추가해 두었으니 필요하신 분들에게 도움이 되기를! 우선 최종적으로 만든 모습은 아래와 같다.  0. 새 페이지 만들기노션의 좌측 사이드바의 옆의 + 사인을 클릭하면 새로운 페이지를 추가해준다.  1. 제목 입력새로운 페이지가 뜨면 아무것도 없는 빈 페이지인데 희뿌옇게 라고 되어있는 부분에 본인 이름이나 제목을 넣는다. 새 페이지의 제목을 입력한 후 제목 위쪽을 호버링 (hovering)하면 와 가 뜨는데, 본인 취향이나 해당 페이지에 어울리는 아이콘과 커버 이미지를 추가하여 꾸밀 .. 2024. 12. 13.
[파이썬] Open() 함수, UnicodeDecodeError, chardet, chardet.detect() 파이썬에서 csv 파일을 불러올 때 판다스 라이브러리의 read_csv() 함수를 사용할 수도 있지만 open() 함수로도 불러올 수 있다.  판다스 라이브러리로 csv 파일 불러오는 방법은 이전 글에서 다루었으니 오늘은 open() 함수 사용 방법만 정리하도록 하겠다. open() 함수로 파일 불러오기코랩 기준으로 open() 함수로 파일을 불러오기 위해서는 코랩에 해당 데이터를 업로드해야한다. 1. 코랩의 좌측 목차 창에 위치한 "폴더" 아이콘을 클릭하여 창을 열고 내 컴퓨터에 있는 csv 파일을 마우스로 드래그하여 폴더 창 안에 넣는다. 2. 파일 업로드가 완료되면 아래 이미지처럼 해당 파일의 이름이 뜬다.  3. open() 함수를 사용하여 파일을 불러온다.    함수 사용방법은 아래와 같다:  .. 2024. 8. 21.
[파이썬] 시리즈/데이터프레임 인덱싱 - iloc, loc 인덱스 (index)는 사전적으로 '색인', 즉, 어떤 것을 찾아내거나 필요한 정보를 밝힌다는 뜻이다. 파이썬에서도 인덱스는 특정 값의 순서/번호를 뜻하며, 원하는 것에 접근하기 위해 유용하게 사용된다. 오늘은 판다스 라이브러리로 생성한 시리즈/데이터프레임에서 특정 위치나 라벨에 접근하기 위해 자주 사용되는 iloc, loc 메서드에 대해 정리하겠다. 일단, 판다스를 임포트 하고 사용해야한다. 시리즈, 데이터프레임 관련 무엇인가를 하려면 import pandas as pd 는 기본적으로 실행해준다. iloc (integer location) iloc는 정수 인덱스 기반으로 데이터에 접근하는 메서드다. 즉, 시리즈나 데이터프레임의 특정 위치에 있는 데이터를 찾을 때 사용된다. 사용 방법: (A) 특정 행에.. 2024. 6. 12.
반응형