데이터 유형별 전처리 (정형)

zuryeong 2024. 9. 14. 18:02

2024. 9. 14. 18:02

1. 정형 데이터

1) 정형 데이터의 이해

-1 의미

(a) 일정한 형식이 있는 정보가 저장된 데이터 또는 파일 : 예) csv, 로그, html, json 등

(b) "일정한 형식이 있다"는 의미

(d) 그리고 각 분리된 항목(컬럼)이 같은 의미를 갖음

-2 수집

(a) 데이터 제공처로부터의 파일로 수집

(b) 데이터 제공처로부터의 웹 크롤링, 웹 스크래핑

-3 예제

-4 indexing & slicing 개념

(a) indexing : 하나의 원소에 접근

(b) slicing : 연속된 여러 원소에 접근

2) 정형 데이터 전처리

-1 결측치 처리 (Imputation)

(a) Numerical Imputation: 평균값, 중앙값, 최빈값 등의 평균 중심값 대체 (단순 대체, 다중 대체)

(b) Categorical Imputation: 최빈값 대체

-2 이상치 처리(Outliers)

(a) 하한보다 낮으면 하한값, 상한보다 높으면 상한값 대체

(b) 표준편차에서 예외적으로 나타내는 값들을 삭제

-3 이산화 처리 (Binning, Partitioning)

(a) Equal width binning(partitioning) : 전체 범위에 대해 n개로 분할 (pandas.cut() 이용)

(b) Equal frequency binning(partitioning) : 동일 구간 정렬 후 분할 안에 동일한 개수가 되도록 분할(pandas.qcut()

이용

-4 이산화처리 예제

3) 스케일링 (Scaling)

-1 로그 변형( log transform) : log 함수를 이용하여 데이터 변경

-2 one hot encoding : 데이터 집합의 크기를 백터의 차원화하여 1 또는 0을 부여하는 방식

-3 min-max 정규화 : 데이터의 범위를 0~1로 처리

-4 z-score 정규화 : 평균 0, 표준편차 1로 데이터 변경

-5 변환대상 : 70, 80, 90, 100

(a) 평균 : 83.75

(b) 표준편차 : 9.60143218483576

4) 그룹연산 (grouping operation)

5) 파생 (derived)

-1 하나의 변수를 2개 이상으로 분할

-2 하나의 변수를 가공하여 새로운 변수 생성

-3 두개의 변수를 가공하여 새로운 변수 생성

6) 정형 데이터 세부 작업

-1 데이터세트 가져오기 및 내보내기

-2 변수 이름 지정 또는 이름 바꾸기

-3 변수 유형 변경 (명시적 강제라고도 함)

-4 중복 키 또는 전체 중복 레코드가 있는 하나 이상의 변수 정렬

-5 입력 데이터 세트에서 출력 데이터 세트로 열 선택

-6 하나 이상의 조건을 기반으로 행 필터링

-7 기존 변수의 기능을 통한 새로운 변수 생성

-8 변수의 조건부 처리 (즉, 새 변수의 값은 기존 변수의 값을 기반으로 함)

-9 테이블 추가

-10 테이블 조인 (내부 조인, 왼쪽 및 오른쪽 조인, 전체외부 조인)

-11 전치 테이블

-12 열 요약 또는 그룹별로 열 요약

-13 열 정규화 및 표준화 (연속형 변수의 경우)

-14 연속 변수의 비닝

-15 변수에 결측값 대입

'핀테크 인공지능' 카테고리의 다른 글

데이터 유형별 전처리 (이미지) (1)	2024.09.14
데이터 유형별 전처리 (시계열) (5)	2024.09.14
데이터 수집과 전처리 (4)	2024.09.14
핀테크 실습을 위한 기초 프로그래밍 (파이썬) (0)	2024.09.14
인공지능 개발 환경 (2)	2024.09.14

zuryeong의 개발 블로그