1. 정형 데이터
1) 정형 데이터의 이해
-1 의미
(a) 일정한 형식이 있는 정보가 저장된 데이터 또는 파일 : 예) csv, 로그, html, json 등
(b) "일정한 형식이 있다"는 의미
(c) 일정한 크기 또는 일정한 구분문자로 분리 가능
(d) 그리고 각 분리된 항목(컬럼)이 같은 의미를 갖음
-2 수집
(a) 데이터 제공처로부터의 파일로 수집
(b) 데이터 제공처로부터의 웹 크롤링, 웹 스크래핑
(c) 데이터 제공처로부터 제공되는 오픈 API 또는 전용 API 이용
-3 예제
-4 indexing & slicing 개념
(a) indexing : 하나의 원소에 접근
(b) slicing : 연속된 여러 원소에 접근
2) 정형 데이터 전처리
-1 결측치 처리 (Imputation)
(a) Numerical Imputation: 평균값, 중앙값, 최빈값 등의 평균 중심값 대체 (단순 대체, 다중 대체)
(b) Categorical Imputation: 최빈값 대체
(c) Random Imputation: 무작위 값 대체
-2 이상치 처리(Outliers)
(a) 하한보다 낮으면 하한값, 상한보다 높으면 상한값 대체
(b) 표준편차에서 예외적으로 나타내는 값들을 삭제
(c) 특정 Percent외에 있는 값들을 삭제 (상위 5%, 하위 5% 등)
-3 이산화 처리 (Binning, Partitioning)
(a) Equal width binning(partitioning) : 전체 범위에 대해 n개로 분할 (pandas.cut() 이용)
(b) Equal frequency binning(partitioning) : 동일 구간 정렬 후 분할 안에 동일한 개수가 되도록 분할(pandas.qcut()
이용
-4 이산화처리 예제
3) 스케일링 (Scaling)
-1 로그 변형( log transform) : log 함수를 이용하여 데이터 변경
-2 one hot encoding : 데이터 집합의 크기를 백터의 차원화하여 1 또는 0을 부여하는 방식
-3 min-max 정규화 : 데이터의 범위를 0~1로 처리
-4 z-score 정규화 : 평균 0, 표준편차 1로 데이터 변경
-5 변환대상 : 70, 80, 90, 100
(a) 평균 : 83.75
(b) 표준편차 : 9.60143218483576
(c) 표준점수 변환 : [ -1.43207802 -0.39056673 0.65094455 1.1717002 ]
4) 그룹연산 (grouping operation)
5) 파생 (derived)
-1 하나의 변수를 2개 이상으로 분할
-2 하나의 변수를 가공하여 새로운 변수 생성
-3 두개의 변수를 가공하여 새로운 변수 생성
6) 정형 데이터 세부 작업
-1 데이터세트 가져오기 및 내보내기
-2 변수 이름 지정 또는 이름 바꾸기
-3 변수 유형 변경 (명시적 강제라고도 함)
-4 중복 키 또는 전체 중복 레코드가 있는 하나 이상의 변수 정렬
-5 입력 데이터 세트에서 출력 데이터 세트로 열 선택
-6 하나 이상의 조건을 기반으로 행 필터링
-7 기존 변수의 기능을 통한 새로운 변수 생성
-8 변수의 조건부 처리 (즉, 새 변수의 값은 기존 변수의 값을 기반으로 함)
-9 테이블 추가
-10 테이블 조인 (내부 조인, 왼쪽 및 오른쪽 조인, 전체외부 조인)
-11 전치 테이블
-12 열 요약 또는 그룹별로 열 요약
-13 열 정규화 및 표준화 (연속형 변수의 경우)
-14 연속 변수의 비닝
-15 변수에 결측값 대입
'핀테크 인공지능' 카테고리의 다른 글
데이터 유형별 전처리 (이미지) (1) | 2024.09.14 |
---|---|
데이터 유형별 전처리 (시계열) (5) | 2024.09.14 |
데이터 수집과 전처리 (4) | 2024.09.14 |
핀테크 실습을 위한 기초 프로그래밍 (파이썬) (0) | 2024.09.14 |
인공지능 개발 환경 (2) | 2024.09.14 |