1. 정형 데이터

   1) 정형 데이터의 이해

      -1 의미

         (a) 일정한 형식이 있는 정보가 저장된 데이터 또는 파일  :  예) csv, 로그, html, json 등

         (b) "일정한 형식이 있다"는 의미

         (c) 일정한 크기 또는 일정한 구분문자로 분리 가능

         (d) 그리고 각 분리된 항목(컬럼)이 같은 의미를 갖음

 

      -2 수집

         (a) 데이터 제공처로부터의 파일로 수집

         (b) 데이터 제공처로부터의 웹 크롤링, 웹 스크래핑

         (c) 데이터 제공처로부터 제공되는 오픈 API 또는 전용 API 이용

 

      -3 예제

 

      -4 indexing & slicing 개념

         (a) indexing  :  하나의 원소에 접근

         (b) slicing  :  연속된 여러 원소에 접근

 

   2) 정형 데이터 전처리

      -1 결측치 처리 (Imputation) 

         (a) Numerical Imputation: 평균값, 중앙값, 최빈값 등의 평균 중심값 대체 (단순 대체, 다중 대체)

         (b) Categorical Imputation: 최빈값 대체

         (c) Random Imputation: 무작위 값 대체

 

      -2 이상치 처리(Outliers)

         (a) 하한보다 낮으면 하한값, 상한보다 높으면 상한값 대체

         (b) 표준편차에서 예외적으로 나타내는 값들을 삭제

         (c) 특정 Percent외에 있는 값들을 삭제 (상위 5%, 하위 5% 등)

 

      -3 이산화 처리 (Binning, Partitioning) 

         (a) Equal width binning(partitioning) : 전체 범위에 대해 n개로 분할 (pandas.cut() 이용)

         (b) Equal frequency binning(partitioning) : 동일 구간 정렬 후 분할 안에 동일한 개수가 되도록 분할(pandas.qcut()

                                                                             이용

 

      -4 이산화처리 예제

 

 

   3) 스케일링 (Scaling)

      -1 로그 변형( log transform)  :  log 함수를 이용하여 데이터 변경

 

      -2 one hot encoding  :  데이터 집합의 크기를 백터의 차원화하여 1 또는 0을 부여하는 방식

 

      -3 min-max 정규화  :  데이터의 범위를 0~1로 처리

 

      -4 z-score 정규화  :  평균 0, 표준편차 1로 데이터 변경

      -5 변환대상  :  70, 80, 90, 100

         (a) 평균  :  83.75

         (b) 표준편차  :  9.60143218483576

         (c) 표준점수 변환  :  [ -1.43207802  -0.39056673  0.65094455  1.1717002 ]

 

   4) 그룹연산 (grouping operation)

 

   5) 파생 (derived)

      -1 하나의 변수를 2개 이상으로 분할

      -2 하나의 변수를 가공하여 새로운 변수 생성

      -3 두개의 변수를 가공하여 새로운 변수 생성

   

   6) 정형 데이터 세부 작업

      -1 데이터세트 가져오기 및 내보내기

      -2 변수 이름 지정 또는 이름 바꾸기

      -3 변수 유형 변경 (명시적 강제라고도 함)

      -4 중복 키 또는 전체 중복 레코드가 있는 하나 이상의 변수 정렬

      -5 입력 데이터 세트에서 출력 데이터 세트로 열 선택

      -6 하나 이상의 조건을 기반으로 행 필터링

      -7 기존 변수의 기능을 통한 새로운 변수 생성

      -8 변수의 조건부 처리 (즉, 새 변수의 값은 기존 변수의 값을 기반으로 함)

      -9 테이블 추가

      -10 테이블 조인 (내부 조인, 왼쪽 및 오른쪽 조인, 전체외부 조인)

      -11 전치 테이블

      -12 열 요약 또는 그룹별로 열 요약

      -13 열 정규화 및 표준화 (연속형 변수의 경우)

      -14 연속 변수의 비닝

      -15 변수에 결측값 대입

+ Recent posts