1. 보험 개요

   1) 보험 종류

      -1 생명보험

         (a) 상부상조 정신을 바탕으로 출생 및 사망 등의 불의의 사고로 인한 경제적 손실을 보전하기 위한 준비제도

               (생명보험협회)

      -2 손해보험

         (a) 우연한 사건으로 발생하는 재산상의 손해를 보상하여, 경제생활의 불안정을 제거 또는 경감해주는 상품

 

   2) 계약의 체결

      -1 기본용어

         (a) 보험료  :  보험계약자가 보험회사에 납부

         (b) 보험금  :  보험회사가 보험계약자에게 지급

 

         (c) 계약자  :  보험계약을 체결하고 보험료를 지급할 의무가 있는 자

         (d) 피보험자  :  보험사고가 발생하였을 때에 보험금을 지급받을 자 (손해보험),

                                  생명과 신체가 보험에 가입된 자연인(생명보험)

         (e) 수익자  :  보험금을 지급받을 자

 

      -2 계약체결 과정

         (a) 대체로 보험계약자가 청약서를 작성하여 보험설계사나 보험대리점에 제출

         (b) 이에 대하여 보험회사가 승낙을 함으로써 계약이 체결

         (c) 이후 보험증권을 교부

 

 

2. 언더라이팅

   1) 언더라이팅 개요

      -1 언더라이팅(계약심사) 의미

         (a) 협의  :  보험 회사의 위험 선택업무 즉, 위험평가의 체계회된 기법

         (b) 광의  :  보험계약의 모집과정부터 계약인수 및 처리, 손해사정 및 보험지급까지의 모든 과정의 체계화된 기법

 

     -2 언더라이터  :  언더리이팅하는 업무 담당자 또는 보험업자

 

      -3 역선택

         (a) 보험가입자  :  미래 위험 발생 가능성이 있거나 그 정도가 높은 사람 또는 물건 등

         (b) 손해 발생  :  보험 상품을 만들 때 정해진 보험료보다 보험금이 더 많은 경우

         (c) 역선택  :  보험 계약 전 계산된 위험보다 높은 집단이 가입하여 피보험 단체의 사고발생확률을 증가시키는 것

 

      -4 인공지능 활용 포인트

         (a) 계약심사 과정의 비용절감

         (b) 계약 심사 과정의 신속화

         (c) 계약심사 정확도 향상

         (d) 역선택 탐지

        -->  인공지능을 활용한 엉더라이팅 자동화

 

 

A생보사 : 자동 언더라이팅으로 자동화, 고객으로부터의 서류 제출과 정보 수집 절차 간소화

B생보사 : 인공지능과 가입심사 규칙 시스템 결합

C생보사 : 청약서 이미지와 영업, 계약 등의 단계에서 수집된 정보로 자동 승낙

D생보사 : 자연어 학습 기반의 머신러닝 언더라이팅 자동화 시스템 구축 특허 획득 

 

      -5 D생보사의 인공지능 활용 예시

         (a) 데이터 수집 : 보험설계사가 질문하고 고객이 답변한 사전 질문서, 고객의 연령, 직업, 과거 심사정보,

                                     보험 가입이력

         (b) 데이터 전처리 : 질문서의 비정형 텍스트 벡터화 , 과거 심사정보 벡터화, 보험 가입이력 벡터화 

         (c) 표준 미달 가능성, 승인 거절 가능성 계산 

         (d) 자동 심사결과 영향도 분석 (변수 중요도)

 

   2) 서비스 구현 예시

      -1 서비스 구현 기획

         (a) 서비스 정의 : 보험 계약체결 후 인수 심사를 위한 지표(Score) 생성

         (b) 데이터셋 : 고객정보, 가입정보, 모집설계사 정보, 챗봇 설문지

         (d) 데이터셋 수집 : 내부 데이터 

         (e) 데이터 예제

             1. 계약자 및 피보험자 정보

             2. 주보험 상품명, 보험기간, 납입기간, 납입주기, 납입보험료, 납입방법

             3. 모집인명, 모집인코드, 모집인 입사일자, 모집인 근속년수

             4. 심사점

 

      -2 서비스 구현 기술 

         (a) 저장 (스토리지 / 데이터 레이크)

         (b) 빅데이터 및 분석 

         (c) 머신러닝 프로그래밍 언어

         (d) 머신러닝 프레임워크, 라이브러리 

         (e) 머신러닝 플랫폼 서비스

         (f) 데이터 시각화

   3) 인공지능 활용의 한계

      -1 프로파일링 대응권

         (a) 소비자가 보험사 등에 자동화된 언더라이팅 결과, 신용평가 결과, 대출 거절 등에 관해 설명을 요구하고 이의를

               제기할 수 있는 제도

 

      -2 인공지능 모델의 해석과 한계

         (b)  거절된 계약에 대해 사유 요청 시 안내나 설명이 불가하거나 어려움

 

      -3 동의 데이터 부족

 

'핀테크 인공지능' 카테고리의 다른 글

금융상품 추천  (15) 2024.09.15
데이터 유형별 전처리 (이미지)  (1) 2024.09.14
데이터 유형별 전처리 (시계열)  (5) 2024.09.14
데이터 유형별 전처리 (정형)  (0) 2024.09.14
데이터 수집과 전처리  (4) 2024.09.14

1. 금융상품과 추천시스템

   1) 비즈니스 이해 필요성

      -1 데이터 사이언스의 영역

         (a) 분석  :  수학, 확률, 통계학, 머신러닝, 딥러닝 등

         (b) 정보기술(it)  :  프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스 등

      -2 데이터 사이언티스트

         (a) 적시 적소의 수학 / 통계학 응용력

         (b) 숙련된 분석력 및 데이터와 업무 성격에 따른 인공지능 모델링

         (c) 최적의 모델 선택과 커스터마이징 능력

         (d) 빠른 러닝 커브 (문제 정의 및 인식, 도메인 지식)

         (e) 강한 호기심과 커뮤니케이션 능력

 

   2) 금융상품 개요

      -1 금융위원회

         (a) 예금 및 대출, 금융투자상품, 보험상품, 카드 등

 

      -2 한국은행

         (a) 현재 혹은 미래의 현금흐름에 대한 법률적 청구권을 나타내는 증서

         (b) 채권, 주식 등과 같은 기초자산 뿐만 아니라 선물, 옵션 등 파생금융상품도 포함

 

      -3 금융소비자 보호에 관한 법률

         (a) [은행법]에 따른 예금 및 대출

         (b) [자본시장과 금융투자업에 관한 법률]에 따른 금융투자상품

         (c) [보험입법]에 따른 보험상품

         (d) [상호저축은행법]에 따른 예금 및 대출

         (e) [여신전문금융입법]에 따른 신용카드, 시설대여, 연불판매, 할부금융

         (f) 그 밖에 a부터 e까지의 상품과 유사한 것으로서 대통령령으로 정하는 것

 

   3) 추천 시스템

      -1 추천 시스템 (recommendation system)

         (a) 사용자의 관심 정보를 제공하는 서비스 시스템

         (b) 정보 필터링(IF) 기술의 일종으로 특정 사용자가 관심을 가질만한 정보를 추천하는 것

         (c) 구현 또는 비즈니스 관점에서의 분류 task

 

      -2 유용성과 난이도

         (a) 방법론의 다양성  :  데이터 희소성(sparsity)과 확장성(scalability)

         (b) 가설과 예측  :  논리적인 타당성을 갖도록 설명력을 구비

         (c) 다양한 활용과 개인화  :  많은 서비스는 사용자 요구만족이며, 최상은 개인화

 

      -3 구현 알고리즘 (방식)

         (a) Content-based Filtering (컨텐츠 기반 필터링)

         (b) Collaborative Filtering (협업 필터링)

         (c) Hybrid (협업 필터링과 컨텐츠 기반 필터링 혼합)

         (d) 머신러닝, 딥러닝

 

   4) 서비스 검토사항

      -1 일반상품

         (a) 좋은 성능은 물론이며, 설명이 가능하면 더 좋음

 

      -2 금융상품 (공정성)

         (a) 플랫폼사 또는 서비스 제공사의 상품 비교ㆍ추천 알고리즘이 해당사의 이익, 특정기업, 특정상품을 고려하거나

               배제하지 않아야 함

         (b) 플랫폼사 또는 서비스 제공사의 이익, 직접판매업자의 수수료ㆍ자사상품ㆍ계열사 상품 등으로 인해 알고리즘이

               왜곡되지 않아야 함

         (c) 플랫폼사 또는 서비스 제공사는 금융사에서 제시한 가입조건과 무관하게 임의로 금융소비자를 차별하지 않아야

              함

 

      -3 금융상품 (적정성) 

         (a) 금융상품 비교ㆍ추천 알고리즘은 금융소비자에게 유리한 순으로 제공되어야 함

         (b) 소비자의 선택권을 보장을 위해 선호와 필요에 따라 합리적인 선택할 수 있도록 다양한 금융상품을 제공하는지

              여부

  * 필요 이상의 사용자 정보 획득 자제

  * 일련의 결정사항에 대한 증적 보관 (근거)

 

 

2. 추천 시스템

   1) 고전 알고리즘

      -1 Content-based Filtering (컨텐츠 기반 필터링)

         (a) 상품의 정보(프로필 등)를 이용하여 이전에 사용자가 구매한 좋은 상품과 비슷한 유형의 상품 추천

         (b) 추천의 핵심 :  이전에 사용자가 구매한 좋은 상품과 비슷한 상품 찾기

         (c) 추천과정

            - 상품들의 특징 추출  ->  특징 백터 변환  ->  좋은 상품과 유사한 상품 찾기  ->  추천

      * 유사성 분석 방법과 계산 방법이 중요 (군집분석, 코사인 유사도, 맨하튼 거리, 유클리드 거리 등 활용)

 

 

 

      -2 Collaborative Filtering (협업 필터링)

         (a) 모델 기반(행렬 분해, 머신러닝, 딥러닝)

            - 고전적인 방법이지만 현재에도 많이 사용하는 방법

            - 사용자와 아이템 간의 평점 행렬에서 잠재 요인 행렬 추철 및 내적 곱 후 사용자가 평가하지 않은 항목들의

               평점을 예측하여 추천

         (b) 기억 기반  :  사용자 기반, 아이템 기반

            - 코사인 유사도나 피어슨 상관계수 유사도를 사용해 비슷한 사용자 혹은 아이템을 추천

            - 평점 matrix 등을 구성하여 정보 백터화  ->  사용자 또는 아이템 유사도 측정  ->  타 사용자에게 아이템 추천

 

   2) 머신러닝 추천

      -1 wide & deep

         (a) 2016년 구글이 발표한 추천 랭킹 알고리즘 (자사 앱 스토어의 앱 추천에 활용)

         (b) 넓은 wide model과 깊은 deep model을 함께 훈련시킨 방법론

            - wide 모델  :  설치한 앱과 열람한 앱 관계성을 학습

            - deep 모델  :  앱의 정보를 이용하여 앱과의 관계를 학습

 

      -2 autoencoder

      -3 neural collaborative filtering

      -4 기타

 

      -5 넷플릭스의 추천 시스템의 영향도

         (a) 마케팅의 수단 필요, 사용자 만족도 제고, 서비스 차별화 등으로 추천 시스템의 필요성을 인지

         (b) 비슷한 상품 품의 관련성을 계산하는 방식을 토대로 추천 시스템 방식이 시작

         (c) 2006년에서 2009년까지 자신들이 가지고 있는 데이터 기반 추천 시스템 대회 개최

              (머신러닝의 SVD (Single Vector Decomposition) 방식을 기반으로 한 협업 필터링 방식 우승)

         (d) 이 알고리즘을 기반으로 추천 시스템 모델의 연구가 활발히 진행되었으며, 딥러닝의 발전으로 딥러닝 기반의

              추천 시스템 탄생

 

   3) 인공지능 활용 사례

      -1 NH 농협은행  :  수신상품추천 시스템 (2017)

      -2 우리은행  :  개인화 마케팅 시스템 구축 (2021) 

      -3 KB금융그룹  :  인사이동과 인재 추천시스템 (2022)

      -4 IBK기업은행  :  인재 추천시스템 (2023)

 

      -5 리치앤코  :  보험상품 추천시스템 (2022)

      -6 인카금융서비스  :  장기 상품 비교 추천 시스템 (2023)

 

      -7 넷플릿스 :  영화 추천 등 컨텐츠 배열

      -8 쿠팡  :  상품 추천 등 컨텐츠 배열 

      -9 인스타그램, Linked-In  :  팔로우 추천과 광고 추천

      -10 한국디자인진흥원  :  디자인 프로젝트와 디자이너 간 매칭

 

     

 

 

 

 

1. 이미지 데이터

   1) 용어정리

      -1 이미지 파일 내용

         (a) 스캐너, 모니터나 프린터로 래스터화 할 수 있는 디지털 데이터의 모음

         (b) 래스터 : 직사각형 격자의 화소를 이용한 이미지 데이터

 

      -2 동영상(비디오)  :  이미지를 이용한 움직이는 이미지

         (a) 프레임  :  단위 시간의 정지된 이미지

         (b) 프레임을 (FPS, Frame Per Second)  :  초당 보여지는 프레임 (18~24 FPS = 동영상)

 

      -3 픽셀

         (a) 이미지의 크기  :  세로픽셀수 x  가로픽셀수

         (b) 이미지 데이터 저장  :  픽셀의 색을 표현하는 스칼라 값이나 백터를 2차원 배열 표현

                                                   (numpy의 ndarry 클래스 배열)

         (c) 표현  :  명도를 나타내는 숫자로 표현

         (d) 해상도(resoultion)  :  단위 공간을 차지하는 픽셀의 갯수 (밀도, DPI 또는 PPI)

 

      -4 색공간(color space)  :  픽셀의 색을 숫자로 표현하는 방식

         (a) 그레이스케일(gray scale, 흑백)  :  0 ~ 255 숫자로 명도 표현 (8비트)

         (b) RGB(Red-Green-Blue)

            - 빨(red), 녹(green), 청(blue)의 3가지 색의 명도 (3차원 배열)  :  0 ~ 255 숫자로 명도 표현 (8비트)

 

 

   2) 이미지 저장 형식

      -1 BMP  :  색공간의 명도 배열정보를 그대로 저장하는 형식

      -2 JPEG(Join Picture Experts Group)  :  손실압축방식으로 압축된 이미지 형식

      -3 GIF(Graphics Interchange Format)  :  하나의 파일에 여러 비트맵을 저장하여 프레임 애니메이션을 구현한 방식

      -4 TIF(Tag Image File Format)  :  하나의 파일에 여러 비트맵을 단순 저장 (스캐너 결과 파일)

      -5 PNG(Potable Network Graphics)  :  GIF 포맷 대체용, 비손실 압축방식으로 압축된 이미지 형식

 

Pillow 패키지로 모든 이미지를 읽을 수 있으면 결과는 Numpy Array 자료형 !!

 

      -6 BMP 파일 내부 구조

 

   3) 이미지 읽기와 쓰기

      -1 확정적 데이터 객체

 

      -2 준비적 데이터 객체

 

      -3 객체 활용  :  서로 다른 많은 이미지에 동일한 작업을 하기 위한 코드

 

 

 

 

2. 이미지 전처리

   1) 변환

      -1 형식 (색공간)

 

      -2 밝기 (명도)

 

 

      -3 채도

 

 

      -4 크기

 

      -5 회전

 

      -6 잘라내기 (crop)

 

      -7 필터링

         (a) 임계처리  :  이미지 행렬을 사용자가 지정한 기준값(threshold)으로 이진화

         (b) 적응임계처리  :  일정 영역에서 계산된 기준값으로 이진화

         (c) 필터링  :  일정 크기의 필터, 커널, 윈도우를 생성하여 이미지에 적용 (노이즈 또는 경계선 제거, 형태변환)

 

 

   2) 증강 (augmentation)

      -1 이미지 데이터 분석 / 머신러닝 학습

         (a) 오차를 줄이기 위한 많은 이미지를 필요

         (b) 현실적으로 이미지 준비는 고비용, 동일한 환경 구성으로 데이터 획득의 어려움

 

      -2 image augmentation

          (a) 몇 개의 이미지에 여러 가지 변화를 주어 데이터의 양을 증가시키는 것

          (b) 여러 가지 변화  :  조정(밝기, 대비, 채도, 색상, 크기 ...), 회전, 잘라내기, 일부 지우기

'핀테크 인공지능' 카테고리의 다른 글

보험가입심사 (언더라이팅)  (4) 2024.09.15
금융상품 추천  (15) 2024.09.15
데이터 유형별 전처리 (시계열)  (5) 2024.09.14
데이터 유형별 전처리 (정형)  (0) 2024.09.14
데이터 수집과 전처리  (4) 2024.09.14

1. 시계열 데이터

   1) 시계열 데이터의 이해

      -1 의미

         (a) 일정한 형식이 있는 정보가 저장된 데이터 또는 파일  :  예) csv, 로그, html, json 등

         (b) "일정한 형식이 있다"는 의미

         (c) 일정한 시간 간격으로 측정되었거나 특정 시간 간격으로 수집된 주기성을 갖는 데이터 

 

      -2 특징

         (a) 일반적으로 시간 순차성(time step)과 지연 값(lag) 2가지 고유특성 존재

            - 순차성  :  시간축에서 직접 수집 (예 : 시, 분, 초)

            - 지연  :  데이터에 시간 차이, 자기(self) 또는 계절(serial) 상관이 있을 떄 유용한 특성으로 활용

 특성  :  계절성(seasonality), 추세(cycle), 불규칙 요인(noise, random, residual)

 

      -3 수집

         (a) 데이터 제공처로부터의 파일로 수집

         (b) 데이터 제공처로부터의 웹 크롤링, 웹 스크래핑

         (c) 데이터 제공처로부터 제공되는 오픈 API 또는 전용 API 이용

      -4 예시

      -5 일반적인 정형 데이터의 전처리 수행

         (a) 단, 지도학습용으로 사용하는 경우 그룹연산 또는 이산화 처리 (윈도우 생성) 필수 수행

 

     

 

      -6 자기상관  :  과거 데이터가 현재 데이터에 지속적으로 미치는 영향 (예 : 주식)

         (a) 자기상관 확인  :  ACF/PACF, Durbin-Watson 검정

 

      -7 불규칙 요인(잡음) 제거

         (a) 이동평균(moving-average)  :  과거 n개의 데이터를 평균 (분해방법)

               df['ma5'] = df['Close'].rolling(5).mean( )

         (b) 필터링(filter)  :  가우시안, 쌍방, 칼안

         (c) 딥러닝 활용  :  autoencoder

         (d) 차원축소 후 복원 (PCA)  :  이상치 정보 확인 가능

 

      -8 지도학습용 데이터 구성

         (a) 입력 데이터  :  크기가 n인 시계열 데이터가 있는 경우 x개 만큼씩 데이터를 이동 분할

         (b) 결과 데이터  :  x개 이후 y개 만큼 이동 분할

         (c) 주의할 점  :  적절한 x 선택

               머신러닝 알고리즘 특성상 입력 길이 (시퀀스)가 길어지면 기울기 소실 발생 (vanishing gradient)

 

      -9 시계열 분해

         (a) 통계학적 관점에서 데이터를 규칙적인, 불규칙적인 성분으로 분해

         (b) 계절성(seasonality), 추세(trend), 주기성(cycle), 불규칙 요인(noise, random, residual)

 

      -10 시계열 데이터 결측치 처리 : 산입(대체)

         (a) Last observation carried forward(LOCF) : 직전 관측치 값으로 결측치를 대체

         (b) Next observation carried backward(NOCB) : 직후 관측치 값으로 결측치를 대체

         (c) Moving Average / Median : 직전 N의 time window의 평균치 / 중앙값으로 결측치를 대체

         (d) 보간법 적용(interpolation) : 통계적 주변 데이터를 근거로 근사 함수로 데이터 추정

            - 선형 보간법 : 근사 함수가 선형(linear) 함수임을 가정

            - 비선형 보간법 : 근사 함수가 비선형(non-linear) 함수임을 가정

            - 스플라인(spline) 보간법 : 전체 구간을 근사하는 것이 아닌, 소구간을 나눠서 보관

1. 정형 데이터

   1) 정형 데이터의 이해

      -1 의미

         (a) 일정한 형식이 있는 정보가 저장된 데이터 또는 파일  :  예) csv, 로그, html, json 등

         (b) "일정한 형식이 있다"는 의미

         (c) 일정한 크기 또는 일정한 구분문자로 분리 가능

         (d) 그리고 각 분리된 항목(컬럼)이 같은 의미를 갖음

 

      -2 수집

         (a) 데이터 제공처로부터의 파일로 수집

         (b) 데이터 제공처로부터의 웹 크롤링, 웹 스크래핑

         (c) 데이터 제공처로부터 제공되는 오픈 API 또는 전용 API 이용

 

      -3 예제

 

      -4 indexing & slicing 개념

         (a) indexing  :  하나의 원소에 접근

         (b) slicing  :  연속된 여러 원소에 접근

 

   2) 정형 데이터 전처리

      -1 결측치 처리 (Imputation) 

         (a) Numerical Imputation: 평균값, 중앙값, 최빈값 등의 평균 중심값 대체 (단순 대체, 다중 대체)

         (b) Categorical Imputation: 최빈값 대체

         (c) Random Imputation: 무작위 값 대체

 

      -2 이상치 처리(Outliers)

         (a) 하한보다 낮으면 하한값, 상한보다 높으면 상한값 대체

         (b) 표준편차에서 예외적으로 나타내는 값들을 삭제

         (c) 특정 Percent외에 있는 값들을 삭제 (상위 5%, 하위 5% 등)

 

      -3 이산화 처리 (Binning, Partitioning) 

         (a) Equal width binning(partitioning) : 전체 범위에 대해 n개로 분할 (pandas.cut() 이용)

         (b) Equal frequency binning(partitioning) : 동일 구간 정렬 후 분할 안에 동일한 개수가 되도록 분할(pandas.qcut()

                                                                             이용

 

      -4 이산화처리 예제

 

 

   3) 스케일링 (Scaling)

      -1 로그 변형( log transform)  :  log 함수를 이용하여 데이터 변경

 

      -2 one hot encoding  :  데이터 집합의 크기를 백터의 차원화하여 1 또는 0을 부여하는 방식

 

      -3 min-max 정규화  :  데이터의 범위를 0~1로 처리

 

      -4 z-score 정규화  :  평균 0, 표준편차 1로 데이터 변경

      -5 변환대상  :  70, 80, 90, 100

         (a) 평균  :  83.75

         (b) 표준편차  :  9.60143218483576

         (c) 표준점수 변환  :  [ -1.43207802  -0.39056673  0.65094455  1.1717002 ]

 

   4) 그룹연산 (grouping operation)

 

   5) 파생 (derived)

      -1 하나의 변수를 2개 이상으로 분할

      -2 하나의 변수를 가공하여 새로운 변수 생성

      -3 두개의 변수를 가공하여 새로운 변수 생성

   

   6) 정형 데이터 세부 작업

      -1 데이터세트 가져오기 및 내보내기

      -2 변수 이름 지정 또는 이름 바꾸기

      -3 변수 유형 변경 (명시적 강제라고도 함)

      -4 중복 키 또는 전체 중복 레코드가 있는 하나 이상의 변수 정렬

      -5 입력 데이터 세트에서 출력 데이터 세트로 열 선택

      -6 하나 이상의 조건을 기반으로 행 필터링

      -7 기존 변수의 기능을 통한 새로운 변수 생성

      -8 변수의 조건부 처리 (즉, 새 변수의 값은 기존 변수의 값을 기반으로 함)

      -9 테이블 추가

      -10 테이블 조인 (내부 조인, 왼쪽 및 오른쪽 조인, 전체외부 조인)

      -11 전치 테이블

      -12 열 요약 또는 그룹별로 열 요약

      -13 열 정규화 및 표준화 (연속형 변수의 경우)

      -14 연속 변수의 비닝

      -15 변수에 결측값 대입

1. 데이터 수집

   1) 데이터 수집 및 개발환경

      -1 데이터 수집 및 개발환경

         (a) 프로그래밍 언어  :  python

         (b) 개발도구  :  Google Colaboratory (줄여서 Colab)

         (c) 준비사항  :  구글계정

 

   2) 데이터 생성의 원천

      -1 생성

         (a) IoT 장치 및 센서  :  산업용 기계의 센서, 하수관, 교량, 환자 모니터링 장치, 자동차, 비행기 등의 소스에서

                                              데이터 생성

         (b) 스프레드시트 프로그램  :  엑셀, 구글 스프레드시트, RDB 데이터 편집프로그램 등에서 데이터 생성

         (e) 텍스트 마이닝  :  언어학, 수학, 컴퓨터공학 등의 다양한 지식을 이용하여 특정 목적에 맞게 유의미한 정보 추출,

                                          분석, 처리

 

      -2 보관

         (a) 보조기억장치의 파일 형태

 

   3) 유형별 수집 기술

      -1 정형 데이터  :  RDB, 스프레드시트

      -2 반정형 데이터  :  HTML, XML, JSON

      -3 비정형 데이터  :  자연어, 오디오, 비디오

      -4 수집기술

         (a) ETL : 추출(Extract), 변환(Transform), 로드(Load)

         (b) Open API : 공개 응용 프로그램 인터페이스 (Application Programming Interface)

         (c) 크롤링 : 소프트웨어 등을 이용하여 웹 문서에서 데이터를 수집하는 작업 또는 기술

         (d) 스크래핑 : 소프트웨어 등을 이용하여 데이터를 수집하는 작업 또는 기술

 

 

2. 데이터 웹 데이터 수집

   1) 웹 페이지의 이해

      -1 월드 와이드 웹 (www)

         (a) 인터넷에 연결된 컴퓨터를 통해 정보를 공유할 수 있는 세계적인 정보 공간

         (b) 인터넷에서 HTTP로 접속하고 HTML형식 등을 사용하여 그림과 문자를 교환하는 전송방식

         (c) 하이퍼텍스트 방식과 멀티미디어 환경에서 검색할 수 있게 해주는 정보검색 시스템

 

      -2 주요 기능 구성

         (a) 표준화된 웹 문서 등의 위치 지정 방법 (URL)

         (b) 웹 문서에 접근하는 방식 (Protocol)

         (c) 웹 문서 및 다양한 정보들 사이를 쉽게 이동할 수 있는 언어 (HTML)

 

      -3 웹 페이지 접근 방법

         (a) 웹 브라우저 프로그램 이용  :  microsoft edge, google chrome, apple safari 등

         (b) 프로그램 직접 개발  :  표준 접근방식을 이용한 프로그램 접근

 

   2) 웹 페이지 구성

      -1 HTML (HyperText Markup Language)

         (a) 웹 브라우저에 표시되도록 설계된 문서의 표준 마크업 언어

 

      -2 CSS (Cascading Style Sheets)

         (a) 마크업 언어가 실제 표시되는 방법을 기술하는 스타일 언어

 

      -3 Javascript / VBScript / pyScript

         (a) HTML, CSS와 사용자의 동적기능과 연결을 담당하는 언어

     

   3) 웹 페이지 접근

      -1 웹 페이지 접속 정보

         (a) URL(Uniform Resource Locator)  :  네트워크 상에서의 자원 위치

         (b) Protocal  :  자원에 접근하기 위한 통신 규약 (약속)

         (c) Resource Name  :  자원의 이름 (문서명 또는 프로그램 + 인수)

 

 

   4) 웹 페이지 요청 방법

      -1 GET(URL에 매개변수 (Parameter)를 붙여 요청

 

      -2 POST  :  GET방식과 다르게 Body 영역에 매개변수를 요청 (일반적으로 프로그램으로 구현)

 

   5) 웹 데이터 수집

      -1 웹 크롤링과 웹 스크래핑

         (a) 웹 크롤링  :  웹 페이지 링크를 수집

         (b) 웹 스크래핑  :  웹 페이지 링크에 접속하여 문서를 가져와 데이터를 추출

            - 웹 페이지에서 특정 정보를 수집하는 기술

            - 웹 페이지에 접속하여 데이터를 파싱한  후 필요한 데이터만을 추출

            - Selenium 등 웹 브라우저 imitate 프로그램으로 필요한 데이터만 추출하는 기법

웹 크롤링과 웹 스크래핑의 차이점  :  웹 페이지의 목표성과 중복성

 

      -2 python 패키지

         (a) beautifulsoup  :  웹 페이지의 HTML을 파싱, 필요한 데이터 추출 등의 함수 제공 (pip install bs4)

         (b) requests  :  HTTP 통신을 위한 함수 제공

         (c) selenium  :  Web 브라우저 프로그램을 제어하는 포터블 프레임워크 (pip install selenium)

 

 

3. 데이터 전처리 기법

   1) 용어정리

      -1 데이터 전처리  :  데이터를 분석 및 처리에 적합한 형태로 만드는 과정

      -2 데이터 품질  :  데이터의 유용한 가치를 줄 수 있는 수준, 데이터가 의도한 목적에 적합한 경우

      -3 측정 오류  :  사람의 실수로 잘못된 단위로 기록, 측정장비의 한계 등 측정과정에서 발생하는 오류

      -4 수집과정 오류  :  데이터의 손실, 중복 등의 문제로 발생하는 오류

      -5 결측값  :  값이 없어 누락된 값 (NaN, Null, None 등)

      -6 이상값  :  범위에서 벗어난 값

      -7 노이즈 (Noise)  :  측정과정에서 무작위로 발생된 기대 이외 값 (오디오 데이터, 이미지 데이터 등)

      -8 중복값  :  동일한 값

      -9 불균형  :  분류 대상 정보가 양적 비대칭한 데이터 상황

 

   2) 개요

      -1 데이터 전처리는 반드시 거쳐야 하는 과정

      -2 분석 결과에 직접 영향을 주므로, 반복적인 전처리 수행 필요

      -3 데이터 분석의 단계 중 가장 많은 시간 소요, 전체 공정 중 80% 정도

      -4 데이터 전처리 방법 #1 : 데이터 정제  ->  결측값 처리  ->  이상값 처리  ->  분석 변수 처리

         (a) 데이터 정제  :  오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정

         (b) 결측값 처리  :  입력이 누락된 값을 특정 알고리즘으로 대체 또는 삭제

         (c) 이상값 처리  :  데이터들의 분포상 특정 범위에서 벗어난 값을 대체 또는 삭제 또는 변환

         (d) 분석 변수 처리  :  분석 또는 데이터 모델에서 사용 가능한 변수만 선택

      -5 데이터 전처리 방법 #2  :  데이터 수집  ->  데이터 정제  ->  데이터 통합  ->  데이터 축소  ->  데이터 변환

 

   3) 데이터 정제

      -1 불완전한 데이터를 수정하거나 제거하는 프로세스

      -2 결측치 변환, 이상치 제거, 노이즈 데이터 교정

      -3 비정형 데이터를 수집할 때도 수행

      -4 일반적인 절차  :  데이터 오류 원인 분석  ->  정제 대상 선정  ->  정제 방법 결정

         (a) 데이터 오류 원인 분석  :  결측값 / 이상값 / 노이즈

         (b) 정제 대상 선정  :  모든 데이터를 대상으로 정제

         (c) 정제 방법 결정  :  삭제(전체, 일부), 대체(평균값, 최빈값, 중앙값), 예측값(회귀결과) 삽입

 

   4) 데이터 축소와 변환

      -1 축소

         (a) 고유한 특성은 손상되지 않도록 분석에 불필요한 데이터를 축소

         (b) 분석에 대한 효율성 증대

         (c) 데이터 압축, DWT(Discrete Wavelet Transform), 차원 축소(PCA)

 

      -2 변환

         (a) 다양한 형식으로 수집된 데이터를 분석에 용이하도록 일관성있는 형식으로 변환

         (b) 데이터 추세 범위 이외 값 변환 (평활화, smoothing)

         (c) 다양한 차원의 방법으로 데이터를 요약 (집계, aggregation)

         (d) 특정 구간에 분포하는 값으로 스케일 변환 (일반화, generalization)

         (e) 새로운 속성이나 특징을 만드는 방법 (특징 생성, feature construction)

 

 

1. 프로그램 개론

   1) 주요 용어

      -1 프로그램  :  컴퓨터에게 전달할 명령어의 집합체 (정의된 문제해결)

      -2 프로그래밍  :  프로그램을 만드는 작업

      -3 프로그래밍 언어  :  프로그램을 만들 떄 사용하는 언어

      -4 프로그래머  :  프로그램을 만드는 사람

 

   2) 프로그램의 구성 요소

      -1 명령어  :  특정 결과가 나오기를 기대하거나, 특정 문제를 해결하기 위한 컴퓨터가 실행할 동작

                           필수로 작성되어야 하지만, 생략 가능함

      -2 데이터  :  명령어를 실행할 때 필요한 정보 (상수, 변수)

                          데이터를 필요로 하지 않는 명령어가 있음

      -3 주석  :  프로그램을 설명하는 비실행 문장 (옵션)

 

   3) 프로그램의 실행 종류

      -1 순차, 반복, 분기, 혼합

         (a) 순차  :  프로그램의 거의 대부분을 구성하는 단순 실행

         (b) 반복  :  for 또는 while 명령어를 이용하여 블록(명령)을 1회 이상 실행

         (c) 분기  :  if 명령어를 이용하여 블록(명령)의 실행을 결정

         (d) 혼합  :  순차, 반복, 분기를 혼합하여 실행

      -2 Case #1  :  순차1 -> 반복1

      -3 Case #2  :  순차1 -> 분기1

      -4 Case #3  :  순차1 -> 반복1 -> 분기1

      -5 Case #4  :  순차1 -> 분기1 -> 반복1

      -6 Case #5  :  ...

실행 종류 3가지를 무한하게 조립 가능  -->  프로그램

 

   4) 데이터와 변수

      -1 데이터

         (a) 수치형  :  정수, 실수

         (b) 문자형  :  문자

 

      -2 변수

         (a) 데이터가 저장된 공간을 가지는 문자

         (b) 이해를 쉽게 하기 위하여 "변수 = 데이터"로 생각

 

      -3 파이썬의 데이터(변수)

         (a) 리스트형  :  1개 이상의 수치형, 문자형, 리스트형, 딕셔너리형 등 다양한 데이터를 가지는 데이터 또는 변수

         (b) 튜플형  :  리스트형과 도일한 조건 + 데이터 변경 불가

         (c) 딕셔너리형  :  "key: value" 쌍으로 구성된 데이터 또는 변수. 이때 value는 데이터이다

 

      -4 시퀀스형  :  문자형, 리스트형, 튜플형 등

 

      -5 특정 패키지에서 사용하는 전용 데이터와 변수

         (a) pandas 패키지  :  dataframe(스프레드쉬트 형식의 2차원 데이터 표현), series(dataframe을 구성하는 1차원

                                           벡터 데이터)

         (b) numpy 패키지  :  array (1차원 이상의 데이터를 표현)

 

   5) 프로그램의 독해(IPO)

      -1 프로그램 실행은 반드시 목적이 있음

      -2 목적을 설명할 때 IPO로 설명하고 이해하면 됨

         (a) I  :  input

         (b) P  :  process

         (c) O   :  output

      -3 프로그램은 컴퓨터와 인간 사이의 언어로 만들었지만, 프로그램을 만드는 주체가 인간이기 때문에 인간이

          사용하는 자연어의 다른 표현이다. 즉 프로그램의 독해는 자연어로의 해석이다

      -4 프로그램 독해시 인간이 생각하는 관점에서 해석하려고 노력하면 독해의 어려움이 일부 해소된다

   6) 프로그램의 이해 어려움

      -1 익숙하지 않은 문제 인식과 논리적 접근 (수학적, 통계학적 접근)

      -2 배우는 과정에서 제공되는 프로그램이 완성된 코드로 제시되기 때문

         (a) 완성된 전체 프로그램은 미세한 작은 단위 문제를 해결하는 프로그램의 집합으로 전체 프로그램이 만들어진다

 

 

2. 기초 프로그램

   1) import와 pandas, numpy 패키지

      -1 import  :  어떤 기능을 수행하는 미리 만들어진 프로그램을 사용하기 위한 명령 (패키지 로드 명령)

      -2 pandas 패키지  :  데이터 관리 패키지

      -3 numpy 패키지  :  수치 연산 패키지

 

   2) 문제상황과 해결

      -1 문제가 있어야만 프로그램이 가능 (프로그램 대상)

       -2 문제를 논리적으로 정의할 수 있어야만 프로그램이 가능 (문제를 해석하는 시각)

 

   3) 문제해결 - 파일 접근과 열 데이터 선택

 

   4) 문제해결 - 행 데이터 선택과 삭제

 

 

   5) 문제해결 - 행 데이터 선태과 삭제

 

 

   6) 문제해결 - 행, 열 데이터 선택과 수정

 

   7) 문제해결 - 열 데이터 생성

 

 

   8) 시각화 (1개 데이터 수치형, 범주형)

 

 

   9) 시각화 (2개 데이터 수치형)

 

   10) 머신러닝 패키지 (scikit-learn) - 정수형 인코딩

 

    11) 머신러닝 패키지 (scikit-learn) - OneHot 인코딩

 

   12) 머신러닝 패키지 (scikit-learn) - LinearRegression(선형회귀)

 

 

   13) 머신러닝 패키지 (scikit-learn) - Decision TreeRegressor (의사결정트리)

 

   14) 머신러닝 패키지 (scikit-learn) - Decision TreeClassifier (의사결정트리)

'핀테크 인공지능' 카테고리의 다른 글

데이터 유형별 전처리 (정형)  (0) 2024.09.14
데이터 수집과 전처리  (4) 2024.09.14
인공지능 개발 환경  (2) 2024.09.14
기초 데이터 분석  (5) 2024.09.13
딥러닝  (2) 2024.09.13

1. 인공지능 개발 환경

   1) Colab 소개

      -1 Colab 특징

         (a) Colaboratory(줄여서 'Colab'이라고 함)을 통해 웹 브라우저에서 Python 스크립트를 작성하고 실행하는 도구

         (b) 프로그램 개발이 필요하면 구글 계정 반드시 필요

         (c) 구성이 필요하지 않음

         (d) GPU 무료 엑세스

         (e) 간편한 프로그램 및 내용 공유

         (f) 간편한 프로그램 및 내용 공유

 

      -2 Colab 주의사항 (무료버전)

         (a) 시간 제한이 있으며, 하나의 작업을 최대 제한된 시간까지만 역속 사용 가능

         (b) 일정 시간 이상 미사용시 초기화되며, 따라서 대용량 데이터 분석보다는 적은 용량의 데이터 분석에 용이

         (c) 서버에 원격 접속하여 작업하는 환경

         (d) 외부 반출할 수 없는 데이터는 분석할 수 없음

 

   2) 계정 준비와 Colab 환경 접속

      -1 계정 생성 절차

         (a) 접속 ( Google)

         (b) "로그인" 버튼 클릭  ->  "계정 만들기"  ->  "개인용" 클릭

         (c) 개인정보 및 메일 주소 (비밀번호) 입력  ->  휴대폰 인증 후 계정 생성

 

      -2 계정 준비와 Colab 환경 접속

         (a) 접속 ( Colaboratory에 오신 것을 환영합니다 - Colab (google.com))

         (b) "로그인" 버튼 클릭

         (c) "파일"  ->  "새노트" 클릭 후 프로그램 개발

   

 

2. 머신러닝 프레임워크 

   1) scikit-learn 설치 방법

      -1 colab 사용 시 설치 과정 불필요

      -2 단, scikit-learn 특정 버전이 필요한 경우 설치해야 함

      -3 설치 버전 확인

pip show scikit-learn

 

      -4 설치 방법

         (a) 최신 버전  pip install -U scikit-learn

         (b) 특정 버전  pip install scikit-learn==<version>

 

   2) 버전 확인 방법

      -1 명령어 라인(CLI)에서 설치 버전 확인

      -2 설치 버전 확인

pip show scikit-learn

 

      -3 Colab에서 설치 버전 확인

 

   3) 사용 방법

      -1 import  :  프레임워크에서 사용할 모듈을 메모미로 불러오기

      -2 실행 예제

 

 

3. 딥러닝 프레임워크

   1) tensorflow, keras 설치 방법

      -1 colab 사용 시 설치 과정 불필요

      -2 단, tensorflow 특정 버전이 필요한 경우 설치해야 함

      -3 설치 버전 확인

pip show tensorflow, pip show keras

 

      -4 설치 방법

         (a) 최신 버전

               pip install -U tensorflow

               pip install -U keras

         (b) 특정 버전

               pip install tensorflow==<version>

               pip install keras==<version>

 

   2) 버전 확인 방법

      -1 명령어 라인 (CLI)에서 설치 버전 확인

      -2 설치 버전 확인

pip show tensorflow, pip shw keras

 

    -3 Colab에서 설치버전 확인

 

   3) 사용 방법

      -1 import  :  프레임워크에서 사용할 모듈을 메모리로 불러오기

      -2 실행 예제

 

4. 모델의 성능

   1) 향상 방법 

      -1 학습 데이터 추가

      -2 하이퍼 파라미터 튜닝

      -3 앙상블

 

   2) 모델의 해석과 한계

      -1 모델의 해석

         (a) 해석력  :  수행하는 특정한 기능을 상세하게 설명하는 능력(결과의 원인 해석)

 

      -2 해석의 한계

         (a) IPO 관점에서 P(process)의 과정을 함수(기능)으로 보면 설명이 부족하거나 없는 경우가 대부분

         (b) 흔히 머신러닝에서의 process 과정은 black box 라 한다

         (c) 통계학 기반의 머신러닝의 의사결정나무(decision tree)는 상대적으로 설명이 가능함

         (d) 반면, 딥러닝(신경망)모델의 경우 layer를 통과하는 데이터 변화의 설명이 거의 불가능할 정도

 

      -3 설명 가능한 인공지능(XAI)

         (a) XAI 네 가지 원칙 (미국 NIST(국립표준기술연구소))

            - 설명  :  시스템은 모든 출력에 대해 수반되는 증거 또는 이유를 제공합니다

            - 의미 전달  :  시스템은 개별 사용자에게 이해할 수 있는 설명을 제공합니다

            - 설명 적확성  :  설명은 출력 생성을 위한 시스템의 프로세스를 올바르게 반영합니다

            - 지식 제한  :  시스템은 설계된 조건 또는 출력이 충분한 신뢰 수준을 달성한 경우에만 운영됩니다

 

 

'핀테크 인공지능' 카테고리의 다른 글

데이터 수집과 전처리  (4) 2024.09.14
핀테크 실습을 위한 기초 프로그래밍 (파이썬)  (0) 2024.09.14
기초 데이터 분석  (5) 2024.09.13
딥러닝  (2) 2024.09.13
머신러닝  (14) 2024.09.13

1 데이터 분석 (정의와 목적, 시각화, 장점)

   1) 정의와 목적

      -1 정의

         (a) 원시 데이터에서 실행 가능한 인사이트를 추출하는 일련의 과정

         (b) 사용한 정보를 발견하고, 의사결정을 지원할 목적으로 하는 프로세스

      -2 설명적 분석 -> 진단 분석 -> 예측 분석 -> 처방(규범) 분석

         (a) 사실을 다양한 기준으로 서술

         (b) 문제의 원인 찾기

         (c) 미래 사건을 예측

         (d) 무엇을 할 것인지 정의

      -3 목적

         (a) 분석 주체의 문제해결 (정부, 기입, 학교 등)

         (b) 의사결정 개선

         (c) 기업 가치 창출 및 성장

   2) 시각화

      -1 정의 : 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정

      -2 목적 : 그래프를 이용하여 정보를 명확하고 효과적으로 전달하는 것

      데이터에서 이상치, 패턴 증 주요 정보를 신속하고 용이하게 발견

   3) 장점

      -1 인공지능 모델링 입력 데이터 관점에서의 데이터 품질 제고

      -2 영업, 마케팅, 추천 등을 위한 효율 및 효과적인 의사결정

      -3 마케팅 분야의 경우 고객에 대한 향상된 이해도를 갖을 수 있으며, 마케팅 최적화 가능

      -4 판매량, 상품 개발 비용 적정성, 고객 만족도 등 주요 지표의 흐름과 과제 발굴

      -5 분석결과를 이용한 예측은 비즈니스 리스크 관리 가능

 

2 데이터 분석 절차

   1) 단계별 분석

      -1 기획단계 : 목표를 정의하기 위한 단게

         (a) 데이터 분석의 명확한 이유 정의

         (b) 해결할 문제가 무엇이고, 그 데이터는 무엇인가?

 

      -2 수집단계 : 정의된 목표를 위한 데이터 수집

         (a) 내부 데이터 : 이미 가지고 있는 데이터

         (b) 외부 데이터 : 목표에 부합하는 외부 구매 데이터 또는 오픈 데이터

 

      -3 가공 단계 : 수집된 데이터 전처리 과정

         (a) 데이터 정제 : 오류 데이터값을 정확한 데이터로 수정하거나 삭제하는 과정

         (b) 결측값 처리 : 입력이 누락된 값을 특정 알고리즘으로 대체 또는 삭제

         (c) 이상값 처리 : 데이터들의 분포상 특정 범위에서 벗어난 값을 대체 또는 삭제 또는 변환

         (d) 분석 변수 처리 : 분석 또는 데이터 모델에서 사용 가능한 변수만 선택

 

      -4 분석 단계 : 기획에서 정의한 목표를 달성

         (a) 데이터 요약 : 데이터의 기초 통계정보 파악, 데이터 이해, 정보의 상관관계 또는 인과관계 파악

         (b) 데이터 진단 : 데이터의 흐름 또는 그룹 등으로 패턴을 찾아내고 결과에 대한 진단 실시

         (d) 데이터 예측 : 분석된 패턴에 따른 향후를 예측하거나 가설을 수립

         (e) 대비와 계획 : 부정적 예측결과에 대한 대비, 긍정적 예측결과에 대한 지속 가능한 계획 수립

 

      -5 시각화단계 : 분석결과를 정리하여 누구나 해석 가능하도록 이미지화

         (a) 분석 보고서에 이미지, 그래프, 대시보드 등의 형태로 시각화

         (b) 보는 사람으로 하여금 Action Item을 떠올리게 하고 인사이트를 제공하도록 작성

         (c) 문제가 발생하지 않도록 시각화 오류 검토 실시

3 데이터 분석 활용

   1) 금융분야 데이터 분석

      -1 외부 데이터

         (a) 금융데이터 거래소

         (b) 공공데이터포털

         (c) AI HUB

 

      -2 분석 사례

         (a) 사기 및 부정행위 탐지

         (b) 리스크 모델링

         (c) 고객 개인화 마케팅(추천 시스템)

 

      -3 서비스 사례

         (a) VISA - RTM(Teal Time Messaging) 서비스 : 카드 사용 일시, 품목, 위치정보 등을 실시간으로 파악하고

                                         고객성향 분석 후 인근 가맹점의 할인쿠폰 발송

         (b) AMEX - Sync Program 서비스 : 페이스북, 트위터 등의 소셜 네트워크에서 상품 또는 지역 등의 정보에 자기

                                       의견을 표현하는 경우 할인쿠폰 또는 상세정보 제공

         (c) 삼성카드 - 링크(LINK) 서비스 : 거래 실적 분석 후 사용될 것으로 예상되는 가맹점을 제안하고 쿠폰 또는

                                        할인권이 없어도 해택 제공

         (d) 보험회사 : EUS 시스템 - 보험계약 정보를 이용하여 인수 여부를 위한 심사지표(Score)를 생성하는 전문가

                                     심사 시스템 조기경보 시스템, FDS(사기탐지) : 계약, 지급, 입금 등의 거래 발생 시 이상징후를

                                     탐지하는 시스템


 

'핀테크 인공지능' 카테고리의 다른 글

핀테크 실습을 위한 기초 프로그래밍 (파이썬)  (0) 2024.09.14
인공지능 개발 환경  (2) 2024.09.14
딥러닝  (2) 2024.09.13
머신러닝  (14) 2024.09.13
인공지능 이해  (5) 2024.09.13

1 딥러닝의 정의

   1) 인공지능

      -1 인간의 학습, 추론, 지각 등의 능력을 구현하려는 컴퓨터 과학 분야

      -2 인간의 학습, 추론, 지각 등의 능력을 구현하려는 컴퓨터 과학 기술

      -3 인공지능과 머신러닝, 딥러닝의 관계

   2) 정의와 용도

      -1 인공 신경망을 이용하여 데이터의 패턴이나 규칙을 학습하는 알고리즘

      -2 머신러닝과 다른 용도

         (a) 자율 주행 등에서의 이미지 인식 (속도와 정확도)

         (b) 의료 영상을 이용한 의학적 진단 (정확도)

         (c) 영상의 색상 또는 삭제 복원 (정확도)

         (d) 음성(언어)의 인식과 번역 (속도와 정확도)

2 딥러닝의 발견

   1) 발견과 특징

      -1 논리적 연산으로 결과를 도출함으로 예측이 가능한 수준으로 발전한 알고리즘

      - 2 딥러닝의 시초인 퍼셉트론 XOR 문제 (1차 인공지능 겨울)

      - 3 다층 퍼셉트론으로 XOR 문제 해결

      - 4 딥러닝의 비약적 발전과 기울기 소실, PC 보급 (2차 인공지능 겨울)

      - 5 현대의 인공지능 역사를 만드는 역전파와 여러 이론

   2) 다양한 딥러닝 (인공신경망)

      -1 단층 퍼셉트론 / 다층 퍼셉트론 : 선형 방정식의 계산으로 이진분류

      -2 순환 신경망(RNN) : 시퀀스한 데이터를 이용한 학습 (시계열 데이터, 문장 등)

      -3 장단기 메모리(LSTM) : 시퀀스한 데이터를 이용한 학습, RNN의 단점

      -4 AE(Auto Encoder) / DAE(Denosing AutoEncoder) : 입출력이 동일한 네트워크로 압축 / 복원 효과 구현

      -5 CNN(Cpnvolutional Neural Network) : 필터(커널)을 이용하여 다차원의 데이터로부터 특징 추출

      -6 GAN(Generative Adversarial Network) : 적대적 생성 신경망, 두 개의 모델(네트워크)를 적대적으로

                                                                         (adversarial) 학습하여 실제 데이터와 비슷한 데이터를 생성(generative)

   3) 머신러닝과의 차이

      -1 일반적인 학습방법

         (a) 머신러닝 : 데이터 정제 및 분석 후 그 데이터를 입력으로 학습 진행

         (b) 딥러닝 : 데이터 분석과정이 생략되고 정제된 데이터를 입력하여 학습 진행

      -2 구현 구조

         (a) 머신러닝 : 일반적으로 통계적 지식을 기반으로 알고리즘이 구현되고 그 알고리즘이 개선되는 방법으로 구현

         (b) 딥러닝 : 인간이 결론을 내리는 방식과 유사한 신경망 작동 원리를 준용하여 데이터 패턴을 분석하는 구조

      -3 개념(실용)적 차이

         (a) 모든 딥러닝은 머신러닝이지만, 모든 머신러닝은 딥러닝이 아니다

         (b) 머신러닝은 지속적인 사람의 개입으로 성능을 유지 및 향상되지만, 딥러닝은 그러하지 않을 수 있다

3 딥러닝 구현의 차이와 방향

   1)  머신러닝 구현 예시

   2) 구현 순서와 핵심

      -1 기획(계획, 문제정의) --> 데이터 수집 --> 데이터 정제 --> 모델링 --> 검증 --> 배포 --> 개선

      -2 핵심단계

         (a) 기획(계획, 문제정의) : 목표에 부합하는 모델링이 되도록 계획 수립, 구축 이후 목표

              시스템이 지속되도록 방안 수립

         (b) 데이터 수집과 정제 : 인공지능 학습의 입력 정보로서 데이터 수집 및 정제

 

'핀테크 인공지능' 카테고리의 다른 글

인공지능 개발 환경  (2) 2024.09.14
기초 데이터 분석  (5) 2024.09.13
머신러닝  (14) 2024.09.13
인공지능 이해  (5) 2024.09.13
빅데이터와 인공지능  (1) 2024.09.13

+ Recent posts