Link Search Menu Expand Document

스파크 완벽가이드 Part 6 고급 분석과 머신러닝 내용을 요약했어요.

Part 6 24장 고급 분석과 머신러닝

24장 고급 분석과 머신러닝 개요

머신러닝

머신러닝의 방법론들은 예측과 묶음

  • 지도학습 : 레이블을 예측하는 분류/회귀 문제를 포함한
  • 추천엔진 : 사용자의 과거 행동에 기반하는
  • 비지도 : 군집 분석, 이상징후 탐지, 토픽 모델링과 같이 데이터 구조 파악을 위한 학습
  • 그래프 학습 : 소셜 네트워크 상에서 유의미한 패턴을 찾는

지도학습

답(label, 종속변수)이 주어지고 답을 찾는 학습

  • 분류 : 범주형 종속변수 예측, 이진분류(스팸메일), 다중클래스 분류(질병예측, 이미지분류, 고객 이탈 예측, 구매 여부 예측)
  • 회귀 : 연속형 변수 예측(숫자값), 판매량 예측, 신장 예측, 관객 수 예측

추천

명시적선호도, 암시적선호도 사용자 또는 아이템 간의 유사성을 도출

비지도 학습

주어진 데이터셋에서 특정 패턴을 찾거나 숨겨진 구조적 특징을 발견하는 행위, 종속변수(레이블)이 없는 학습, 예를들어 이상징후 탐지, 사용자 세분화, 토픽 모델링(문서 주제 추출)

그래프 분석

정점(vertex), 엣지(edge)

  • 사기거래 예측, 이상징후 탐지, 네트워크 특성 분류, 웹 페이지 추천

고급분석 프로세싱

  1. 데이터 수집
  2. 데이터 정제 : 탐색적 데이터 분석(exploratory data analysis, EDA)
  3. Future 엔지니어링 : 머신러닝 알고리즘에 적용 가능한 형식으로 데이터 변환. MLlib에서는 모든 변수가 실수형 벡터로
  4. 모델 학습 : 과거 정보 데이터셋과 분석 목적이 주어지고, 입력을 받았을 때 적합한 출력을 예측하는 모델을 학습
  5. 모델 튜닝 및 평가
    • 과대적합: 학습셋이 복잡하여 테스트셋에서 예측이 안되는
    • 과소적합: 학습이 단순하여 정확도가 낮은
  6. 모델 및 통찰력 확보하기

MLib

  • 변환자 : 원시 데이터를 다양한 방식으로 변환하는 함수
  • 추정자 : 데이터를 초기화하는 일종의 변환자, 데이터로부터 모델을 학습시키기 위해 사용하는 알고리즘
  • 평가기 : 주어진 모델의 성능이 수신자 조작 특성 곡선(receiver operation characteristic, ROC) 처럼 지정한 기준에 따라 어떻게 작동하는지 볼 수 있게 해줍니다.
  • 파이프라인

용어

  • 하이퍼파라미터 : 모델 아키텍처 및 일반화와 같은 학습 프로세스에 영향을 주는 설정 매개변수
  • 표준화 : 평균을 기준으로 관측값들이 얼마나 떨어져 있는지 재표현 하는 방법
  • 정규화 : 데이터의 중심을 0으로 맞추고, 값의 분포가 특정 범위 안에 들어가도록 조정하고, 표준화를 취하고, 모든 값을 0에서 1사이의 값으로 재표현 하는 과정
  • 일반화 : 모델 과적합을 방지하기 위한 기법으로 모델의 표현식에 추가적인 제약 조건을 걸어 필요이상으로 복잡해지지 않도록 저정해주는 방법, 일반화 알고리즘은 리지 회귀, 라쏘, 엘라스틱넷, 최소각 회귀 등