PCA

차원의 저주(Curse of Dimensionality)

•

기존 있는 데이터의 양을 포함하는 차원이 증가 할수록, 데이터의 부족으로 인해 Overfitting등의 문제로 모델의 성능이 떨어지는 현상 (데이터의 품귀 현상)

•

차원이 증가할 수록 나타나는 특징

•

차원의 축소로 차원의 저주 극복

차원 축소(Dimension Reduction)

매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성

차원 축소의 방법

피처선택(Feature Selection)

–특정 피처에 종속성이 강한 불필요한 피처는 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택

–기존 피처를 저차원의 중요 피처로 압축해서 추출 à 기존의 피처가 압축된 것이므로 다른 값으로 나타남

피처추출(Feature Extraction)

–피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해서 추출

–기존 피처가 인지하기 어려웠던 잠재적인 요소(Latent Factor)를 추출

차원 축소의 사례

•

이미지 데이터 분석

◦

매우 많은 픽셀로 이뤄진 이미지 데이터 분석 시 차원 축소하는 것이 예측 성능을 높임

◦

PCA, LDA

•

텍스트 의미 추출

◦

문서 내 단어들의 구성에서 숨겨진 의미나 토픽의 잠재요소를 간주하고 찾음

◦

SVD, NMF

PCA(Principal Component Analysis)

상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 고유값과 고유벡터를 이용하여 저차원 자료로 변환시키는 분석 기법(차원의 축소)

•

공분산 계산 > 고유벡터 계산 > 고유치 선택 > 변환행렬 생성 > 선형 변환

•

x와 y의 공분산은 x, y의 흩어진 정도가 얼마나 서로 상관관계를 가지고 흩어졌는지를 나타냄

–

비음수 행렬분해 NMF(non-negative matrix factorization)의 정의

•

유용한 특성을 뽑아내기 위한 비지도 학습 알고리즘

•

NMF에서는 음수가 아닌 성분과 계수 값을 찾음. NMF로 생성한 성분은 순서가 없음

•

ICA(독립 성분분석), FA(요인 분석), sparse coding(희소 분석)등이 있음

•

음수가 아닌 가중치 합으로 데이터를 분해하는 기능은 오디오 트랙이나 음악처럼 독립된 소스를 추가하여 만들어진 데이터에 특히 유용.

LDA(Linear Discriminant Analysis)

선형 판별 분석법

§지도학습의 분류(Classification)에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소

§클래스 간 분산과 클래스 내부 분산의 비율을 최대화하는 방식으로 차원을 축소

•

클래스 간 분산과 클래스 내부 분산 행렬을 생성

•

이 행렬에 기반해 고유벡터를 구함

•

입력 데이터를 투영

§PCA: 입력 데이터의 변동성의 가장 큰 축을 찾아냄

§LDA: 입력 데이터의 결정값 클래스를 최대한으로 분리할 수 있는 축을 찾금

SVD(특이값 분해)

SVD(Singular Value Decomposition)

§정방행렬뿐만 아니라 행과 열의 크기가 다른 행렬에도 적용 가능

§A=U∑V^T

§U, V : 특이벡터(singular vector)

•

모든 특이벡터는 서로 직교하는 성질을 갖음

§Σ : 대각행렬, 행렬의 대각에 위치한 값만 0이 아니고 나머지는 모두 0

•

특이값: Σ이 위치한 0이 아닌 값

§Truncated SVD: Σ의 대각원소 중 상위 몇 개만 추출해서 여기에 대응하는 U, V 의 원소도 함께 제거해 더욱 차원을 줄인 형태로 분해

§PCA는 밀집행렬(Dense Matrix)에 대한 변환만 가능

§SVD는 희소행렬(Sparse Matrix)에 대한 변환도 가능

§LSA(Latent Semantic Analysis)의 기반 알고리즘

NMF

§Non-Negative Matrix Factorization

§Truncated SVD와 같이 낮은 랭크를 통한 행렬 근사(Low-Rank Approximation)방식의 변형

§NMF는 원본 행렬 내의 모든 원소 값이 모두 양수(0 이상)라는게 보장되면 다음과 같이 좀 더 간단하게 두 개의 기반 양수 행렬로 분해될 수 있는 기법

§분해행렬 W

•

원본 행렬의 행 크기와 같고 열 크기 보다 작은 행렬

•

원본 행에 대해서 이 잠재 요소의 값이 얼마나 되는지에 대응

§분해행렬 H

•

원본 행렬의 행 크기보다 작고 열 크기와 같은 행렬

•

이 잠재 요소가 원본 열(즉, 원본 속성)로 어떻게 구성됐는지 나타내는 행렬

T-SNE

•

데이터 포인트 사이의 거리를 잘 보존하는 2차원 표현을 찾는 것임

•

각 데이터 포인트를 2차원에 무작위로 표현한 후 원본 특성 공간에서 가까운 포인트는 가깝게, 멀리 떨어진 포인트는 멀어지게 만듦

•

멀리 떨어진 포인트와 거리를 보존하는 것보다 가까이 있는 포인트에 더 비중 (이웃 데이터 포인트에 대한 정보를 보존하려고 노력)

순서

먼저 점을 하나 선택한다. 아래는 검정색 점을 선택했는데, 이 점에서 부터 다른점까지의 거리를 측정한다. - 다음 T 분포 그래프를 이용하여, 검정 점(기준점) 을 T 분포 상의 가운데 위치한다면, 기준점으로부터 상대점 까지 거리에 있는 T 분포의 값을 선택(위의 T 분포 그래프에서 파란점에서 위로 점선이 올라가서 T분포 그래프상에 붉은 색으로 X 표가 되어 있는 값)하여, 이 값을 친밀도 (Similarity)로 하고, 이 친밀도가 가까운 값끼리 묶는다.