Linear Classifier
Linear classifier
Machine learning에서, statical calssification의 목표는 object의 특정을 사용해 그것이 속하는 그룹으로 식별하는 것이다. Linear classifier는 특성의 linear 조합의 값에 기반하여 분류 결정을 만들어낸다. 객체의 특성은 feature value로 알려져 있으며, 일반적으로는 feature vector라는 machine에서 vector로 제공된다.
Definition
Classifier에 input feature vector는 vector 이며, output score 는 아래와 같다.
는 weight의 real vector이다. 다시 말해,
는 R에 one-form 혹은
를 선형적 함수로 mapping하는 것이다.
는 두 vector의 dot product는 변환하는 function이다.
종종
는 모든 값을 확실한 threshold보다 높은 첫번째 그룹으로 맵핑시키고, 그 외 모든 값을 두번째 그룹으로 결정한다.
두 그룹의 분류 문제 해결을 위해, linear classifier의 연산을 hyperplane과 함께 high-dimensional input space에 나눈다.
hyperplane의 한한쪽에 모든 포인트는 "YES"로 분류되고, 반대 측면은 "NO"로 분류된다.
Linear classifier는 가장 빠른 classifier이기 때문에 분류의 속도가 이슈가 될 때 자주 사용되며, 특히 들이 부족할 때 사용된다.
또한, linear classifier는
에서 dimension의 수가 넓게 퍼져있을 때, 좋은 성과를 보인다.
Document classification에서는
에서 각 요소들은 일반적으로 문서에서 발생하는 단어의 수이다.
Generative models vs. discriminative models
Linear classifier 의 parameter의 결정을 위한 method의 두 class가 있다.
첫번째, class의 method model은 conditional density function
이다.
- Linear discriminant analysis(or Fisher's linear discriminant)(LDA) - Gaussian 조건부 밀집 model 가정
- Naive Bayes classifier와 다항식 혹은 다변수의 Bernoulli event model
Method의 두 번째 set는 training set에서 output의 질을 최대화하도록 시도하는 discriminative model 을 포함한다. Training cost에서 추가적 조건은 마지막 mode의 정규화를 쉽게 수행할 수 있다는 것이다. Linear classifier의 discriminative training의 예로 아래 방법들이 포함된다.
-
Logistic regression - 관찰된 training set는 classifier의 output에 의존하는 binomial(이항식) model에 의해 생성된 것으로 가정하는
의 Maximum likelihood 추정
- Perceptron - Training set에서 발생하는 모든 error를 수정하려고 시도하는 algorithm
- Support vector machine - Training set에서 hyperplane 결정과 예제 사이의 margin을 극대화하는 algorithm
Note: LDA는 식별 분석이라는 이름을 갖고 있음에도 불구하고, 이 (taxonomy)분류학의 discriminative model들의 class를 분류하지 않는다.
하지만, 다른 main linear dimensionality reduction algorithm을 비교할 때, 이 이름은 말이 될 수 있다:
Principal Components Analysis(PCA).
LDA는 data의 label을 이용하는 supervised learning algorithm이지만, PCA는 label들을 무시하는 unsupervised learning algorithm이다.
요약하자면, 이 이름은 역사적인 인공 산물인 것이다.
Discriminative training은 종종 조건부 density function을 모델링하는 것보다 더 나은 정확도를 보인다. 하지만, 조건부 density function model이 missing data를 다루기 쉽다.
위에 나열된 linear classifier algorithm은 모두 kernel trick을 이용하여 다른 input space 상에서 non-linear algorithm을 연산하는 것을 전환시킬 수 있다.