SVM 을 활용한 스팸 분류기 ( Spam Classification via SVM )

728x90

SVM(Support Vector Machine)이란?

결정 경계를 통해 데이터를 분류하는 알고리즘이다. 이 모델은 결정 초평면(hyperplane)을 찾아서, 두 개의 클래스를 가장 큰 여유(margin)를 두고 분리하는 것을 목표로 한다. 주로 이진 분류 문제에서 사용되는 강력한 분류 알고리즘으로, 이메일의 단어 빈도를 특징으로 사용하여 스팸 또는 스팸이 아닌 이메일을 분류하는 데 사용할 수 있다.

선형 분류기 또는 비선형 분류기로 사용할 수 있다.
커널 트릭을 사용해 고차원 공간으로 데이터를 매핑하여 비선형 분류도 가능하게 한다.
하드 마진(hard margin)과 소프트 마진(soft margin)을 사용하여 데이터 분류를 유연하게 조정할 수 있다.

목표

하드 마진 SVM, 소프트 마진 SVM, 가우시안 RBF 커널을 사용하는 SVM을 구현하고 각각의 성능을 비교해볼 것이다.

구현

필수 라이브러리 및 버전 확인

import sys
assert sys.version_info >= (3, 7)

from packaging import version
import sklearn

assert version.parse(sklearn.__version__) >= version.parse("1.0.1")

파일 읽기 : 데이터 준비

파일을을 읽어와서 특징 행렬과 레이블을 반환한다.

def svm_readMatrix(file):
    fd = open(file, 'r')
    hdr = fd.readline()
    rows, cols = [int(s) for s in fd.readline().strip().split()]
    tokens = fd.readline().strip().split()
    matrix = np.zeros((rows, cols))
    Y = []
    for i, line in enumerate(fd):
        nums = [int(x) for x in line.strip().split()]
        Y.append(nums[0])
        kv = np.array(nums[1:])
        k = np.cumsum(kv[:-1:2])
        v = kv[1::2]
        matrix[i, k] = v
    category = (np.array(Y) * 2) - 1  # -1과 1로 변환
    return matrix, tokens, category

각 문서는 스팸인지 아닌지를 나타내는 레이블(0 또는 1)을 가지고 있다. 이 레이블을 SVM에서 사용하는 -1과 1로 변환하여 반환한다.
matrix는 각 문서에서 단어 빈도수를 나타내는 행렬, category는 각 문서의 레이블(-1 또는 1)이다.

SVM 모델 설정

세 가지 SVM 분류기를 설정한다.

하드 마진 SVM (svm_clf_hard): 선형 커널을 사용하며, C 값이 ∞로 설정되어 있어 매우 엄격한 마진을 사용
소프트 마진 SVM (svm_clf_soft): C 값을 1로 설정하여 소프트 마진을 사용
가우시안 RBF 커널을 사용하는 SVM (svm_clf_rbf): 비선형 데이터를 처리할 수 있도록 RBF 커널을 사용하며, gamma와 C 값을 조정하여 모델을 설정

🤔❓ 커널 트릭(Kernel Trick)이란 ❓

비선형 데이터를 다룰 때는, 데이터를 고차원으로 매핑하여 선형 분리가 가능하게 만든다. 이때 사용되는 방법이 커널 트릭이다.

def main():
    # Please set a training file that you want to use for this run below
    trainMatrix, tokenlist, trainCategory = svm_readMatrix('./data/hw2_MATRIX.TRAIN.400')
    testMatrix, tokenlist, testCategory = svm_readMatrix('./data/hw2_MATRIX.TEST')

    # SVM Classifier model

    # Hard margin SVM
    svm_clf_hard = SVC(kernel="linear", C=float("inf"), max_iter=10_000, random_state=42)      

    # Soft margin SVM
    # Find out the best parameters of C, max_iter, and so on
    svm_clf_soft = SVC(kernel="linear", C=1, max_iter=10_000, random_state=42)

    # Gaussian RBF SVM
    # Find out the best parameters of gamma, C, max_iter, and so on
    svm_clf_rbf = SVC(kernel="rbf", gamma=8, C=0.001, max_iter=10_000, random_state=42)

    scaler = StandardScaler()

    # Scaled version for each SVM and we will use these
    scaled_svm_clf_hard = make_pipeline(scaler, svm_clf_hard)
    scaled_svm_clf_soft = make_pipeline(scaler, svm_clf_soft)
    scaled_svm_clf_rbf = make_pipeline(scaler, svm_clf_rbf)

이때, StandardScaler를 사용하여 데이터를 표준화한다. 표준화는 모든 특성을 평균 0, 표준 편차 1로 변환하여 SVM의 성능을 향상시킨다.
각 SVM 모델과 표준화 스케일러를 make_pipeline()으로 연결하여 파이프라인을 만든다. 이를 통해 데이터를 표준화한 후 SVM 모델에 전달할 수 있다.
C 파라미터: 오류를 허용하는 정도를 조정. C가 크면 오류를 적게 허용하고, 작으면 오류를 더 많이 허용하여 소프트 마진을 형성.

RBF SVM 최적의 파라미터 찾기 - 그리드 서치 (grid search)

그리드 서치(Grid Search)는 다양한 하이퍼파라미터 값의 조합을 시도하여 그 중에서 최적의 값을 찾는 방법이다.

각 하이퍼파라미터 값의 모든 조합을 시도하면서, 각 조합에 대한 성능을 평가한 후, 최적의 성능을 내는 파라미터를 선택한다.

SVM 모델 학습

scikit-learn의 SVM 모델에서는 학습 과정이 fit() 메서드를 통해 이루어진다.

scaled_svm_clf_hard.fit(trainMatrix, trainCategory)
scaled_svm_clf_soft.fit(trainMatrix, trainCategory)
scaled_svm_clf_rbf.fit(trainMatrix, trainCategory)

학습 데이터(X)와 레이블(y)을 사용하여 모델을 학습한다.

학습 과정 중에는 다음 작업이 수행된다.

최적의 결정 경계를 찾음.
학습 데이터에서 서포트 벡터를 선택.
결정 경계를 정의하는 가중치(weight)와 절편(bias)을 학습

테스트 데이터에 대한 예측

def svm_test(svm, matrix):
    M, N = matrix.shape
    output = svm.predict(matrix)

    return output

여기서는 svm.predict()와 같은 방식으로 SVM 모델을 사용해 예측을 수행할 수 있다.
matrix는 테스트 데이터이며, 이를 사용해 각 문서가 스팸인지 아닌지 예측한 결과를 output 배열에 저장한다.

SVM 모델 성능 평가

모델의 예측 결과와 실제 레이블을 비교하여 오류율(error rate) 를 계산한다.

def svm_evaluate(output, label):
    error = (output != label).sum() * 1. / len(output)
    print('Error: %1.4f' % error)
    return error

    print("\n== compare SVM implementations  ==\n")
    print("Hard margin SVM ",end="")
    svm_evaluate(output_hard, testCategory)

    print("Soft margin SVM ",end="")
    svm_evaluate(output_soft, testCategory)

    print("Gaussian RBF SVM ",end="")
    svm_evaluate(output_rbf, testCategory)

    print("\n=================================\n")

결과

Hard, Soft 에서 최저 에러율을 기록하고, RBF 에서는 그보다는 더 높은 에러율을 기록한다.

학습 데이터 수에 따른 모델 성능 비교

Test Error vs Training Set Size for Three SVM and Naive Bayes에 대한 예측:

1. Hard Margin SVM:

작은 훈련 세트 크기에서는 과적합(overfitting)이 발생할 가능성이 있다. 왜냐하면 하드 마진 SVM은 데이터를 완벽하게 분리하려 하기 때문에 작은 데이터에서는 과하게 적합되기 쉽다.
훈련 세트 크기가 커짐에 따라 과적합 현상이 줄어들고, 테스트 오류율이 안정적으로 낮은 수준으로 수렴한다.

2. Soft Margin SVM:

초기 작은 훈련 세트 크기에서는 적당한 유연성(soft margin) 덕분에 하드 마진 SVM보다는 더 나은 성능을 보일 수 있습니다.
훈련 세트 크기가 커질수록 점차 테스트 오류율이 낮아지고 안정될 것이다.
그러나 C 값이 적절하지 않으면 소프트 마진 SVM이 최적의 성능을 발휘하지 못할 수 있습니다.
처음에는 테스트 오류율이 중간 수준을 유지하다가, 점점 더 많은 데이터를 학습하면서 오류율이 줄어들지만 하드 마진 SVM보다 천천히 수렴할 가능성이 있다.

3. RBF SVM:

초기 작은 훈련 세트 크기에서는 비선형 특성을 잘 포착하지 못하고, 잘못된 학습이 이루어질 수 있다. 따라서 초기에는 높은 오류율이 나올 가능성이 크다.
훈련 세트 크기가 커지면, RBF 커널이 비선형 데이터를 잘 학습하기 시작하고, 오류율이 줄어들 것이다.

4. Naive Bayes:

나이브 베이즈는 비교적 단순한 모델이므로 훈련 데이터의 크기에 크게 영향을 받지 않는다.
작은 데이터세트에서도 비교적 안정적인 성능을 보인다.
훈련 세트 크기가 커져도 큰 개선을 기대할 수 없지만, 초기부터 낮은 오류율을 유지할 가능성이 크다.

따라서, 최종적으로 훈련 세트 크기가 증가함에 따라 하드 마진 SVM과 소프트 마진 SVM은 성능이 향상될 것이며, Naive Bayes는 안정적으로 좋은 성능을 보일 것이다. RBF SVM은 매개변수에 따라 성능이 결정되지만, 일반적으로 초기에는 낮은 성능을 보이다가 훈련 세트 크기가 커짐에 따라 성능이 향상될 것이다.

'CS > 인공지능' 카테고리의 다른 글

[24-2] 👾 기계학습(ML) 프로젝트 : 외계 행성 찾기 👽 (0)	2024.11.25
k-평균 알고리즘 (k-means clustering) 구현 (0)	2024.10.18
나이브 베이즈를 사용한 스팸 메일 분류기 (Spam Classification via Naïve Bayes) (3)	2024.10.17
[Tensorflow keras] image generation using Stable Diffusion (0)	2024.06.24
Simple Diffusion Image generate Model (0)	2024.06.21

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

lotus' s develog 🍃

SVM 을 활용한 스팸 분류기 ( Spam Classification via SVM )

SVM(Support Vector Machine)이란?

목표

구현

필수 라이브러리 및 버전 확인

파일 읽기 : 데이터 준비

SVM 모델 설정

RBF SVM 최적의 파라미터 찾기 - 그리드 서치 (grid search)

SVM 모델 학습

테스트 데이터에 대한 예측

SVM 모델 성능 평가

학습 데이터 수에 따른 모델 성능 비교

Test Error vs Training Set Size for Three SVM and Naive Bayes에 대한 예측:

'CS > 인공지능' 카테고리의 다른 글

티스토리툴바

SVM 을 활용한 스팸 분류기 ( Spam Classification via SVM )

SVM(Support Vector Machine)이란?

목표

구현

필수 라이브러리 및 버전 확인

파일 읽기 : 데이터 준비

SVM 모델 설정

RBF SVM 최적의 파라미터 찾기 - 그리드 서치 (grid search)

SVM 모델 학습

테스트 데이터에 대한 예측

SVM 모델 성능 평가

학습 데이터 수에 따른 모델 성능 비교

Test Error vs Training Set Size for Three SVM and Naive Bayes에 대한 예측:

'CS > 인공지능' 카테고리의 다른 글

'CS/인공지능' 관련글

티스토리툴바