CS/์ธ๊ณต์ง๋ฅ
2024. 10. 17.
๋์ด๋ธ ๋ฒ ์ด์ฆ๋ฅผ ์ฌ์ฉํ ์คํธ ๋ฉ์ผ ๋ถ๋ฅ๊ธฐ (Spam Classification via Naïve Bayes)
๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ๋?ํ๋ฅ ์ด๋ก ์ ๋ฐํ์ผ๋ก ํ ์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋๋ก, ์ฃผ๋ก ํ
์คํธ ๋ถ๋ฅ, ์คํธ ํํฐ๋ง, ๊ฐ์ฑ ๋ถ์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ๋๋ฆฌ ์ฌ์ฉ๋๋ค.๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๋ฐ์ดํฐ์ ๊ฐ ํน์ง๋ค์ด ๋
๋ฆฝ์ ์ด๋ผ๊ณ ๊ฐ์ ํ๋ ๋์ด๋ธ(naïve)ํ ํน์ง์ ์ง๋๋ค. ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes' Theorem)๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ๋ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ๋ฐ๋ผ ์๋ํ๋ค. ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ ์ด๋ค ์ฌ๊ฑด A์ B๊ฐ ์์ ๋, ์ฌ๊ฑด B๊ฐ ์ผ์ด๋ฌ์ ๋ ์ฌ๊ฑด A๊ฐ ์ผ์ด๋ ํ๋ฅ ์ ๊ณ์ฐํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ๊ณตํ๋ค. ๋์ด๋ธ ๋ฒ ์ด์ฆ์ ์ค์ํ ๊ฐ์ ์ ๋ชจ๋ ํน์ง๋ค์ด ์๋ก ๋
๋ฆฝ์ ์ด๋ผ๋ ๊ฒ์ด๋ค. ์ฆ, ํน์ ๋ฐ์ดํฐ์ ํ ํน์ง์ด ์ฃผ์ด์ก์ ๋, ๋ค๋ฅธ ํน์ง๋ค์ด ์ด์ ๋ฌด๊ดํ๊ฒ ๋ํ๋๋ค๊ณ ๊ฐ์ ํ๋ค. ํ์ค์์๋ ์ด ๊ฐ์ ์ด ํญ์ ๋ง์ง ์์ง๋ง, ์ด ๊ฐ์ ๋..