본문 바로가기

통계학2

[통계학] Expectation-Maximization EM 알고리즘 정리 인공지능 강의를 듣다 보면 항상 나오는 개념이 몇 개 있다. 그 중 하나가 EM 알고리즘이다. 처음에 이 알고리즘에 대해 수업을 들을 때는 뭔 말인지 감도 안오고 어려운 느낌이 있었다. 하지만 내용을 알고 보면 그렇게까지 어려운 건 아니라, 차근차근 정리해보고자 한다. EM알고리즘의 목적은 MLEEM알고리즘을 먼저 언제 사용하는 지를 정확하게 아는 것이 이해가 쉬울 것 같다. 그러기 위해선 설명해야 하는 개념이 있는데 우도함수다. 우도함수는 어떤 데이터의 분포(이항분포인지, 다항분포인지 확률분포의 종류를 의미)를 알고 있지만 정확한 모수(이항분포에서 특정 사건이 일어날 확률)를 알지 못할 때, 이 정확한 모수, 즉 파라미터를 찾기 위해 사용된다. 일반적으로 확률분포에서 모수라 함은 평균, 표준편차 같은 .. 2025. 1. 24.
통계학 - 독립변수의 개수가 늘어날수록 결정계수가 증가하는 이유 이번 포스팅에선 평소 수업시간에 귀가 닳도록 들은 "결정계수는 X가 많아지면 증가하는 경향이 있으니 수정된 결정계수를 확인해야 한다." 라는 말을 해석해보고자 한다. 결정계수 결정계수를 이해하는 데에 필요한 식은 위 2개다. SST 는 Total Sum of Squares의 약자, SSR은 Residuals Sum of Squares 의 약자이다. (위 공식에선 SSR을 사용했는데, Residuals 대신 Errors를 사용해 SSE로 쓰는 곳도 많다. 이 경우엔 SSR이 Sum of Squares Regression으로 해석되므로 혼동하지 않도록 주의해야 한다.) SST의 공식을 보면 평균과의 차이의 제곱합을 의미함을 알 수 있고, SSR은 회귀직선과 실제값 사이의 오차제곱합임을 알 수 있다. 결정계수.. 2023. 11. 25.