본문 바로가기

머신러닝11

머신러닝 - 스태킹 앙상블과 그 변형에 대해 이번엔 스태킹 앙상블을 적용하는 방법에 대해 살펴보고자 한다. 스태킹 앙상블은 메인스트림이 된 배깅, 부스팅과 같은 앙상블 모델하고는 느낌이 조금 다르다. 같이 앙상블이라고 불리긴 하지만, 약간 이런 느낌? 보팅이야 다수결의 원리라는 워낙 간단명료한 기법이라 설명이 필요없고, 스태킹의 개념이 조금 복잡하기도, 다양하기도 한 감이 있다. 그래서 짧게 정리해보고자 한다. 참고자료 : https://www.yes24.com/Product/Goods/69752484 파이썬 머신러닝 완벽 가이드 - 예스24 자세한 이론 설명과 파이썬 실습을 통해 머신러닝을 완벽하게 배울 수 있다!『파이썬 머신러닝 완벽 가이드』는 이론 위주의 머신러닝 책에서 탈피해 다양한 실전 예제를 직접 구현해 보면서 www.yes24.com .. 2024. 1. 7.
머신러닝 - ROC Curve에 대한 확장 : 임계값 캐글에서 진행하는 LLM 관련 대회 중, 아래 대회에 참가하려고 마음먹었다. https://www.kaggle.com/competitions/llm-detect-ai-generated-text/overview LLM - Detect AI Generated Text | Kaggle www.kaggle.com 그래서 평가 지표를 살펴보던 중, 특이하게 AUC를 평가 지표로 삼고 있는 것을 보았다. 나는 자연스럽게 그러면 test data에 대해 사람이 만들었는지, 기계가 만들었는지를 0과 1로 분류하면 되겠구나, 싶었는데 알고 보니 test data에 들어있는 텍스트 데이터가 사람이 썼을 확률을 구해서 제출하는 것이었다. 하지만 내 개념으론 이해가 가지 않았다. 내가 알기로 0 또는 1로 분류되어야 AUC를.. 2023. 12. 13.
분류 평가 지표 정리 - F1 score, ROC Curve 등 예전에 분류 모델의 평가 지표를 살펴보면서 Precision, Recall, Accuracy 등에 대해 정리했었다. 간단히 짚고 넘어가자면, Precision : Positive로 예측한 것 중 실제 Positive의 비율 (예측이 얼마나 정밀한지 대략적인 파악 가능) Recall (Sensitivity): 실제 Positive 중 예측이 Positive인 비율 (실제 데이터를 얼마나 잘 재현했는지 파악 가능) Accuracy : 전체 예측 중 맞은 예측의 비율 (종합적으로 얼마나 정확한지 파악 가능) 이렇게 외우면 Precision 은 정밀도, Recall은 재현율, Accuracy는 정확도로 암기하기도 쉬웠다. 여기에 Specificity의 개념을 더하자면 Specificity : 실제 Negativ.. 2023. 10. 18.
클러스터링 정리 (K-Means, 계층적 군집화, DBSCAN) 클러스터링은 사실 비지도학습에서 "뭉쳐있는 것끼리 그룹화하는 거 아니야?" 라는 단순한 개념으로만 이해하고 있었다. 하지만 최근에 공부하면서 몇 가지 새로운 개념을 알게 되어서 간단하게 정리해보고자 한다. 참고한 자료는 많은데, 본 포스팅에서 중점적으로 다룰 책은 잘 알려진 '공룡책'의 군집화 파트이다. https://www.yes24.com/Product/Goods/69752484 파이썬 머신러닝 완벽 가이드 - 예스24 자세한 이론 설명과 파이썬 실습을 통해 머신러닝을 완벽하게 배울 수 있다!『파이썬 머신러닝 완벽 가이드』는 이론 위주의 머신러닝 책에서 탈피해 다양한 실전 예제를 직접 구현해 보면서 www.yes24.com 클러스터링 (군집화) 클러스터링, 우리말로 군집화라고 부르는 작업은 비지도학습.. 2023. 10. 17.
머신러닝 - 분류모델 평가지표 (Precision, Recall, Accuracy) + 1종, 2종오류 정리 머신러닝, 딥러닝 등에서 모델의 성능을 점검하는 것은 아주 중요한 일이다. 당연하다. 애초에 머신러닝, 딥러닝 등을 사용하는 이유가 "정확"하게 예측하고 싶어서이기 때문이다. 그래서 얼마나 정확하게 예측되었는가? 를 살펴보는 것은 필수불가결한 요소라고 볼 수 있다. 그래서 이번 포스팅에선 분류 모델에서 어떠한 평가지표들을 사용하는지, 기초적인 개념들과 함께 정리해보고자 한다. True, False, Positive, Negative 정리 이 포스팅에서 설명할 내용은 위 그림 한 장으로 설명 가능하다. Precision, Recall, Accuracy 등을 이해하려면 우선 True 와 False, 그리고 Negative와 Positive의 개념을 이해해야 한다. 학교에서, 그리고 교재에서 명확히 알려주지를.. 2023. 7. 15.
머신러닝 - Naive Bayes Classifier(분류) 정리 이번 포스팅에선 Naive Bayes, 나이브 베이즈 분류의 이론적인 면에 대해서 정리해보고자 한다. 참고한 자료는 수업시간에 배운 내용인데, 출처는 아래 책이다. https://www.wiley.com/en-br/Data+Mining+for+Business+Analytics:+Concepts,+Techniques+and+Applications+in+Python-p-9781119549840 코드와 이미지 또한 출처가 명시되어 있지 않다면 책에서 제공하는 파이썬 코드를 사용했음을 명시한다. Bayes 확률론 베이즈 정리는 고등학교 수학 시간에 조건부 확률을 배우면서 등장하는 이론이다. 수학자 베이즈가 정리한 이론이어서 이러한 이름이 붙었다. 워낙 유명해서 자세한 설명은 건너뛰고, Posterior 와 Pr.. 2023. 6. 17.