본문 바로가기
반응형

머신러닝4

[결정트리] 내가 이해한 결정트리 결정트리 (Decision Tree)는 의사결정나무라고도 합니다 분류와 회귀 모두 가능한 지도학습 모델이며, 스무고개 하듯이 질문을 이어가며 학습합니다 아래처럼요 [노드]맨 위에 날개가 있나요? 가 루트 노드(Root Node)맨 마지막에 매, 펭귄, 돌고래, 곰은 터미널 노드(Terminal Node) 혹은 리프 노드(Leaf Node) 라고 합니다나무같이 생겨서 결정 트리라고 부릅니다 [과적합]어떤 기준으로 규칙을 만들어야 (규칙 : 날 수 있나요? 지느러미가 있나요?) 분류 성능을 좌우함규칙이 많음 → 학습이 잘됨 → 복잡함 → 과적합 [정보이득]정보이득 (Infromation Gain)은 엔트로피를 기반으로 하는 개념으로 엔트로피는 주어진 데이터 집합의 혼잡도를 의미하는데 서로 다른 값들이 섞여 .. 2024. 5. 21.
[배깅,부스팅] 내가 이해한 배깅 및 부스팅 방법론 안녕하세요.이번엔 랜덤 포레스트입니다.  제 생각에 가장 핵심은 " 1 " 인 것 같아요. 하나보다 여러개일때 더 나은 성능을 보인다.  [7-1] 여러 분류기 더 좋은 분류기를 만드는 매우 간단한 방법은 각 분류기의 예측을 모아서 가장 많이 선택된 클래스를 예측하는 것 (다수결 투표, 직접 투표 방식)다수결로 예측된 분류기가 가장 뛰어난 개별 분류기보다 정확도가 높은 경우가 많다.각 분류기 : 약한 학습기, 앙상블 : 강한 학습기 (큰 수의 법칙)모든 분류기가 클래스의 확률을 예측할 수 있으면 개별 분류기의 예측을 평균 내어 확률이 가장 높은 클래스를 예측 하는게 가능함 (간접 투표)모든 분류기가 클래스의 확률을 추정할 수 있어야 하므로 SVC도 probability 매개변수를 True로 지정 [7-.. 2024. 5. 21.
[PCA] 내가 이해한 PCA 안녕하세요. 이번엔 제가 이해한 PCA 입니다. 제가 이해한 대로 작성하는 글이라 어디든 언제든 틀린 부분이 있을 수 있습니다  제 생각에 가장 기초가 되는 내용들입니다. 1변수 == 1차원차원의 저주 : 수천 ~ 수백만개의 특성을 가졌을때 생기는 문제차원의 저주 → 훈련 속도 저하 및 좋은 솔루션 탐색 방해MNIST → 거의 항상 흰색인 픽셀들은 제거해도 많은 정보를 잃지 않으며, 인접한 두 픽셀은 주로 연관되어 있는데, 이는 두 셀을 합쳐도 잃는 정보가 많지않음[초평면 정의]수학에서 초평면(超平面, 영어: hyperplane)은 3차원 공간 속의 평면을 일반화하여 얻는 개념이다. 8.1 차원의 저주차원의 저주 : 3차원 이상부터는 상상하기 힘듦고차원 데이터는 많은 공간을 가지고 있으므로 훈련 데이터가.. 2024. 5. 21.
[정규화] 내가 이해한 릿지, 라쏘, 일라스틱넷 안녕하세요. 의료 AI에 관심이 있어, 현재 석사 과정중인데, 머신러닝 자체 스터디 중 공부한 내용이 혹시나 도움이 될까 공유합니다. 제가 이해한 대로 적은 글이라 얼마든지 틀릴 가능성이 존재합니다,,  릿지, 라쏘, 일라스틱넷은 정규화 방식으로 MSE를 어느정도 올리면서, 모델의 과적합을 방지하는 방법입니다. 본 글은 가장 많이 도움을 받았고, 가장 쉽게 이해할 수 있었던 유튜브 "김성범[교수 / 산업경영공학부]" 채널을 기반으로 작성되었습니다. (https://www.youtube.com/watch?v=sGTWFCq5OKM) 1,2편으로 구성되어있는데 정말 알차고 쉽습니다.  위 그림과 같이 과대적합된 모델에 정규화를 적용하여 과대적합을 줄이기 위한 과정으로 릿지, 라쏘, 일라스틱넷의 방법이 있음 -.. 2024. 5. 15.
반응형