본문 바로가기
반응형

전체 글19

[대학원 A to Z] 예심 준비하기 안녕하세요. 오늘은 대학원 졸업 요건 중 가장 중요한 과정 중 하나인 예심이에요 (나머지 하나는 본심) 예심은 보통 석사 3학기차에 이루어지고 교수님들을 모시고 제 연구 계획에 대해 발표하는 자리에요. 예심 준비(1) - 심사위원 선정 및 부탁드리기 석사 예심엔 세분의 교수님이 필요한데요, 보통 학위주제에 대해 전문가이신 교수님들을 모셔요.저같은 경우 학위논문 주제가 머신러닝이라서 지도 교수님과 머신러닝 연구를 많이 하신 교수님 그리고 머신러닝과 통계 베이스인 교수님으로 세분을 모셨어요. 어느 교수님을 모실지 결정했다면 메일을 드려서 일정을 조율해야해요. 저 같은 경우 아래처럼 메일을 작성했어요. 라고 보냈네요. 이후 답신이 오면 언제 시간이 가능하신지 여쭤봐서 날짜를 잡으면 돼요!   이렇게 교수님들께.. 2024. 6. 27.
[Python] PaserError : Error tokenizing data C Error : EOF inside string starting at row 144372 안녕하세요.어제만난 파이썬 에러 해결법을 공유합니다.  0. 데이터 정보 - 제가 활용하는 데이터는 외부 반출이 불가한 데이터이지만 특별한 보안이 걸려있지는 않은 데이터 입니다. - CSV 형식이며 데이터의 크기가 평균 100만행으로 큰편입니다.  1. 데이터 불러오기 df1= pd.read_csv("data1.csv")위 코드를 실행하였을때 아래와 같은 에러가 나타났습니다. PaserError : Error tokenizing data C Error : EOF inside string starting at row 144372 2. 에러 확인 - 데이터를 직접 열어서 144373 행을 확인했습니다. (첫 행은 Header) - 다른 데이터와 다르지 않게 큰 문제가 없었습니다...  3. Github, S.. 2024. 6. 19.
[결정트리] 내가 이해한 결정트리 결정트리 (Decision Tree)는 의사결정나무라고도 합니다 분류와 회귀 모두 가능한 지도학습 모델이며, 스무고개 하듯이 질문을 이어가며 학습합니다 아래처럼요 [노드]맨 위에 날개가 있나요? 가 루트 노드(Root Node)맨 마지막에 매, 펭귄, 돌고래, 곰은 터미널 노드(Terminal Node) 혹은 리프 노드(Leaf Node) 라고 합니다나무같이 생겨서 결정 트리라고 부릅니다 [과적합]어떤 기준으로 규칙을 만들어야 (규칙 : 날 수 있나요? 지느러미가 있나요?) 분류 성능을 좌우함규칙이 많음 → 학습이 잘됨 → 복잡함 → 과적합 [정보이득]정보이득 (Infromation Gain)은 엔트로피를 기반으로 하는 개념으로 엔트로피는 주어진 데이터 집합의 혼잡도를 의미하는데 서로 다른 값들이 섞여 .. 2024. 5. 21.
[배깅,부스팅] 내가 이해한 배깅 및 부스팅 방법론 안녕하세요.이번엔 랜덤 포레스트입니다.  제 생각에 가장 핵심은 " 1 " 인 것 같아요. 하나보다 여러개일때 더 나은 성능을 보인다.  [7-1] 여러 분류기 더 좋은 분류기를 만드는 매우 간단한 방법은 각 분류기의 예측을 모아서 가장 많이 선택된 클래스를 예측하는 것 (다수결 투표, 직접 투표 방식)다수결로 예측된 분류기가 가장 뛰어난 개별 분류기보다 정확도가 높은 경우가 많다.각 분류기 : 약한 학습기, 앙상블 : 강한 학습기 (큰 수의 법칙)모든 분류기가 클래스의 확률을 예측할 수 있으면 개별 분류기의 예측을 평균 내어 확률이 가장 높은 클래스를 예측 하는게 가능함 (간접 투표)모든 분류기가 클래스의 확률을 추정할 수 있어야 하므로 SVC도 probability 매개변수를 True로 지정 [7-.. 2024. 5. 21.
[PCA] 내가 이해한 PCA 안녕하세요. 이번엔 제가 이해한 PCA 입니다. 제가 이해한 대로 작성하는 글이라 어디든 언제든 틀린 부분이 있을 수 있습니다  제 생각에 가장 기초가 되는 내용들입니다. 1변수 == 1차원차원의 저주 : 수천 ~ 수백만개의 특성을 가졌을때 생기는 문제차원의 저주 → 훈련 속도 저하 및 좋은 솔루션 탐색 방해MNIST → 거의 항상 흰색인 픽셀들은 제거해도 많은 정보를 잃지 않으며, 인접한 두 픽셀은 주로 연관되어 있는데, 이는 두 셀을 합쳐도 잃는 정보가 많지않음[초평면 정의]수학에서 초평면(超平面, 영어: hyperplane)은 3차원 공간 속의 평면을 일반화하여 얻는 개념이다. 8.1 차원의 저주차원의 저주 : 3차원 이상부터는 상상하기 힘듦고차원 데이터는 많은 공간을 가지고 있으므로 훈련 데이터가.. 2024. 5. 21.
[정규화] 내가 이해한 릿지, 라쏘, 일라스틱넷 안녕하세요. 의료 AI에 관심이 있어, 현재 석사 과정중인데, 머신러닝 자체 스터디 중 공부한 내용이 혹시나 도움이 될까 공유합니다. 제가 이해한 대로 적은 글이라 얼마든지 틀릴 가능성이 존재합니다,,  릿지, 라쏘, 일라스틱넷은 정규화 방식으로 MSE를 어느정도 올리면서, 모델의 과적합을 방지하는 방법입니다. 본 글은 가장 많이 도움을 받았고, 가장 쉽게 이해할 수 있었던 유튜브 "김성범[교수 / 산업경영공학부]" 채널을 기반으로 작성되었습니다. (https://www.youtube.com/watch?v=sGTWFCq5OKM) 1,2편으로 구성되어있는데 정말 알차고 쉽습니다.  위 그림과 같이 과대적합된 모델에 정규화를 적용하여 과대적합을 줄이기 위한 과정으로 릿지, 라쏘, 일라스틱넷의 방법이 있음 -.. 2024. 5. 15.
[대학원 A to Z] 석사 6개월차 하는일 소개 (데이터 분석 담당) 안녕하세요 오늘은 석사 3개월차 (연구실 1년차) 하는일 소개에요 저는 통계전공이라서 주로 분석 업무 담당이고 잡무도 있어요 어제 받은 따끈따끈한 잡무도 있어요 ​ 대충 세어보니 잡무 3개, 프로젝트 + 논문 분석 6개정도 되네요 요즘 조금 바빠요 교수님이 일 시키기전에 바쁘냐고 여쭤보시지만 조금 바빠요.. 라고 하고 일 받기.. 하는일 간략히 소개 논문 분석은 개인 논문을 쓸때 데이터 분석 하는 과정이 있잖아요? 그 과정을 의미해요 프로젝트는 국가 기관 같은 곳에서 따온 과제들 하는걸 의미해요 잡무는 사실 어떤 일인지 별로 관심 없는데 다양해요.. 논문 분석 논문 분석으로 맡고 있는건 4개정도 되는데 아래 나열하자면 내 논문 : 말 그대로 제 논문 열심히 데이터 분석중이에요. 결과가 예쁘게 나오지 않아.. 2023. 9. 16.
[대학원 A to Z] 바쁘고 정신 없는 대학원 생활을 유용하게 관리하는 방법 (노션, 구글캘린더, 구글 크롬 원격 데스크톱) 안녕하세요! 오늘 포스팅 할 내용은 저의 바쁘고 정신없는 대학원 생활을 조금 도와 주고 있는 앱들에 대한 소개에요! 가장 유용한 건 노션, 구글 캘린더, 원격제어 인 것 같아요 (제 기준) ​ 구글 캘린더 나 오늘 뭐해야 되더라? 마감일 언제더라? 처음 소개할 건 굳이 대학원이 아니어도 바쁘고 일정이 많으신분들은 자주 사용하실 것 같은 구글 캘린더에요 ​ 저는 사실 약속도 없는 I이고,, 대학원에 오기 전까지 이렇게 바빴던 적이 없어서 캘린더를 사용한 적이 없는데, 와서는 왜 사용하는지 깨닫고 있어요 (너무 바빠서..) 이게 바로 제가 쓰는 캘린덥니다.. 저희 랩 일정과 제일정, 제 할일 단 3개만 켜둔 상태인데.. 이 모양이라면 하나씩 기억하는일이 거의 불가능해져요. 그래서 저는 랩에서 사용하는 캘린더.. 2023. 9. 16.
[대학원 A to Z] 해외학회 준비하기(MIE 2023) 안녕하세요. 오늘 작성할 내용은 해외학회 준비하기 입니다. ​ 저는 운이 좋게도 들어오자마자 논문주제를 받아서 열심히 분석중이에요. 결과도 있고 방법론도 있죠..! (물론 없어도 지원 가능해요) ​ 학회 정보 제가 지원한 학회는 MIE(유럽의료정보학회) 2023으로 올해 5월 스웨덴 예테보리에서 열립니다! www.mie2023.org 제가 학회 소식을 들은게 12월말 ~ 1월초쯤이니, 적어도 6개월전에는 접수가 진행되는 것 같아요. 학회에 제출할 수 있는 건, Full - Text와 Poster 에요. 제가 한건 포스터라서 Full - Text는 어떤지 잘 모르지만 논문을 5장 정도로 요약해서 초록의 형태로 제출하는 것 같았어요. ​ 포스터는 1-2페이지의 초록을 작성해서 내면 돼요. 초록을 내는데 왜 .. 2023. 2. 22.
반응형