본문 바로가기
대학원

[대학원 A to Z] 석사 6개월차 하는일 소개 (데이터 분석 담당)

by 모모바미키라리 2023. 9. 16.

안녕하세요 오늘은 석사 3개월차 (연구실 1년차) 하는일 소개에요

저는 통계전공이라서 주로 분석 업무 담당이고 잡무도 있어요 어제 받은 따끈따끈한 잡무도 있어요

대충 세어보니 잡무 3개, 프로젝트 + 논문 분석 6개정도 되네요 요즘 조금 바빠요 교수님이 일 시키기전에 바쁘냐고 여쭤보시지만 조금 바빠요.. 라고 하고 일 받기..


하는일 간략히 소개

논문 분석은 개인 논문을 쓸때 데이터 분석 하는 과정이 있잖아요? 그 과정을 의미해요

프로젝트는 국가 기관 같은 곳에서 따온 과제들 하는걸 의미해요

잡무는 사실 어떤 일인지 별로 관심 없는데 다양해요..


논문 분석

논문 분석으로 맡고 있는건 4개정도 되는데 아래 나열하자면

  1. 내 논문 : 말 그대로 제 논문 열심히 데이터 분석중이에요. 결과가 예쁘게 나오지 않아서 같은 결과파일 5번째 뽑고 있어요

2. 기타 다른 논문 : 이렇게 묶은 이유는 논문 분석이라서 보통 raw data 받기 -> 데이터 전처리 -> 데이터 분석 -> 결과 보고 이런식으로 다 똑같이 진행되서..

아래에서 자세히 쓸게요


프로젝트

 

프로젝트도 논문이랑 비슷하게 진행돼요 다른점이 있다면 교수님께 중간 보고 한다 정도? 평소에는 중간에 관리하시는 분과 일을 진행하고 어느정도 시간이 지나면 교수님께 정리해서 중간보고를 해요. 그래도 제가 하는일은 크게 다른거 없는것 같아요


잡무

잡무는 다른 선생님들 하는거 보면 랩 미팅 관리, 랩 세미나 관리, 수업 조교 이런 것들이 있고 제가 맡고 있는건 홈페이지 수정하기, 타 랩과 협업하여 사업 진행하기 등 논문 분석과 프로젝트보다는 많이 행정적인 일들이에요. 주로 다른 사람들과 커뮤니케이션 하거나 논문 읽기, 현황 조사, 서버 관리 등등.. 일하기싫을때 잡무를 해요 ...

잡무는 아니지만 주기적으로 하는건

  • 랩 세미나 참석 : 저희는 필참이라.. 관심분야 아니어도 가야해서.. 관심분야 아니면 멍때립니다.. 요즘 관심분야는 데이터 분석과 언어모델이에요
  • 랩 미팅 발표 준비 : 랩미팅에서 논문 읽고 발표하는데, 보통 교수님이 질문 많이 하셔서.. 꼭 준비.. 열심히.. 다음달 제 차례입니다.. 그리고 저희 교수님은 모르는게 생기시면 질문을 굉장히 많이하시기때문에.. 꼼꼼히 준비합니다..
  • 회식 : 회식! 하지만 교수님과 함께하는

이거 3가지 정도에요


데이터 분석 자세히 소개

 

데이터 업무 담당 (제가 주로 사용하는 언어 : R, 많이 쓰이는 언어 : R, python)

저는 데이터 업무 담당이라서 전처리, 통계분석 등등을 담당해요. 혹시나 궁금하실 분들을 위해 어떤 일을 하는지 아래에 자세히 적을게요

  • 데이터 전처리 : 학부생 시절엔 너무 깨끗한 iris 데이터를 쓰지만 현실은 절대? 데이터가 깨끗하지 않다는거에요 그래서 보통 데이터 전처리하는데 80%의 시간을 사용해요.. 열 이름을 바꾸거나 이상값들을 처리하는 과정들이 들어가요. 열 이름과 같이 간단한건 제가 하지만 저는 임상 지식이 없어서 임상데이터의 이상값 처리는 의사선생님이나 논문의 도움을 받아서 처리해요! 통계적으로 보는 이상치와 임상에서 보는 이상치는 다르니까요

  • 시각화 : 어느정도 전처리를 했으면 보통 descriptive 하게 데이터를 보고 싶어 하셔요. 각 변수의 mean, sd, 정규분포 여부 등을 보기도 하고 시각화를 통해서 히스토그램이나 산점도 같은걸 보기도 해요. 시각화 단계는 전처리 이후에도 이루어지지만 통계분석 결과, 모델링 결과도 무조건 시각화 해야해요

  • 통계분석 : 가끔 통계분석을 하는 경우가 있는데, anova 테이블을 만들거나 kruskal waillis 검정을 한다거나.. 이런것들이 통계분석에 들어가요. 사실 저도 학부때 아는거 anova가 전부였지만 일하면서 정말 많은 통계 검정법이 있더라구요..^^ 몰라도 걱정마세요 알아서 알게될거니까요...

  • 모델링 : 말 그대로 모델을 만들고 성능을 보는 단계에요. 저는 R에 있는 AutoScore라는 라이브러리를 사용하고 있고 현재는 파이썬에서 lstm을 구현하려고 연습중이에요. 이 단계에서 분류 모델이라면 임계값을 조정하면서 성능이 어떻게 달라지는지 판단하기도 하고, 데이터나 연구 컨셉에 따라서 어떻게 결과를 시각화 할지 생각하기도 해요. 또 임계값을 어떻게 정할지 고민하기도 하구요

  • 모델 별 결과지표 산출 : 모델 별 결과 지표는 사실 많이 쓰는것들이 있으니.. (auroc, rmse등) 얘네들을 모델링 이후에 산출하고 시각화도 같이 해요

  • 예쁜? 시각화 : 논문에 들어갈 시각화 자료이기때문에 앞에서는 예쁘지 않은 그래프를 만들었다면 여기선 예쁘게 그래프를 만들어요. 각종 패키지를 이용해서요

쓰고 보니 전혀 간략하지 않네요.. 모든 분들이 이렇게 하는건 아니고 저는 이렇게 해요


공부시간은 별도입니다

외에도 대학원 와서 공부를 하고 있어요.. 제가 뭘 공부하는지도 알려드릴게요..

  • 영어 : 토익 3번 보고 난 점수 530. 영어 개 못합니다. 근데 영어는 꼭 필요해요... 영어 논문을 읽거나 랩에 외국인 연구원이 있으면.. 저빼고 다들 영어 잘하셔서 저도 요즘에 열심히 영어 공부중이에요. 영어는 듣기 + 라이팅을 하면서 하고 있는데 영어 하면서 느낀건 말을 안해버리면 단어를 알아도 외국인 친구 얼굴을 보는순간? 단어가 생각이 안나버려요.. 꼭 말하는것도 같이 공부해야한다는거..

  • 머신러닝 : 이건 제 관련 분야라서 공부하는데 저희는 스터디를 만들어서 매주 스터디하면서 같이 공부하고 있어요. 제가 R만 써서 파이썬 공부할겸 머신러닝 개념 제대로 다질겸 해서요. 처음엔 혼공머라는 책을 사용했고 현재는 그 책이 끝나서 핸즈온 머신러닝을 사용하고 있는데 진짜 어렵..어요...

  • 선형대수 : 이것도 제 관련분야라서 공부하는건데, 머신러닝을 제대로 이해하려면 선형대수가 필수더라구요. 그래서 저 대학생때 선대 C받았는데 지금 열심히 하고 있습니다.. 저는 혁펜하임이라는 사람의 강의를 보면서 선형대수와 꼭 필요한 수학을 익히고 있어요 (문과출신)

  • 의학용어 : 이건 제가 진짜 하나도 몰라서.. 근데 시간을 많이 써서 공부하진 못하고 있어요..

주경야독 그 자체입니다..

일단 오세요 열심히 하게 될 수 밖에 없게 될거에요

댓글