본문 바로가기

부스트캠프 AI Tech 3기/프로젝트 : P-stage

[Day22] 이미지분류 1. Competition with AI Stages!

level1에서의 기본지식을 학습하는 U Stage가 끝나고 P Stage가 시작되었다.

P stage에서는 competition(경진대회)을 기반으로 진행되며 U stage보다 코드를 더 많이 쳐보고 실습할 수 있는 기회가 주어진다. 전처리, 학습, 추론 등 전체적인 과정을 거치며 이론을 재구성할 수 있다.

 

Competition

여러 도메인에 대한 competition들이 있고 많은 공부를 할 수 있다.

주어진 데이터로 문제를 해결하기 위해서 주최자(ex. 회사)가 참가자들에게 데이터를 제공하고 참가자들은 데이터를 활용해서 경쟁을 통해 해결한다.

Platform

등등이 있고 훨씬 많은 플랫폼들이 있다.

 

1. Overview

개요를 보지 않고 문제를 푸는 경우가 많지만 그건 좋지 않다. 어떤 문제점이 야기가 되서 그 문제를 데이터를 이용해서 활용해서 해결하는 역할을 data scientist가 하게 된다.

 

overview를 읽으며 적용 대상, 산출물, 도메인, 배경 등을 알 수 있으며 데이터 분석을 함에 있어서 방향성을 잡을 수 있게 된다. 파이프라인마다마다 의사결정이 필요할 때가 있는데 그 때 방향성이 있으면 도움을 받을 수 있다.

 

그래서 overview에서는 문제 정의(Problem Definition)을 꼭 해야한다. 풀어야 할 문제가 무엇인지, input과 output이 무엇인지 정의하자.

 

2. Data Description

새로운 데이터의 필드들이 이해가 안 될 수 있고, 처음보는 데이터 타입이 있을 수도 있다. 그걸 주최자가 적어둔 부분이기 때문에 도메인지식을 이해하는데 필수적이다.

 

3. Notebook

제공하는 플랫폼도 있고 아닌 곳도 있다.

데이터 분석, 모델학습, 추론을 노트북에서 모두 가능하다.

 

4. Submission & Leaderboard

만든 모델의 성능을 확인하기 위해서 제출물을 만들어서 제출하면 자동으로 채점해준다.

다른 사람들과의 순위를 비교하며 경쟁할 수 있다.

 

5. Discussion

애매했던 부분에 대한 질문, 자료 공유, 알고 있던 내용을 공유하는 사람들이 많다. 모두가 상금을 타기 위해 경쟁하지만 다같이 한 문제를 해결하고 싶다는 마음으로 많은 정보를 공유한다.

등수=실력이라고 생각할 수 있지만, 토의하고 공유하는 과정에서 더 많이 배울 수 있다는 것을 고려하면 좋다. 리더보드 마감 1~2주 전에는 엄청 중요한 정보는 잘 공유하지 않는다.

 

전체적인 파이프라인

competition에서는 data mining과  deploy만 빼고 다 경험해볼 수 있다.