Processing math: 100%
본문 바로가기

[Day19] AI 서비스 개발 특강 3. AI Ethics AI & Individuals Bias : 편향 편향을 가진 AI가 있다면 어디서 그 편향이 오게 되었을까 데이터에 기반하기 때문에 사회적으로 가지고 있는 편향이 들어갈 가능성이 높다. 하지만 정확이 어디에서 온 문제인지 알기 어렵다. Labeling을 어떻게 정의하는지에 따라서 어떤 class 분류할지 ex) 근무시간이 많다고 일을 잘한다고 말할 수 있을까 Labeling을 하는 사람이 어떤 생각을 가졌느냐에 따라 Data를 누가 어떻게 어디에서 수집했냐에 따라서 데이터가 지협적으로 모아질 수 있다. Overrepresentation Feture selection Redlining : 일반적인 기준으로 보려는 것 의도하지 않은 차별 패턴속에서 나오는 차별 의도적 차별 만들 때부터 의도를 가지고 차별하는..
[Day18] AI 서비스 개발 특강 2. 내가 만든 AI 모델은 합법일까, 불법일까 저작권법 왜 알아야할까? 데이터를 스스로 제작할 때 저작권을 고려하지 않으면 인정받기 어렵다 연구목적으로만 가능한 데이터셋들이 있다. 논문을 쓸 때에도 확인하는 질문이 있다. 저작권 창작성이 있다면 자연히 발생되는 결과물에 대해 창작자에게 주는 권리 창작성이 인정되는 수준의 문장은 저작권이 부여된다. 합법적으로 데이터 사용하기 저작자와 협의하기 저작재산권 전부/일부에 대한 양도 독점적, 비독점적 라이센스 저작자에게 요청하지 않아도 라이센스 조건을 만족하면 이용할 수 있다. CCL : Creative Commons License 공공누리 공정 이용 : Fair use 사용 가능한 경우들
[Day18] AI 서비스 개발 3. Linux&Shell Command Linux server에서 자주 사용하는 OS 비용 window에서 서버를 사용하려면 라이센스비용을 내야하지만 linux는 오픈소스로 존재해서 비용이 필요하지 않다. 확장 가능 안정성, 신뢰성 CLI Command Line Interface : 터미널 윈도우에서는 WSL GUI Graphic User Interface : 데스크탑 Linux 배포판 Debian Ubuntu 영국의 회사에서 만들었음 쉽고 편한 설치로 초보자들이 사용하게 좋음 Redhat 레드햇회사에서 배포 CentOS Shell 사용자가 문자를 입력해 컴퓨터에 명령할 수 있도록 하는 프로그램 터미널이나 콘솔에서 쉘을 실행할 수 있는데, 문자 입력을 받아서 쉘에 보내고, 쉘에서 처리한 출력을 화면에 보여주는 역할을 한다. Shell 종류 s..
[Day17] AI 서비스 개발 특강 1. 서비스 향 AI 모델 개발하기 서비스향 AI 모델 vs 수업/연구 AI 모델 개발 서비스향 AI 모델 학습 데이터셋이 없는 경우도, test 데이터셋, 테스트 방법이 없을 수 있다. 대신 서비스 요구사항이 있다. 수업/연구 AI 모델 정해진 학습 데이터셋, test 데이터셋, 테스트 방법이 주어진다. 학습 데이터셋 준비 종류 수량 정답 를 질의응답을 통해서 구체화한 후에 기술모듈을 설계한다. 같은 데이터를 사용하는 모델이더라도 목적이 다르면 정답도 다르게 된다. 그래서 (데이터, 정답)을 한 쌍으로 생각해야 한다. 테스트 데이터셋/방법 Offline 테스트 개발 환경에서 성능 평가 Online 테스트 실 서비스 적용을 할 때의 성능평가 offline 테스트와 online 테스트의 차이가 크면 좋지 않다. 제대로 정량평가를 settin..
[Day17] AI 서비스 개발 2. 머신러닝 프로젝트 라이프 사이클 머신러닝 프로젝트 Flow 현상을 파악하고 문제를 정의를 하는데, 문제를 잘 풀기 위해서는 정의를 구체적이고 명확하게 해야한다. 문제를 해결하면 무엇이 좋을까? 왜 해결해야 하나 어떻게 해결하면 좋을까? '어떻게' 보다는 '왜'에 집중해서 1. 현상 파악 현재 어떤 일이 발생하고 있는지 현상을 파악 해결하면 좋은 것은 무엇인지 가설을 만들고 그 가설을 풀기 위해서 어떤 데이터가 필요할지 2. 구체적인 문제 정의 앞에서 파악했던 현상을 더 구체적이고 명확한 용어로 정리 무엇을 해결하고 싶은가? = 무슨 문제를 해결하고 싶은가 데이터 확인, 없다면 인터뷰를 해서 문제를 파악한다. 문제를 쪼개서 파악한다. 문제를 일으키는 원인과 해결방안 고민 해결 방안이 데이터로 할 수 있는 일이 아닐 수 있다. rule b..
[Day16] DL Basic 10. Generative Model - 2 : VAE, GAN Latent Variable Models Variational Auto-encoder Variational Inference (VI) VI의 목적인 posterior distribution(pθ(z|x))을 찾는 것이다. 여기서 z는 latent vector이다. posterior distribution은 나의 obsesrvation이 주어졌을 때, 관심있어 하는 random variable의 확률분포이다. 조건이 바뀐 pθ(x|z)는 likelihood라고 부른다 하지만 일반적으로 posterior distribution은 구하기 어려운 경우가 많다. 그래서 posterior distribution에 근사하게 학습하는 variational distribution(..
[Day16] DL Basic 9. Generative Models - 1 : distribution, conditional independence, auto-regressive, NADE, pixel RNN Generative model 생성모델 Generation train data에 있지 않은 sample을 만들어내는 것 sampling으로 활용될 수 있다. 단순히 generate만 할 수 있는 모델이면 implicit model이라고 한다. Density estimation 이미지가 알고있는 분류와 같은지 아닌지 예측하는 확률 p(x)을 얻어낼 수 있다 -> explicit model anomaly detection으로 활용될 수 있다 구분할 수 있는 능력도 있다. Unsupervised representation learning feature learning Basic Discrete Distributions Bernoulli distribution 서로 의존적인 2개의 상태에 대한 확률을 나타내기 ..
[Day15] DL Basic 8. Sequential Models - Transformer Trimmed sequence 길이가 다른 data Omitted sequence 중간이 없는 data Permuted sequence 밀리거나 순서가 바뀐 data 들로 인해서 sequential modeling이 어렵다. 이를 해결하고자 한 것이 Transformer이다. Transformer RNN은 재귀적으로 돌아갔는데, transformer은 attention을 사용해서 한 번에 모든 data를 찍어낼 수 있다. transformer은 sequential한 data를 처리하고 encoding하는 방법이기 떄문에 다양한 문제에 적용될 수 있다. 기계어 번역, 이미지 분류, detection, 문장에 맞는 이미지 생성 등에 이용된다. 문장이 주어지면 다른 문장으로 바꾸는 sequence to seq..