[Day 68] DKT 4. Sequence Data 문제 정의에 맞는 Transformer Architecture 설계 Transformer encoder를 활용해서 여러 문제에 적용할 수 있다. transformer는 sequence데이터가 강점을 보이지만 많은 데이터를 요구한다. Inductive Bias CNN은 기본적으로 kernel을 통해서 locality를 보면서 bias를 학습하게 설계되어 있고, RNN은 sequence를 보도록 설계되어 있다(inductive bias가 있다). 이렇게 모델 구조상에서 bias가 있는데, MLP나 transfomer는 bias가 적다. transformer는 inductive bias가 없는 것이 장점이지만 또 단점이 되기도 한다. 데이터에서 다양한 feature를 뽑아내기 위해서는 데이터가 많이 필요하게 되는 것이다. feature engineering가 많이 필요하면 t.. [Day38] DeepCTR 9-2 : DIN & BST DIN : Deep Interest Network User behavior feature : 유저가 과거에 행동했던 기록 User behavior feature를 input feature로 사용해서 좀 더 정확한 CTR을 예측한다. Alibaba에서 발표한 모델이다. 등장 배경 더 많은 유저의 정보를 모델에서 사용하고 싶다는 needs에서 출발 DIN가 나오기 전까지는 DeepFM과 같은 딥러닝 기반 모델들은 임베딩 이후 MLP를 통과시키는 패러다임을 따랐었다. sparse feature은 임베딩+concatenate을 걸쳐 full connected layer의 입력으로 사용했었다. 이 방식은 사용자의 다양한 관심사를 반영할 수 없다. 기존에 소비한 아이템의 리스트를 user behavior featu.. [Day15] DL Basic 8. Sequential Models - Transformer Trimmed sequence 길이가 다른 data Omitted sequence 중간이 없는 data Permuted sequence 밀리거나 순서가 바뀐 data 들로 인해서 sequential modeling이 어렵다. 이를 해결하고자 한 것이 Transformer이다. Transformer RNN은 재귀적으로 돌아갔는데, transformer은 attention을 사용해서 한 번에 모든 data를 찍어낼 수 있다. transformer은 sequential한 data를 처리하고 encoding하는 방법이기 떄문에 다양한 문제에 적용될 수 있다. 기계어 번역, 이미지 분류, detection, 문장에 맞는 이미지 생성 등에 이용된다. 문장이 주어지면 다른 문장으로 바꾸는 sequence to seq.. 이전 1 다음