본문 바로가기

pytorch

(1)

[AI/ViT] Vision Transformer(ViT), 그림으로 쉽게 이해하기 서론 AI/ML 의 Natural Language Processing (NLP) 분야에서 각광받고 있는 Transformer 구조를 Language 가 아닌 Vision 영역에 적용한 Vision Transformer(ViT) 라는 구조가 2021 년도 ICLR 라는 학회에 발표[1] 되었다. 그 이후로도 현재 ViT 베이스의 모델 구조가 비전 분야에서 많이 연구 되고 있다. [1] 에서 나온 가장 기본적인 Vision Transformer 의 구조는 위 그림과 같다. 본 글은, Vision Transformer(ViT) 의 이론적인 이야기보다는 ViT 의 구조를 [2]의 코드와 함께 파헤쳐보고자 한다. 아래 부터는 쉬운 이해를 위해 직접 그린 그림들이 있다. 아래 그림들에 행렬(matrix) 들에 적혀..

이전 1 다음

728x90

티스토리툴바