논문 링크: https://arxiv.org/abs/2103.00020 코드 링크: https://github.com/OpenAI/CLIP CLIP이라는 모델이 소개된 유명한 논문이다. 논문 페이지가 꽤 길었다(48p). 수학적인 부분은 생각보다 적었다. 0. abstract-기존 컴퓨터 비전 모델들은 category가 한정되어있었지만, clip 모델은 text와 image pair를 같이 학습함으로써 주어진 이미지가 어떤 text와 제일 유사한지 측정할 수 있다. zero shot 에서 resnet-50와 맞먹는 accuracy를 가진다. 1. introduction and motivating work- NLP는 task-agnostic한 모델이 많다. 특정한 dataset없이 상용 가능하다.- 그러..