🔗 [arxiv]
👨👩👧 Jiawei Yang, Katie Z Luo, Jiefeng Li, Congyue Deng, Leonidas Guibas, Dilip Krishnan, Kilian Q Weinberger, Yonglong Tian, Yue Wang
📅 2024/01/05
🔖 논문 요약
- 문제 정의: 비전 트랜스포머 (Vision Transformer, ViT)의 특성 맵에서 발생하는 격자 무늬의 노이즈 (위 이미지 'Original features')로 인해, dense prediction 작업에서 성능을 저하시킨다.
- 제안된 방법: ViT 특성 맵에서 발생하는 노이즈를 제거하는 Denoising Vision Transformers (DVT)를 소개한다.
- 핵심 결과: DVT를 통해 노이즈가 제거한 특성 맵을 사용할 경우, 노이즈를 제거하지 않았을 때보다 다운스트림 작업의 성능이 향상됨을 확인헐 수 있다.
- 사용된 데이터셋: 다운스트림 작업에 사용 된 데이터셋: 세그멘테이션 (VOC2012, ADE20k), 깊이 추정 (NYUv2-Depth), 객체 탐지 (VOC), Object discovery (PASCAL VOC 2007, 2012, COCO20k)
- 주요 기여: ViT 모델의 노이즈의 원인을 Positional embeddings 임을 실험으로 증명, 노이즈 제거를 위한 DVT 아키텍쳐 구현
🔖 Dense prediction: 각 픽셀 또는 작은 영역마다 예측을 수행하는 기술. 객체 검출, segmentation, depth estimation 같이 상세함이 필요한 작업들을 의미한다.
🔖 특성 맵 (Feature map): CNN, ViT 같은 딥러닝 모델에서 입력 이미지 데이터로부터 추출한 2차원 또는 다차원 배열을 의미한다.
🔖 다운스트림 작업 (Downstream task): 사전 학습된 모델을 활용하여 특정한 최종 작업을 수행하는 것을 의미한다. 보통 대규모 데이터셋에서 일반적인 패턴을 학습한 사전 학습 모델을 기반으로 하여, 더 적은 데이터로 파인튜닝을 통해 특정 문제를 해결할 수 있도록 모델을 조정한다.
🔖 Object Discovery: 사전 정의 없이 이미지 내 중요한 객체를 자동을 찾아내는 작업
🔖 Positional Embeddings: Transformer 모델은 입력 간의 순서 정보를 알 수 없기 때문에, 각 입력 토큰에 위치 정보를 더해 학습할 수 있도록 하는 임베딩.
📊 상세 분석
노이즈 (Artifact) 원인 분석: 이 논문에서 ViT 아키텍쳐의 위치 임베딩 (Positional Embedding PE)가 노이즈 생성에 주요 원인이란 가정하에 분석을 진행했다. 아래 (a-2)를 봤을때 제로 텐서를 DINOv2 모델에 입력했을때 비슷한 노이즈 패턴이 발생하는 것을 확인했으며, 위치 임베딩을 사용하지 않을 경우에는 격자 무늬의 노이즈가 발생하지 않는걸 확인했다 (a-3). 또한 비디오 프레임이 바뀌어도 노이즈는 일관되게 보여주는 걸 확인 하였다 (아래 오른쪽).
이 논문은 ViT 출력을 세 가지 구성 요소로 분해를 한다.
- f: semantic 해당 이미지의 본질적인 정보 (사물/물체)
- g: 아티팩트/노이즈, 실제 이미지와 상관없이 발생하는 노이즈
- h: residual, 위 f와 g가 설명하지 못하는 복잡한 상호작용을 위해 사용하는 잔여 항
- 아키텍처: 두 단계를 거쳐 노이즈 제거를 하는 DVT 아키텍쳐
- 첫 번째 단계에서는 이미지별로 노이즈 없는 깨끗한 특징을 추출하여, 두 번째 단계 학습에 필요한 기준 데이터를 만든다.
- 입력 이미지(input image)를 여러 개의 작은 조각crop으로 나눈다. 이 조각들은 이미지의 다양한 위치에서 샘플링되므로, 이미지의 전체적은 내용을 반영하면서도 위치에 따라 발생하는 노이즈를 제거하는데 도움을 준다.
- 각 이미지 조각을 ViT에 입력하여 raw 특징 맵을 생성한다. 생성된 특징 맵을 Neural feature field에 입력하여 세 가지 구성 요소로 분해한다.
- 노이즈가 포함된 특징 맵 (f), 아티팩트(g), Residual (Δ)의 이 세 가지 요소로 분해하여, 노이즈가 제거된 깨끗한 특징 맵인 f를 얻을 수 있다.
- 두 번째 단계에서는 가벼운 모델을 훈련하여 실시간 애플리케이션에서 노이즈를 빠르게 제거할 수 있도록 한다.
- 첫 번째 단계에서 노이즈가 포함된 ViT 출력과 노이즈가 제거된 깨끗한 특징 맵을 수집한 데이터셋을 만든다.
- Denoiser 모델은 Transformer 블록 하나로 구현되어 있으며, 위 데이터셋을 이용하여 ViT 출력에서 깨끗한 특징 맵 f를 예측하는 모델을 학습한다.
- 학습이 완료된 모델은 ViT 출력을 노이즈 없는 특징 맵을 빠르게 예측할 수 있다. 첫번째 단계와 달리 실시간 응용에 적합하다.
- 첫 번째 단계에서는 이미지별로 노이즈 없는 깨끗한 특징을 추출하여, 두 번째 단계 학습에 필요한 기준 데이터를 만든다.
🔖 Neural field: 공간 좌표를 입력으로 받아 특성 표현을 생성하는 신경망
- 실험 / 결과:
ViT 출력 특징 맵과 위치 간의 의존성을 Maximal Information Coefficient (MIC)을 사용하여 측정하였다. 노이즈를 제거한 특징 맵 f의 MIC 값이 낮아 위치와 무관한 정보를 담고 있음을 나타낸다.
다운스트림 작업 실험 결과
본 연구에서는 시맨틱 분할, 깊이 추정, 객체 검출, 객체 탐색과 같은 dense recognition 작업에서 DVT의 성능을 평가한다. 이 작업들을 위한 직접적인 비교할 베이스라인이 없어, 대신 사전 학습된 ViT를 DVT를 적용하기 전과 후로 나누어 성능을 비교한다.
위 테이블에서 DVT를 사용한 모델에서 일관된 성능 향상을 확인 할 수 있다. (객체 검출 / 탐색도 비슷한 성능 향상을 보였다 - 테이블 생략)
- 미래 연구 방향:
- ViT에서 위치 임베딩의 역할을 이해함으로써 차세대 아키텍처 설계에 기여할 수 있다고 언급함
- 위치 임베딩의 재정의가 필요함을 제기함
- 아티팩트에 대한 더 깊은 이해가 필요하다고 강조함
✏️ 개인적 노트
- 더 자세히 알아볼 것들:
- Neural fields에 대해 더 알아보기 (Neural Radiance Fields (NeRF) 논문 읽어보기)
- Maximal Information Coefficient (MIC) 알아보기
- 내 프로젝트 활용
- Classification보다 미세한 차이에 구별하는 데 유용하다고는 하지만 내 프로젝트 이미지도 미세한 차이가 중요한 경우라서 DVT 방식이 유용할 지 궁금함!
'ᐧ༚̮ᐧ Data Science | AI > 논문 리뷰' 카테고리의 다른 글
[논문리뷰 | 딥러닝, 미세조정] LoRA: Low-Rank Adaptation of Large Language Models (1) | 2024.11.08 |
---|