물공's의 딥러닝

블로그 이사합니다.

Waterbottle — Sat, 25 Dec 2021 12:36:14 +0900

오랜 시간동안 블로그 이사에 대해 고민을 했었습니다.

플랫폼은

Notion (oopy)
Github 블로그
medium

결국 Github 블로그로 옮기기로 했습니다

자세한 이유는 이사한 블로그에다가 적도록 하겠습니다.

이사한 블로그 주소: https://mulkong.github.io

[ViT 시리즈] Vision Transformer 논문 리뷰 보단 메모.

Waterbottle — Sun, 19 Dec 2021 20:06:27 +0900

본격적인 Vision Transformer 관련 논문들을 리뷰를 하기 전에, 공부한 내용을 정리할 겸해서 간단하게 메모장을 끄적이는 느낌으로 정리를 해볼까 합니다.

1. 사전 지식

■ Attention mechanism

Encoder ↔️ Decoder 사이의 correlation을 바탕으로 특징을 추출해 나가는 과정.
Decoder로 부터 query가 나옴.
Encoder로 부터 key, value가 나옴.

참고 그림

출처: https://blog.promedius.ai/transformer/

■ Self-Attention mechanism

입력 데이터로 부터 query, key, value가 계산된다. 그 이후에는 Attention mechanism과 동일한 과정으로 진행.
데이터 내의 상관 관계를 바탕으로 특징을 추출해 나가는 과정.
- 입력 데이터로 부터 query, key, value를 구함.
- query, key의 similarity를 통해 weight를 결정.
Transformer Encoder는 Self-Attention mechanism 이용.

■ Inductive bias

네트워크 목적

새로운 데이터에 대한 좋은 성능을 내는 것을 목표로 한다.

Inductiva bias란?

새로운 데이터에 대해 좋은 성능을 내기 위해 모델에 사전적으로 주어지는 가정들을 inductive bias라고 부른다.

예를 들면, convolution filter를 활용해 local feature patterns을 추출한 수 있는 것.

■ CNN vs Transformer

CNN

멀리 떨어진 두 정보들을 통합할 때 여러개의 layer를 거쳐야 한다.

2차원의 local feature patterns을 유지하면서 layer를 통과한다. 이는, convolution filter를 활용해 local feature patterns을 추출 하는 것이며 이것이 바로 inductive bias이다.

Transformer

순서
- 5x5 image가 주어졌을 때, 1D 1D vector로 불어냄.
- 1D vector를 Linear Projection 거친 후 patch embedding에 self-attention을 적용하면 Query, Key, Value를 계산하게 됨
- Query, Key의 Similarity를 통해 weight를 결정.
- Query, Key의 Similarity를 통해 weight를 결정.
self-attention layer 하나만 거쳐도 멀리 떨어진 정보들을 교환할 수 있다.

데이터를 1D로 만든 후 self-attention을 통해 layer를 통과함. 이는 2차원의 local feature patterns이 유지되지 않아 CNN에 비해 inductive bias가 적은 모델이라고 말할 수 있다.
inductive bias가 적은 만큼 모델의 자유도가 높아 더 많은 데이터를 학습할 수 있다. 이는, ViT의 단점으로 작용하는데 이 문제를 극복한 방법이 DeiT이다.

2. ViT(Vision Transformer)

■ 특징

NLP 분야에서 사용된 Transformer를 응용하여 Vision task에서 사용할 수 있도록 고안된 첫 논문 ViT
Transformer만 사용해서 image classification task에 적용
Architecture의 hyper-parameter에 따라 여러가지 모델들은 제안하고 있음.

■ 학습 과정

학습 순서

이미지 입력
16x16 patch로 자름
각각의 patch들을 1D-vector로 풀어냄

1D vector로 만들어진 patch들을 Linear Projection을 통해 768 차원의 각 patch의 embedding vector로 표현.

class PatchEmbedding(nn.Module):
    def __init__(self, in_channels: int = 3, patch_size: int = 16, emb_size: int = 768):
        self.patch_size = patch_size
        super().__init__()
        '''
				self.projection = nn.Sequential(
            # break-down the image in s1 x s2 patches and flat them
            Rearrange('b c (h s1) (w s2) -> b (h w) (s1 s2 c)', s1=patch_size, s2=patch_size),
            nn.Linear(patch_size * patch_size * in_channels, emb_size)
        )
				'''
				self.projection = nn.Sequential(
            # using a conv layer instead of a linear one -> performance gains
            nn.Conv2d(in_channels, emb_size, kernel_size=patch_size, stride=patch_size),
            Rearrange('b e (h) (w) -> b (h w) e'),
        )
                
    def forward(self, x: Tensor) -> Tensor:
        x = self.projection(x)
        return x

각 patch embedding에 classification token, position embedding 추가.
Transformer Encoder
Transformer Output
classification

■ 학습을 통해 결정되는 Parameter

Classification token

classification을 위해 사용되는 token

class PatchEmbedding(nn.Module):
    def __init__(self, in_channels: int = 3, patch_size: int = 16, emb_size: int = 768):
        self.patch_size = patch_size
        super().__init__()
        self.projection = nn.Sequential(
            # using a conv layer instead of a linear one -> performance gains
            nn.Conv2d(in_channels, emb_size, kernel_size=patch_size, stride=patch_size),
            Rearrange('b e (h) (w) -> b (h w) e'),
        )
        
        self.cls_token = nn.Parameter(torch.randn(1,1, emb_size))
        
    def forward(self, x: Tensor) -> Tensor:
        b, _, _, _ = x.shape
        x = self.projection(x)
        cls_tokens = repeat(self.cls_token, '() n e -> b n e', b=b)
        # prepend the cls token to the input
        x = torch.cat([cls_tokens, x], dim=1)
        return x

Position embedding

patch의 위치 정보를 가지고 있는 embedding
position embedding을 사용 안하면?
- 이미지 입력 → 일전 크기의 patch로 자름 → patch를 sequence로 생각하여 transformer Encoder로 입력 → 각 patch가 어떤 위치에서 왔는지 위치 정보가 손실됨. → 학습 안됨
(classification token, patch embedding) + position embedding 이 Transformer Encoder로 입력됨.
classification token, position token은 학습에 의해 결정되는 parameter입니다.

class PatchEmbedding(nn.Module):
    def __init__(self, in_channels: int = 3, patch_size: int = 16, emb_size: int = 768, img_size: int = 224):
        self.patch_size = patch_size
        super().__init__()
        self.projection = nn.Sequential(
            # using a conv layer instead of a linear one -> performance gains
            nn.Conv2d(in_channels, emb_size, kernel_size=patch_size, stride=patch_size),
            Rearrange('b e (h) (w) -> b (h w) e'),
        )
        self.cls_token = nn.Parameter(torch.randn(1,1, emb_size))
        self.positions = nn.Parameter(torch.randn((img_size // patch_size) **2 + 1, emb_size))

        
    def forward(self, x: Tensor) -> Tensor:
        b, _, _, _ = x.shape
        x = self.projection(x)
        cls_tokens = repeat(self.cls_token, '() n e -> b n e', b=b)
        # prepend the cls token to the input
        x = torch.cat([cls_tokens, x], dim=1)
        # add position embedding
        x += self.positions
        return x

시각화

cos = torch.nn.CosineSimilarity(dim=1, eps=1e-6)
fig = plt.figure(figsize=(10,10))
fig.suptitle("Visualization of position embedding similarities", fontsize=24)

for i in range(1, pos_embed.shape[1]):
    sim = F.cosine_similarity(pos_embed[0, i:i+1], pos_embed[0, 1:], dim=1)
    sim = sim.reshape((14, 14)).detach().cpu().numpy()
    ax = fig.add_subplot(14, 14, i)
    ax.axes.get_xaxis().set_visible(False)
    ax.axes.get_yaxis().set_visible(False)
    ax.imshow(sim)

■ Architecture

Transformer Encoder

ViT는 Vanilla Transformer(Attent is all you need)구조와는 다른 구조로 구성되어 있다.
Transformer는 layer를 깊게 쌓게되면 학습이 어렵다는 단점이 있다.
- 이런 단점을 극복하여 학습이 되게 하기 위해서는 layer normalization의 위치가 중요하다는 것이 후속 연구들을 통해 증명이 되었다.
ViT는 NLP 에서 보여진 layer를 깊게 쌓으면 학습이 어렵다는 문제와 이를 극복하기 위해 layer normalization 위치가 중요하다는 연구를 받아드린 Vision Transformer이다.
- 기존 Transformer: Multi-head attention → normalization
- ViT: normalization → Multi-head attention

## Transformer Encoder에 입력으로 들어가는 tensor
transformer_input = torch.cat((model.cls_token, patches), dim=1) + pos_embed

■ Attention in Transformer Encoder

Self-Attention

순서

layer normalization 거친 후 얻어진 $z$
weight metrix $W_Q$, $W_K$, $W_V$에 곱해져서 Query, Key, VAlue 값들이 계산됨(⭐️ weight metrix의 학습을 통해 attention이 학습)
Query, Key 값들의 dot product[torch.einsum('bhqd, bhkd -> bhqk', queries, keys)]를 통해 Similarity 계산
Softmax를 취해 0 ~ 1의 attention score계산
계산된 attention score에 Value를 곱해 최종적인 output을 얻음.

Multi-Head Self-Attention

ViT base model에서는 self-attention 12번 수행.
768차원 → Multi-head self-attention 통과 → 64차원으로 감소 → self-attention을 12번 수행하니 768차원으로 증가 → 결국 차원수가 동일하게 유지됨

class MultiHeadAttention(nn.Module):
    def __init__(self, emb_size: int = 768, num_heads: int = 8, dropout: float = 0):
        super().__init__()
        self.emb_size = emb_size
        self.num_heads = num_heads
        self.keys = nn.Linear(emb_size, emb_size)
        self.queries = nn.Linear(emb_size, emb_size)
        self.values = nn.Linear(emb_size, emb_size)
        self.att_drop = nn.Dropout(dropout)
        self.projection = nn.Linear(emb_size, emb_size)
        self.scaling = (self.emb_size // num_heads) ** -0.5

    def forward(self, x : Tensor, mask: Tensor = None) -> Tensor:
        # split keys, queries and values in num_heads
        queries = rearrange(self.queries(x), "b n (h d) -> b h n d", h=self.num_heads)
        keys = rearrange(self.keys(x), "b n (h d) -> b h n d", h=self.num_heads)
        values  = rearrange(self.values(x), "b n (h d) -> b h n d", h=self.num_heads)
        # sum up over the last axis
        energy = torch.einsum('bhqd, bhkd -> bhqk', queries, keys) # batch, num_heads, query_len, key_len
        if mask is not None:
            fill_value = torch.finfo(torch.float32).min
            energy.mask_fill(~mask, fill_value)
            
        att = F.softmax(energy, dim=-1) * self.scaling
        att = self.att_drop(att)
        # sum up over the third axis
        out = torch.einsum('bhal, bhlv -> bhav ', att, values)
        out = rearrange(out, "b h n d -> b n (h d)")
        out = self.projection(out)
        return out

MLP (1 hidden layer fully-connected layer)

class FeedForwardBlock(nn.Sequential):
    def __init__(self, emb_size: int, expansion: int = 4, drop_p: float = 0.):
        super().__init__(
            nn.Linear(emb_size, expansion * emb_size),
            nn.GELU(),
            nn.Dropout(drop_p),
            nn.Linear(expansion * emb_size, emb_size),
        )

Transformer output

■ 실험적 특징

학습 팁

pretraining dataset의 해상도는 줄이고, fine tunning dataset의 해상도를 증가시키면 모델 성능 ↑
- Emerald project(Covid-19 Kaist model)에로 위와 같은 방법으로 적용한거로 알고 있음.
Transformer을 활용하면 기존 CNN 모델보다 효율적인 학습이 가능함. (하지만 ViT 특징만 이용한다면 오히려 단점으로 적용될 수 있음)

데이터가 많이 필요하다!

CNN에 비해 inductive bias가 적음
→ 입력 이미지를 패치로 구성한 후 데이터를 1D vector로 만들어 self-attention을 통과함 (이 때, sequence로 들어가니 position embedding은 필수!) ⇒ 따라서 2차원의 지역적인 정보가 유지되지 않음.
inductive bias가 적으면 그만큼 모델의 자유도는 ↑ ⇒ 이는 많은 데이터로 학습이 가능하다. (결국은 데이터가 많이 필요하다)

데이터가 많이 필요한 ViT의 단점을 극복한 논문이 DeiT(facebook)

Knowlege Distiliation, Data Augmentation을 활용한 논문.
순서
- 입력 데이터를 Teacher model, Student model에 입력으로 넣어줌
- Teacher model의 output이 Teacher model의 지식이다 라고 가정
- Teacher과 Student의 output을 KL-divergence를 이용하여 계산
  - 이는 T와 S의 분포 사이의 거리를 최대한 줄여주기 위함.
- Teachcer과 Student의 분포의 거리를 줄여 Teacher 모델의 지식을 Student 모델로 전이해 주겠다 라는 방법.
핵심 내용
- CNN의 inductive bias를 Student model(DeiT) 모델에 넣어줄 수 있기 때문에 Teacher model를 CNN을 사용하여 활용하는게 더 유리함.

Reference

https://www.youtube.com/watch?v=bgsYOGhpxDc&t=580s
https://blog.promedius.ai/transformer/
https://github.com/xmu-xiaoma666/External-Attention-pytorch

[생성모델 시리즈] Adversarial Latent Autoencoders

Waterbottle — Sat, 28 Aug 2021 14:58:22 +0900

■ 본 논문은, GAN의 Generator → F, G & Discriminator → E, D 각각 분리하여 아키테처를 구성하고 있습니다.

■ F에서 나온 latent space와 E에서 나온 latent space가 서로 동일한 분포를 가진다고 가정해서 연구가 진행 되었으며, F는 deterministic하게 latent space mapping이 이루어지고, G﹒E는 독립적이고 이미 알려진 분포의 noise인 $\eta$를 입력으로 주어 stochastic하게 만듭니다.

■ 결론적으로 latent space의 확률 분포를 adversarial 하게 학습할 수 있는 장점이 있습니다. 그로 인하여 GAN과 비슷한 생성 능력, disentangled representation을 학습한 점을 보여주고 있습니다.

ALAE(Adversarial Latent Autoencoders)에 대한 리뷰 후 다음 글에서 코드 리뷰를 이어 나가도록 하겠습니다.

✔️ [논문 리뷰] Adversarial Latent Autoencoders

◻︎ [코드 리뷰] Adversarial Latent Autoencoders

1. Abstract

Autoencoder란?

autoencoder는 encoder-generator map을 동시에 학습하여 generation & representation properties을 결합하는 것을 목표로 하는 unsupervised 접근 방식 입니다.

Autoencoder의 한계

Autoencoder에 대한 많은 연구가 진행되었지만, GANs(Generative Adversarial Networks)와 동일한 생성 능력을 가지고 있는지, 아니면 disentangled representations을 학습하는지에 대한 문제는 완전히 다루어지지 않았습니다.

제안

본 논문에서는 위에서 언급한 문제인

GANs와 동일한 생성 능력을 가지고 있는지
disentangled representations을 학습하고 있는지

에 대한 문제를 해결하는 autoencoder를 소개하며 저자들은 이 네트워크를 ALAE(Adversarial Latent Autoencoder)라고 부릅니다.

2개의 Autoencoder 설계

본 논문에서는 2개의 autoencoder를 설계했습니다.

MLP Encoder를 기반으로 하는 Encoder
StyleGAN의 Generator를 기반으로 하는 StyleALAE

StyleALAE는 StyleGAN과 비슷한 품질읜 1024x1024 얼굴 이미지를 생성할 수 있으며, 동일한 해상도에서 실제 이미지를 기반으로 face reconstruction, manipulations도 생성할 수 있음을 보여주고 있습니다.

결론적으로, ALAE는 GAN의 성능과 비슷하거나 그 성능을 능가하는 최초의 Autoencoder라고 논문에서 소개를 하고 있습니다.

2. Introduction

지금까지 발표된 이미지 생성 네트워크를 보면 아래와 같이 크게 두가지 특징을 관심있게 볼 수 있습니다.

GAN처럼 얼마나 고해상도 이미지를 실제와 똑같게 생성할 수 있는지
disentangled representations 학습이 잘 이루어졌는지

지금까지 진행된 연구들의 논문들을 보면, 고해상도 이미지를 생성하는 네트워크가 무엇이 있을까 생각을 해볼 때 AE(Autoencoder)보다는 GAN이 가장 먼저 떠오를 것 입니다. 또한 AE는 entangled representations을 배원 manipulations가 불가능 했습니다.

이 논문의 저자들은, abstract에 정리한대로 2가지의 autoencoder를 제안하고 있습니다. 첫째, MLP Encoder를 기반으로 하는 Encoder인 ALAE, 둘째, StyleGAN의 Generator를 ALAE에 적용한 StyleALAE.

StyleALAE의 생성 결과부터 보면 아래 그림 1와 같이 GAN처럼 고해상도 이미지를 잘 생성하고 있음을 보여주고 있습니다.

그림 1. FFHA generation. Generations with StyleALAE trained on FFHQ at 1024x1024

3. Preliminaries

3-1. AutoEncoder

그림 2. Autoencoder architecture (출처:https://learnopencv.com/variational-autoencoder-in-tensorflow/)

Encoder

입력된 이미지에 대한 특징(feature)인 고차원 input space을 저차원 latent space $z$로 압축하는 모델이며 식을 다음과 같습니다.

$$z = E(x)$$

Decoder

Encoder에 의해 고차원에서 저차원으로 인코딩된 $z$를 다시 입력된 이미지 $x$와 동일한 이미지 $\hat{x}$로 재구성 하는 모델이며 식은 다음과 같습니다.

$$\hat{x} = D(z)$$

3-2. GANs

그림 3. GANs architecture (출처: https://developers.google.com/machine-learning/gan/gan_structure)

Generator와 Discriminator로 구성되어 있으며 서로 adversarial training 하는 방식으로 고해상도 이미지를 생성하도록 학습하는 생성 모델 입니다. 이는 $q(x)$가 $P_D(x)$만큼 가깝도록 G를 학습하는 것을 목표로 하게 됩니다.

Generator

Autoencoder처럼 입력 이미지 $x$를 latent space로 직접 인코딩하는 방식이 아니라, synthetic distribution $q(x)$를 표현하는 새로운 이미지 $G(x)$를 생성하기 위해 이전에 알려진 $p(z)$의 latent space $Z$를 학습하는 네트워크 입니다.

Discriminator

학습 데이터셋의 true distribution $P_D(x)$를 나타내는 이미지와 생성된 이미지의 false distribution $P_D(\hat{x})$을 나타내는 이미지를 구분하는 네트워크 입니다.

참고: [GAN] Generative Adversarial Network 정리

3-3. Adversarial Latent Autoencoders

Autoencoder는 지금가지 많은 연구가 진행되었습니다. 하지만 아래 2가지 문제에 대해서는 해결을 하지 못하고 있습니다.

GANs와 비슷한 생성 능력을 가지고 있는지.
Disentangled representations을 잘 학습하였는지.

일반적인 autoencoder만으로는 disentangled representation을 학습하기 힘들고 이를 학습하기 위해서는 추가적인 테크닉이 필요.

일반적인 GAN은 entangled representation을 학습합니다. 따라서 input noise에서 어느 부분이 어떤 representation을 조절하는지 알기 힘듭니다. 근데 이것을 모델이 disentangle하게 학습한다면 input noise의 어느 부분이 어떤 representation을 조절하는지 해석이 가능하게 됩니다. GAN에서는 disentangled representation을 학습하는 모델들이 많이 나왔지만 Autoencoder는 그렇지 않았습니다.

그래서 이 논문은 위에서 언급한 두기자 문제를 모두 해결하는 Autoencoder를 설계를 했습니다.

4. Architecture

ALAE의 구조에 대해 알아보고 StyleGAN의 Generator을 이용하여 GAN과 비슷한 생성 능력을 지닐 수 있도록 만든 StyleALAE에 대해 알아보도록 하겠습니다.

4-1. ALAE

그림 4. ALAE Architecture. The architecture of an Adversarial Latent Autoencoder.

ALAE는 generator G, discriminator D를 $\textit{G} = F \circ G $ and $\textit{D} = D \circ E $로 decomposing한 네트워크 입니다. 이때 decomposed 네트워크 사이의 latent space $w$즉, $w = F(z)$와 $w = E(q_G(x\vert w, \eta))$가 서로 동일하다는 가정을 지니고 있으며 이 latent space를 $W라고 표현하고 있습니다.

◼︎ Generator F

F는 prior distribution $p(z)$ → intermediate latent space $w$ distribution $q_F(w)$로 변환하는 역할을 가지고 있습니다.

그림 5. intermediate latent space로 변환하는 역할인 F

이 논문에서 disentanglement에 대해 아주 중요한 이야기를 하고 있습니다.

input space에서 멀리 떨어진 intermediate latent space가 더 나은 disentanglement properties를 갖는 경향이 있음을 보여주고 있습니다.

따라서 저자는 F가 가장 일반적인 경우에서 deterministic map 이라고 가정했으며 know prior $p(z)$에서 샘플을 가져와 $q_{F}(w)$을 출력하게 됩니다.

deterministic mapping에 대해 궁금하신 분들인 해당 wiki를 참고해 참고해주시기 바랍니다.

◼︎ Generator G

그림 6. Generator G에 해당되는 영역.

original GAN과 차이점 부터 비교해가며 알아보겠습니다.

GAN

Generator, Discriminator 2개의 네트워크로 adversarial training이 이루어집니다.
Generator에 대한 입력은 latent space에서 직접 샘플링이 됩니다.
생성된 이미지 $G(z)$는 binary classifier처럼 True/False로 분류해주는 Discriminator에 바료 입력 됩니다.

ALAE

Generator, Discriminator가 $\textit{G} = F \circ G $ and $\textit{D} = D \circ E$로 decompose 되었으며 총 4개의 네트워크로 adversarial training이 이루어집니다.
F에서 학습된 intermediate latent space $w$에서 샘플링이 됩니다.
G에서 생성된 이미지가 Encoder를 먼저 거친 위 Discriminator에 입력 됩니다.

저자는 G가 known fixed distribution $p_\eta(\eta)$에서 샘플링된 independent noisy input $\eta$에서 optionally하게 의존할 수 있다고 가정하고 있습니다. 따라서 G는 $q_F(w)$와 optionally $p_\eta(\eta)$2가지 입력을 동시에 받습니다. 해당 식은 다음과 같이 정의됩니다.

$q_G(x\vert w, \eta)$: $w$ and $\eta$가 주어지면 생성된 이미지 $\hat{x}$의 조건부 확률

◼︎ Discriminator Encoder E

그림 7. Discriminator Encoder E에 해당되는 영역

위에서 언급한대로 decomposed 네트워크 사이의 latent space가 서로 동일하다는 가정을 지니고 있습니다. 즉, intermediate latent space $w$로 data space를 인코딩하며 이는 $q_F(w)$와 동일한 latent space를 갖습니다.

학습중에 Encoder에 대한 입력은 real data distribution $P_D(x)$의 real image $x$ 또는 synthetic distribution $q(x)$를 나타내는 생성 이미지 $\hat{x}$인 $G(w, \eta)$ 입니다.

synthetic distribution에서 입력될 때 Encoder의 출력은 다음 식과 같습니다.

$q_E(w)$: 주어진 data space에서 latent space $w$의 conditional probability distribution

실제 real data distribution $P_D(x)$에서 입력될 때 Encoder의 출력은 아래 식과 같습니다.

$$ q_{E, D}(w) = \int_{x} q(w \vert x) P_D(x) dx$$

위와 같은 식이 성립되는 이유는 F에서 나온 intermediate latent space $w$와 E에서 나온 intermediate latent space $w$가 동일하다는 가정으로 연구가 진행되어서 $q_F(w) = q_E(w)$가 성립됩니다.

ALAE는 adversarial strategy로 학습이 진행됩니다. 따라서 $q(x)$ → $P_D(x)$가 되며 이는 $q_E(x)$ → $q_{E, D}(x)$로 이동하는 것을 의미합니다.

◻︎ Matching the latent space

latent space에 대한 가정은 $q_E(w)$의 output distribution이 $q_F(w)$의 input distribution과 유사하다는 점 입니다. 이 개념을 바탕으로 실제 학습을 진행할 때 두 분포간 squared difference를 최소화 하는 방향으로 학습을 진행합니다.

◻︎ AE가 GAN처럼 선명한 이미지를 만들 수 없는 이유!

일반적인 autoencoder에서 입력된 이미지와 Decoder에 의해 복원된 이미지를 이용하여 reconstruction loss를 구하게 됩니다. 이때 사용된 loss functiondms 보통 L2 loss를 많이 사용합니다. autoencoder가 GAN처럼 선명한 이미지를 생성(복원)할 수 없는 가장 큰 이유가 바로 L2 loss를 사용하기 때문인데요. L2 loss는 data space에서 연산이 이루어지지만 human visual perception을 반영하지는 않습니다. 이러한 이유로 인해 autoencoder가 GAN과 같은 선명한 이미지를 생성할 수 없게 됩니다.

◼︎ Discriminator D

Encoder에 의해 제공되는 intermediate latent space가 입력되면 진짜인지 가짜인지 판별해주는 역할을 하는 네트워크 입니다. 이 네트워크는 학습 과정에서 2번 호출 됩니다.

G에 의해 생성된 이미지 $q_G(x\vert w, \eta)$가 E를 통해 latent space mapping이 이루어지고, 그 latent space $q_E(w)$가 D에 제공되는 경우.
실제 데이터 $x$가 E에 입력되고 그로 인해 얻어진 출력값이 D에 제공되는 경우.

4-2. StyleALAE

위 내용까지는 MLP Encoder를 기반으로 하는 ALAE에 대한 특징 및 아키텍처에 대해 알아보았습니다. 이제 StyleGAN의 Generator을 이용하여 GAN과 비슷한 생성 능력을 지닐 수 있도록 만든 StyleALAE 아키텍처에 대해 간단히 알아보겠습니다.

그림 8. StyleALAE Architecture

StyleALAE는 StyleGAN의 Generator와 ALAE를 결합한 아키텍처 입니다. StyleALAE는 아래와 같이 구성됩니다.

(그림 9)와 같이 ALAE의 Generator가 StyleGAN의 Generator로 변경
style information을 추출하는 Encoder network E는 Generator와 대칭이 되도록 구성.

그림 9. MLP Encoder를 기반으로 하는 ALAE에서 StyleGAN의 Generator를 이용하여 구성한 StyleALAE

◼︎ 개념 정리

◻︎ IN(Instance Normalization)

각 레이어 $i^{th}$의 style content를 추출하며, 입력된 영상에 대한 normalization을 진행합니다.

◻︎ Style Information

IN에 의해 추출된 style content를 구성하는 channel-wise average $\mu$와 $\sigma$를 의미합니다.

Encoder는 $i^{th}$의 style content들은 latent space $w$와 선형적으로 관련된 symmetric generator (G of StyleALAE)의 AdaIN(Adaptive Instance Normalization)으로 입력됩니다. 따라서 Encoder의 각 레이어의 IN에 의해추출된 style content는 multilinear map을 통해 latent space에 mapping 됩니다.

AdaIN에 대한 설명 [link]

[DCLGAN] Dual Contrastive Learning for Unsupervised Image-to-Image Translation

Waterbottle — Sun, 15 Aug 2021 20:04:46 +0900

Abstract

Unsupervised image-to-image translation개념

Unsupervised image-to-image translation tasks는 unpaired train data에서 source domain X와 target domain Y간의 mapping이 되는 지점을 찾는 것을 목표로 하는 task 입니다.

CUT(Contrastive Learning for unpaired image-to-image Translation)

Contrastive Learning for unpaired image-to-image Translation은 두개의 도메인 (X, Y) 모두에 대해 하나의 Encoder만 사용하여 입력, 출력 패치(patch)의 mutual information을 최대화 하여 unsupervised image-to-image translation을 모델링 하는 SOTA 결과를 제공합니다.

제안한 방법

본 논문에서는 unpaired data간의 효율적인 매핑을 위해 contrastive learning, dual learning setting에 기반한 새로운 학습 방법을 제안합니다.

mode collapse 문제 해결

cycle consistency loss의 문제점들을 해결 하기 위해 self-supervised representation learning 분야에서 multiple views of the data 간의 contrastive learning을 이용한 CUT가 SOTA을 달성했지만 mode collapse 문제가 발생 합니다.

DCLGAN은 데이터 도메인에 따라 mode collapse가 발생할 수 있다는 문제점이 존재하여 이를 해결하기 위해 DCLGAN의 변형인 SimDCL도 논문에서 소개를 하고 있습니다.

이 논문에서 제안한 방법으로 mode collapse문제를 효율적으로 해결합니다.

CUT: 1개의 Encoder 사용, 데이터에 따라 mode collapse 문제 발생
DCLGAN: 2개의 Encoder 사용, mode collapse 문제를 효율적으로 해결.

결론

image-to-image translation tasks에서 extensive ablation study을 다른 네트워크들에 비해 본 논문에서 제안한 접근 방식이 효과적이라는 것을 본 논문에서 입증하고 있습니다.

끝으로, unsupervised learning과 supervised learning 방법 사이의 격차를 효율적으로 줄일 수 있음을 보여주고 있습니다.

Introduction

image-to-image translation task는 이미지를 한 도메인에서 다른 도메인으로 변환하는 것을 목표로 합니다. 가장 일반적으로 사용하고 있는 방법은 GAN을 기반으로 하는 방법입니다.

GAN이 발전하게 된 이유중 하나는 adversarial loss를 사용한점 입니다. 하지만 adversarial loss를 unpaired unsupervised image-to-image translation에 사용하여 발생되는 문제점은 adversarial loss가 underconstrained 하다는 점 입니다.

adversarial loss가 underconstrained 하다면?

두 도메인(X, Y) 사이에 여러개의 매핑이 존재하게 되어 네트워크 학습이 불안정하게 이루어집니다.

그래서 위와 같은 문제를 해결하기 위해 unpaired unsupervised image-to-image translation 에서는 cycle consistency을 사용하여 adversarial loss만 사용했을때 발생되는 문제점을 해결했습니다.

Cycle consistency

cycle consistency loss는 (그림 1)처럼target Domain ➡️ source Domain으로 역방향 매핑을 학습할 때 사용하는 loss 입니다.

역방향 매핑을 학습한다는 의미는?
입력된 이미지와 재구성된 이미지가 얼마나 동일하게 만들어 지는지를 학습하는 의미이며 cycle consistency loss가 그 차이를 측정하며 학습을 하게 됩니다.

(그림 1). CycleGAN의 cycle consistency loss

하지만 cycle consistency을 사용할 때 약간의 가정과 제약이 있습니다.

cycle consistency의 가정

변환된 이미지는 target domain과 유사한 texture information을 가지므로 geometry 변경이 불가하다는 것을 가정으로 두고 cycle consistency를 사용합니다.
두 도메인 (X, Y) 간의 관계가 bijection 되도록 즉, 1:1 대응이 되도록 합니다.

cycle consistency의 제약

그로 인해 정확도 손실로 인해 재구성 과정이 제한되므로재구성 이미지의 diversity가 감소하게 됩니다.

그래서 이러한 제약을 해결하기 위해 Contrastive Learning을 이용한 연구가 등장을 하게 되었습니다.

Contrastive Learning을 이용한 Image-to-Image Translation

cycle consistency loss는 재구성 이미지의 diversity가 감소하게 되는 등의 제약들이 발견되었습니다. 따라서 이를 해결하기 위해self-supervised representation learning 분야에서 multiple views of the data 간의 contrastive learning 방법이 이루어 졌습니다.

이 방법이 기존 cycle consistency loss을 사용한 방법의 제약을 효율적으로 해소함을 보여줌과 동시에 SOTA를 달성하게 되었습니다.

가장 최근에 나온 논문 중 대표적인 논문으로CUT(Contrastive Learning for Unpaired Image-to-Image Translation)이 있습니다. CUT는unpaired image-to-image translation taks에서 contrastive learning 방식이 효율적이라는 것을 보여주었으며,patch-based multi-layer PatchNCE loss을 사용하여 unpaired image-to-image translation을 위한 Contrastive Learning을 도입하여 입력 및 출력 이미지의 패치간의 mutual information을 최대화 하는 방향으로 학습이 이루어지게 됩니다.

하지만 SOTA를 찍은CUT도 문제점이 보였습니다. 그 문제점은 바로 아이디어는 좋았지만 두 도메인 (X, Y) 사이의 domain gap을 효율적으로 포착하지 못하여 충분히 성능을 끌어올리지 못하고 있다는 점 입니다.

그럼, 왜 성능을 충분히 끌어 올리지 못했을까요?
그 이유는 바로 CUT에서 사용한 아키텍처의 특정 부분의 디자인을 잘못 선택해서 성능이 떨어지게 되었습니다.

domain gap을 효율적으로 포착하기 위해서는 도메인 수 만큼 임베딩이 사용되어야 합니다. 하지만 CUT는 하나의 임베딩이 사용되어 성능을 제한하고 있다고 본 논문에서 주장을 하고 있습니다.

그래서 본 논문에서는 cycle-consistency의 제약을 피하고, domain gap을 효율적으로 포착할 수 있도록 한개 이상의 임베딩을 사용하고, contrastive learning 방법을 더욱 활용한 DCLGAN을 제안합니다.

DCLGAN

(그림 2). Contrastive Learning for Unpaired Image-to-Image Translation (CUT) 논문의 Patchwise Contrastive Learning for one-sided translation.

목표
DCLGAN의 목표는 별도의 임베딩을 사용하여 입력 및 출력 이미지 패치의 상관관계를 학습하여 mutual information을 극대화 하는 것을 목표로 합니다.

학습 방법
DCLGAN은 CUT의 성능을 제한시킨 디자인인 1개의 임베딩을 사용하는 점을 개선시켜 서로 다른 도메인에 서로 다른 Encoder 및 projection heads를 사용함으로써 두 도메인 간의 접점이 되는 부분을 극대화 시키기 위한 1개 이상의 임베딩을 학습합니다.

발견한점

CUT과 달리 DCLGAN의 학습 방법은 dual learning 방식 입니다. 이 방식이 오히려 학습을 안정화 시키는데 도움이 된다고 합니다.
또한 CUT에서 사용한 PatchNCE loss에서 RGB pixel을 제거하는 것이 학습하는대에 있어 도움이 될 수 있음을 발견했습니다.
geometrical structure에 대한 제약이 없는 경우에는 cycle-consistency가 불필요 하다는 점도 발견했습니다.
DCLGAN은 데이터 도메인에 따라 mode collapse가 발생될 수 있지만 그 변형인 SimDCL은 mode collapse를 방지하는데 효과적인 점을 발견했습니다.

(그림 3). DCLGAN architecture

정리

본 눈문은 CycleGAN과 CUT의 한계를 극복할 수 있는 새로움 프레임 워크와 변형 네트워크를 제시하고 있습니다.

CycleGAN

cycle consistency으로 발생하는 단점.

CUT

contrastive learning의 효율성을 보여주었지만 한개의 임베딩을 사용해서 domain gap을 효율적으로 포착하지 못할 수 있다는 한계점.

또한 여러가지 다양한 실험을 통해 SOTA에 비해 본 논문에서 제안한 방식이 훨씬 효과적이라는 점을 입증하게 되었으며, self-supervised learning 분야에서 contrastive learning 방법이 그랬던것 처럼 unsupervised and supervised learning 방법 사이의 격차를 성공적으로 좁힐 수 있다는 점을 보여주고 있습니다.

Supervised methods

관련 논문: Pix2Pix, Pix2PixHD, SPADE

Pix2Pix

general methods만 사용하여 여러개의 image-to-image translation tasks을 지원하는 작업에 구애받지 않는 image translation을 처음 수행한 논문 입니다.

Pix2PixHD

기존 Pix2Pix 논문에서 확장된 방법으로, 고해상도 이미지를 합성할 수 있는 방법 입니다.

SPADE

생성된 이미지의 품질을 더욱 향상 시키기 위해 spatially-adaptive normalization layer을 도입한 논문입니다.

단점: supervised 접근 방법은 학습을 위해 paired data가 필요합니다.

Unsupervised methods

관련 논문: MUNIT, DRIT, StarGAN
비지도 학습 방법은 주로 shared latent space, cycle-consistency assumption을 가정을 두고 있습니다.

MUNIT

latent space을 style code & content code로 분리하여 domain-specific features를 분리하는 특징이 있는 논문 입니다.

DRIT

domain-specific attribute space and shared information을 포착하는 content space을 포함한 두 space에서 이미지 임베딩을 하는 논문 입니다.

StarGAN

대표적인 multi domain image-to-image translation 으로, unified model architecture을 사용하여 여러 도메인에서 이미지를 translation 하는 논문 입니다.

Break the cycle

관련 논문: CycleGAN, CouncilGAN, DistanceGAN, GCGAN

CycleGAN

대표적인 unpaired data image-to-image translation으로 cycle-consistency loss을 사용하여 adversairal loss의 문제인 mode collapse 단점을 극복하기 위한 네트워크로, 입력 이미지를 target domain으로 변환하고 입력 및 생성된 이미지의 정확도를 유지하며 두개의 매핑을 동시에 학습하는 네트워크 입니다.

하지만 cycle-consistency의 문제를 완화하기 위해 break the cycle을 시도하고 있으며 대표적인 네트워크가 CUT 입니다.

CouncilGAN

council loss와 함께 두개 이상의 Generator, Discriminator을 사용합니다.

⭐️ 본 논문에서는 CycleGAN, CUT의 장점을 모두 활용합니다. 특히 mutual information maximization을 통해 cycleGAN 아키텍처를 기반으로 한 양방향 unsupervised image-to-image translation이 가능하도록 합니다.

[글또 6기] 글또 6기를 시작하며

Waterbottle — Sun, 1 Aug 2021 22:33:38 +0900

1. 참여 계기

본인의 생각을 글로 다듬어 작성하는 일들은 쉽지 않다고 생각됩니다. 그래서 꾸준히 블로그를 작성하려고 노력한지 어느덧 9년이라는 시간이 흘렀습니다. 하지만 아직 부족함이 많고 특히 학문적인 내용에 대한 글들을 다른 사람들이 볼 때 쉽게 이해할 수 있도록 잘 정리를 한다는 것은 정말 어려운 일인거 같습니다.

그때 글또라는 커뮤니티(?)을 알게 되어 글또 4기부터 지금가지 참여를 하게 되었습니다. 4기때는 그래도 나름 열심히 활동을 했지만 5기때는 활동을 거의 하지 못해서 아쉬움이 많이 남았습니다. 그래서 이번 6기때는 더 나은 글과 더 나은 패드백을 드리기 위해 좀 더 많은 시간을 투자하고 싶어 참여를 신청하게 되었습니다.

2. 얻고 싶은 것.

첫째, 글을 작성할 때 전달하고자 하는 내용을 확실하게 전달할 수 있도록 글을 작성하는 능력을 기르고 싶습니다. 블로그 글을 정말 잘 쓰시는 분의 글을 읽어보면, "이건 어떤 내용을 전달하고자 하는 글인지 알겠다!" 라고 바로 생각이 드는데 제가 생각했을때 제가 작성한 글은 아직 많이 부족하다고 판단이 되어... 전달하고자 하는내용을 잘 전달할 수 있는 글을 작성하고 싶습니다.

둘째, 주로 논문 리뷰에 대한 글을 많이 작성할 계획인데, 이번 글또 확동을 통해서 많은 논문들을 읽고 잘 정리하고 싶습니다.

3. 글쓰기 계획

논문 리뷰와 동시에 코드 리뷰 진행.

논문에 대한 핵심 내용들 위주로 잘 정리해서 글을 작성하고 추가적으로 핵심 내용에 대한 코드도 같이 리뷰를 해보고 싶습니다.

선형대수 정리.

AI 연구를 진행하다 보면 수학이 정말 중요하다는 것을 다들 느끼고 계실 것 입니다. 제가 부족한 부분중 하나가 수학이라 다시 기초부터 공부해서 정리 후 글을 작성할 계획입니다.

잘 부탁 드립니다!!

글또 5기 회고록

Waterbottle — Sun, 2 May 2021 23:33:05 +0900

글또 5기를 시작했을 때 나의 다짐

글또 4기때 나름(?) 열심히 해서 좋은 글들을 읽고 쓰기도 많이 썻었습니다. 그래서! 이번 5기때는 4기때보다 더 열심히 해야겠다!! 보증금을 전액 다 받아야겠다!!! 라는 목표와 다짐으로 5기 참여를 하게 되었었습니다.

이번 글또 5기때 다짐을 다시 한번 정리를 해보면

보증금 전액 환불 받기
많은 논문을 읽고 이해하기 쉽도록 리뷰글 작성하기.
티스토리에서 깃허브 블로그로 이전하기.
글을 작성할 때 논리적으로 작성하기.

하지만...

글또 4기때는 나름 글도 많이 쓰고 피드백도 꾸준히 해드렸지만 글또 5기때는 글도 거의 작성 못하고 활동을 거의 못했던거 같아 아쉬움이 많이 드내요...

요즘은 어덯게 살고 있나?

글또 5기 활동을 하는 도중 드디어 석사 학위 졸업을 하고 교내에서 진행하는 학회(?)에 상도 받게 되었습니다. 또 좋은 기회로 의료 스타트업에서 제 석사 학위 연구 주제를 살려서 일을 진행하고 있습니다.

회사에서 아주 좋은 경험들을 많이 하고 있는데 제가 회사를 다니며 좋다고 생각된 점들은 다음과 같습니다.

Git으로 코드 버전 관리와 협업하기
Docker container 환경으로 개발하기
내가 공부하고 연구한 내용에 있어서 궁금한 점이 있으면 좋은 피드백을 받을 수 있다는 점.

앞으로느 어떻게 살것인가?

글또 5기가 종료되는 오늘을 기준으로 저는

티스토리에서 github blog로 이전해서 많은 글을 작성해가며 정리하는 삶을 살 것 입니다.!!

티스토리 스킨도 마음에 안들고.. 마음에 드는 스킨은 다 github blog에 있고, 뭔가 티스토리에 블로그 글 쓰는 맛을 잃어버려서 글을 안쓰게 된거 같습니다. (핑계핑계..) 그래서! 이제 github blog로 이전에서 기록하며 정리하는 삶을 살 것 입니다.

첫 사회생활을 지금 회사에서 하고 있으니 자기 개발을 더 열심히 해야겠습니다.

글또에 참여하신 분들은 대부분 직장인으로 알고 있습니다. 정말 일 다니면서 블로그에 글을 작성하는게 쉬운 일이 아니라는것을 이번 활동을 통해서 느끼게 되었습니다. 조만간 환급받을 보증금을 저에게 주는 채찍으로 생각하고 자기 개발에 투자를 많이 해야겠다는 자극을 받았습니다.

글또 6기에 지원한건데...받아주시겠죠?

[MemAE]Memorizing Normality to Detect Anomaly: Memory-augmented Deep Autoencoder for Unsupervised Anomaly Detection -1

Waterbottle — Sun, 7 Feb 2021 22:32:55 +0900

1. Abstract

정상 데이터를 이용하여 Autoencoder(AE)을 학습하면 정상보단 비정상 데이터에 대해 더 높은 재구성 오류(reconstruction error)을 얻게 됩니다. 하지만 AE는 일반화(Generalization)가 잘 이루어진다는 특징이 있어서 비정상 데이터가 입력되어도 정상을 재구성 해야하지만 결함이 있는 부분까지 포함하여 재구성 하는 경우가 발생하게 됩니다.

이런 AE기반 이상 탐지(Anomaly Detection)의 한계점을 개선하기 위한 해결책으로 메모리 모듈(memory module)을 사용하여 AE을 augmented 하는 방법인 MemAE을 이 논문에서는 제안하고 있습니다.

방법은

(1) 입력 $\mathbf{x}$가 주어지면 MemAE는 먼저 Encoder을 통해 인코딩된 $\mathbf{z}$을 얻습니다.

(2) 그 다음 입력된 이미지 중 메모리 모듈에서 정상 패턴인 부분에 해당하는 항목을 검색한 후

(3) 이를 query로 사용하여 $\mathbf{\hat{z}}$을 얻고

(4) 이를 Decoder을 통해 재구성 하는 방법입니다

학습 단계에서는 정상 데이터에 대한 메모리 내용(memory content)을 메모리 모듈에 기록하도록 학습이 진행됩니다.

테스트 단계에서는 학습된 메모리의 weight는 더이상 업데이트 되지 않도록 고정되고 테스트할 query가 주어지면 정상 데이터에 대한 memory record을 기반으로 재구성이 이루어집니다.

2. Introduction

2-1. AutoEncoder을 이용한 Anomaly Detection의 한계점

이상 탐지(anomaly detection)에서 AE는 정상 데이터의 reconstruction loss가 최소화 되도록 학습하며 테스트 과정 때 입력된 정상 데이터는 reconstruction loss가 낮고 비정상 데이터는 reconstruction loss가 커진다 라는 개념을 가정합니다.

하지만 이런 가정은 모든 상황에서 무조건 유효하지 않을 수 있습니다. 왜냐하면 AE는 general하게 학습되는 경우가 일반적이며 입력된 데이터를 그대로 복원하려는 성질을 갖고 있어서 비정상 데이터가 입력 되면 그대로 결함이 있는 상태로 재구성 하려는 성질을 갖고 있습니다.

그래서 소개하고 있는 MemAE 논문에서는 결함이 포함된 상태로 재구성 하는 문제점을 해결하기 위해 정상 데이터를 인코딩할 때 정상 데이터에 대한 메모리를 얻은 후 이를 기반으로 해서 정상 데이터를 생성하는 메모리 모듈(Memory Module)을 추가한 MemAE(Memory-augmen ted Deep Autoencoder)을 제안하고 있습니다.

2-2. Memory Module

인코딩된 vector $\mathbf{z}$을 Decoder에 직접 전달하지 않고 (그림 1)와 같이 Memory module에서 입력 데이터를 기반으로 가장 관련성이 높은 메모리 항목을 검색한 후 $\mathbf{\hat{z}}$을 query로 사용하여 Decoder에 전달 합니다.

그림 1.

3. Memory-augmented Autoencoder

그림 2. MemAE의 전체 흐름도

3-1. Memory module with Attention-based Sparse Addressing

이 논문에서 제안한 Memory Module의 구성 요소를 정리 해보자면 다음과 같습니다.

soft addressing vectors $\mathbf{w}$: 입력된 데이터의 패턴을 Memory Address에 기록하는 vectors
attention-based addressing operator: 데이터의 패턴이 기록된 Memory Address에 접근하기 위한 연산자

3-1-1. Memory-baed Representation

입력 데이터를 기반으로 인코딩된 query $ \mathbb{Z} \in \mathbb{R}^C $가 주어지면 입력 데이터의 패턴을 Memory Address에 기록하기 위해 soft addressing vectors $ \mathbf{w} \in \mathbb{R}^{1 \times N}$을 얻습니다.

그 다음 Memory $\mathbf {M} $에 접근한 후 $\hat{\mathbf{z}}$을 얻게 됩니다. 이 과정을 식으로 표현하면 다음 수식과 같이 표현 됩니다.

$$ \hat{\mathbb{z}} = \mathbb{w}\mathbf{M} = \sum_{i=1}^N {w_i,m_i,} $$

이 논문에서는 단순 인코딩된 vector $\mathbf{z}$을 바로 디코더에 넣는게 아니라 위와 같은 과정을 거친 후 얻어진

$\mathbf{\hat{z}}$을을 디코더에 입력하여 정상 패턴만 갖고 있는 데이터를 재구성 해야 하는게 최종 목표입니다. 그러면 세부적으로 어떤 과정을 거쳐가며 위와 같은 과정이 이루어지는지 살펴보도록 하겠습니다.

3-1-2. Attention for Memory Addressing

메모리 모듈 $\mathbf{M}$은 학습 데이터의 정상 패턴(normal pattern)을 기록하도록 이루어져 있습니다. 정상 패턴을 기록하는 방법은 위에서 soft addressing vectors $\mathbf{w}$로 한다고 설명 드렸습니다. 이 과정을 좀 더 세분화시켜 정리를 하면 다음과 같이 정리를 할 수 있습니다.

(1) 데이터를 인코더에 입력으로 주어 인코딩된 vector $\mathbf{z}$을 얻습니다.

(2)$\mathbf{z}$을 memory addressing 체계를 사용하여 정상 패턴을 기록합니다.

(3)그 기록된 공간을 content addressable memory로 정의합니다.

(4)softmax 연산을 통해 데이터 패턴을 기록하는 weight $w_i$을 계산합니다.

이 과정을 수식으로 나타내면 다은과 같이 정의됩니다.

$$ w_i = \frac{\exp{(d(\mathbf{z}, \mathbf{m_i}))}}{\sum_{j=1}^N {\exp (d(\mathbf{z}, \mathbf{m_j}))} }$$

정상 패턴을 기록하는 weight $w_i$을 얻는 수식에서 $d(.,.)$형태로 된 수식은 similarity measurement을 나타내며 이 논문에서는 cosin similarty로 정의했으며 수식은 다음과 같습니다.

$$d(\mathbf{z}, \mathbf{m_i}) = \frac{\mathbf{z} \mathbf{m_i^T}}{\parallel \mathbf{z} \parallel \parallel \mathbf{m_i} \parallel}$$

정상 패턴을 기록하는 부분은 (그림 3)에 표시된 부분입니다.

그림 3. 정상 패턴을 기록하는 방법에 대한 부분

위 과정을 거치므로써 메모리 모듈 $\mathbf{M}$은 $\mathbf{z}$와 가장 유사한 메모리 항목을 검색하여 $\mathbf{\hat{z}}$을 얻게 됩니다.

3-1-3. 적은 수의 memory items 정상 데이터를 재구성 하다.

3-1-2절에서 소개한 방법 중 정상 패턴을 memory addressing 체계를 사용하여 기록하는 과정은 메모리 크기가 무한대로 큰 공간에 기록하는게 아니라 제한적인 메모리 크기를 갖도록 미리 제한을 걸어둡니다.

이렇게 메모리 크기를 제한해둔 상태면 그만큼 정상 패턴에 대한 items도 많이 부족해서 정상 데이터로 재구성할 수 없게 된다는 생각이 들 수 있습니다. 하지만 이 논문에서 소개하고 있는 sparse addressing technique을 사용해서 적은 수의 정상 패턴이 기록된 addressing memory items만으로도 효과적으로 Decoder을 통해 정상 데이터를 재구성할 수 있게 됩니다.

3-1-4. attention-based addressing의 한계점

attention-based addressing 방법을 사용하면 정상인 부분을 효과적으로 잘 재구성 하게 됩니다. 하지만 세부적이고 미세한 결함인 부분들도 함께 재구성될 수 있게 됩니다.

그래서 이를 해결하기 위해 hard shrinkage operation을 사용하여 $\mathbf{w}$의 sparsity을 높입니다.

그림 4. 미세한 결함 부분을 제거하기 위한 Hard Shrinkage 작업

3-2. Hard Shrinkage for Sparse Addressing

Hard Shrinkage operation을 사용하는 이유는 (그림 3)와 같이 attention-based addressing 까지만 이용한 상태의 weight $\mathbf{w}$을 이용해서 재구성을 하면 미세한 결함 부분들을 포함한 상태로 재구성이 된다는 한계점이 있었습니다.

그래서 이를 해결하고자 hard shrinkage operation을 적용하여 $\mathbf{w}$의 sparsity을 높여서 한계점을 극복할 수 있습니다.

이 과정은 (그림 4)와 같으며 shrinkage operation의 수식은 다음과 같습니다.

$$ \hat{w}_i = h(w_i ; \lambda) = \begin{cases} {w_i}, & \mathbf{if} \ w_i > \lambda , \\ 0, & \mathbf{otherwise}, \end{cases}$$

위 수식에서 $w_i$는 attention-based addressing과정 이후 $\hat{w}$을 지정하는 메모리의 i번째 항목을 나타내며 $\lambda$는 shrinkage threshold value을 나타내는 Hyper parameter입니다.

실제로 코드를 구현할 때 threshold $\lambda$는 1/N ~ 3/N 간격으로 설정하면 최적의 결과를 얻을 수 있다고 논문에 나와있습니다.

또한 식에서 discontinuous function의 backward을 구하는 것은 쉽지 않으므로 이 논문에서는 단순화를 위해 $w$의 모든 항목이 음수가 아니라는 점을 고려해서 continuous ReLU activation function을 사용하여 Hard shrinkage을 재정의 하게 되었습니다. 그 수식은 다음과 같습니다.

$$ \hat{w}_i = \frac{max(w_i - \lambda, 0) \cdot w_i} {|w_i - \lambda | + \epsilon} $$

위 수식에서 $ max( . , 0) $는 ReLU activation function 이므로 그 값은 매우 작은 scalar 입니다.

shrinkage후 $\hat{\mathbf{w}}$을 $\hat{w_i} = \hat{w_i} / \parallel \hat{\mathbf{w}}\parallel_1 $로 re-normalize 합니다. 그러면 latent representation $\hat{\mathbf{z}} = \hat{\mathbf{w}}\mathbf{M}$을 얻게 됩니다.

4. 학습 방법

4-1. Reconstruction Loss

$$ R(\mathbf{x}^t, \mathbf{\hat{x}}^t) = \parallel \mathbf{x}^t - \mathbf{\hat{x}}^t \parallel _{2} ^2 , $$

4-2. Entropy Loss

shrinkage operation 외에 학습 중 $\mathbf{\hat{w}}$에 대한 sparsity regulartizer을 최소화 합니다.
$$ E(\mathbf{\hat{w}}^t) = \sum_{i=1}^T {-w_i \cdot log(\hat{w}_i).}$$

4-3. Total Loss

$$ L(\theta_e, \theta_d, \mathbf{M}) = \frac{1}{T} \sum_{t=1}^T (R(\mathbf{x}^t, \mathbf{\hat{x}}^t) + \alpha E(\mathbf{\hat{w}}^t)), $$

논문에서 실험해본 결과 $\alpha = 0.0002$가 가장 좋은 결과를 얻는다고 합니다. 또한 학습중 Memory module $\mathbf{M}$은 backpropagation & Gradient Descent을 통한 최적화가 진행 되었습니다.

GAN을 이용한 효율적인 Anomaly Detection 방법 [f-AnoGAN vs MemAE]

Waterbottle — Sun, 10 Jan 2021 22:53:37 +0900

Unsupervised Learning 방법으로 GAN을 이용한 Anomaly Detection 방법 중 Encoder 부분을 이용한 f-AnoGAN 방법이 있습니다. 이 방법은 효율적으로 Anomaly Detection을 잘 하지만 미세한 결함을 제대로 검출하기 힘들다는 한계점이 있습니다. 본 글에서는 f-AnoGAN의 특징들과 단점에 대해 간략히 소개를 하고 그 해결책에 대한 내용을 간략하게 정리해보기 위한 글 입니다.

비교를 할 논문은 아래와 같습니다.

f-AnoGAN

참고 링크

blog.promedius.ai/f-anogan-fast-unsupervised-anomaly-detection-with-gan/

Github tutorial

github.com/mulkong/f-AnoGAN_with_Pytorch

f-AnoGAN의 학습 방법은 GAN 학습, Encoder 학습으로 총 2가지 step으로 이루어집니다.

f-AnoGAN을 이용한 Anomaly Detection 방법 Framework

GAN 학습

정상 데이터로만 GAN 학습을 진행합니다. GAN이 잘 학습이 되었다면 정상 데이터에 대한 학습 분포를 기반으로 학습이 이루어져 정상 이미지만을 생성할 가능성이 높아집니다.

Encoder 학습

GAN이 잘 학습 된 상태라면 이제 입력된 query data에 대해 Latent space mapping을 위한 Encoder 모델 학습을 진행합니다.

이와 같은 방식으로 진행한 이유는 query data(정상/비정상) 중 정상 데이터가 입력되면 Encoder을 통해서 정상 query data에 대해 latent space mapping된 Z값을 이용하여 Generator에 Z가 입력되게 됩니다. 그러면 Generator는 query data에 대한 정상 데이터를 생성하게 됩니다.

반면 비정상 query data가 입력으로 주어지면 Encoder는 query data에 대한 Feature을 추출해서 Z값으로 만든 후 비정상 query data의 Feature을 Generator에 입력으로 주어지면 query data을 기반으로 한 이미지가 생성됩니다.

GAN은 정상 이미지로만 학습이 진행되어 정상 이미지만을 생성하려고 할 것 입니다. 따라서 비정상 query data의 모양, 질감, 형태와 동일하지만 정상 상태로 이미지를 생성하게 되어 이상 탐지(anomaly detecTion)을 수행합니다.

단점

일반적으로 AutoEncoder을 이용한 Anomaly Detection을 진행하다보면 AutoEncoder의 특성상 일반화(Generalization)을 너무 잘 해서 정상만 생성하도록 해야하는데 비정상까지 재구성하게 되어 미세한 결함을 제대로 찾기 힘들다는 단점이 존재합니다.

해결책

memory module을 사용하여 AutoEncoder을 augment(보강)하는 MemAE(memory-augmented autoencoder) 방법을 사용.

MemAE

MemAE의 핵심 내용은 AutoEncoder가 너무 general하게 학습 되는 경우가 발생하여 정상 뿐만 아니라 간혹 비정상의 결함 부분 까지 포함하여 생성하게 된다는 단점이 존재하니 이를 해결하기 위해 정상 데이터을 Encoding할 때 정상 데이터에 대한 memory을 얻은 후 이를 기반으로 해서 정상 데이터를 생성하는 방법입니다.

제안된 MemAE을 통한 Anomaly Detection 방법.

학습 단계에서 memory는 정상 데이터에 가장 관련성이 높은 메모리 항목을 검색하며 데이터를 생성(재구성)하게 됩니다. 테스트 과정시 정상 데이터에 가장 관련성이 높은 메모리를 고정시킨 후 query data가 입력으로 주어지면 query data을 기반으로 한 정상 데이터를 메모리 기록으로 부터 검색을한 후 이를 기반으로 생성(재구성)이 이루어지게 됩니다.

다음 포스팅할 글은 MemAE 논문에 대해 정리한 글을 작성하도록 하겠습니다.

[Anomaly Detection] Improved anomaly detection by training an autoencoder with skip connections on images corrupted with Stain-shaped noise

Waterbottle — Mon, 21 Sep 2020 18:20:09 +0900

1. Abstract

[산업 현장에서 AE를 활용한 Anomaly Detection]

Industrial vision에서 Anomaly Detection problems은 결함이 있거나 없는 arbitrary image를 clean image에서 mapping하도록 훈련된 AutoEncoder를 사용하여 해결할 수 있습니다.

[skip-connections이 있는 AutoEncoder(AES)를 사용한 이유]

이 접근 방식에서 Anomaly Detection과정은 개념적으로 본다면 reconstruction residual 또는 reconstruction uncertainty에 의존합니다. 공통적으로 sharpness of the reconstruction를 높이기 위해 skip-connections이 있는 AutoEncoder를 고려하게 되었습니다.

[AES + Stain noise model 제안]

Reconstruction 과정 중 clean image가 나오게끔 하기 위해서 train image의 Clean image만 학습으로 진행하는 전략은, reconstruction을 담당하는 Network가 입력하는 대로 출력을 해버리는 identity mapping으로 수렴 되는것을 방지하기 위해 Noise model로 train image를 손상시키고 출력으로 Clean image가 나오도록 하는 목적으로 Stain noise model을 추가 할 것을 제안합니다.

[우리가 사용한 모델 짱짱 → AES+Stain model]

이 모델을 실제 결함 모양에 관계없이 임의의 실제 이미지에서 깨끗한 이미지를 재구성 하는 데 유리하다는 것을 보여줍니다.

[우리가 가라로 안했다는것을 증명하기 위해 이런 데이터셋으로 진행했다]

우리의 접근 방식의 관련성을 입증하는 것 외에도 우리의 검증은 pixel-wise및 image-wise anomaly detection을 위해 MVTec AD dataset에 대한 성능을 비교하여 reconstruction-based 방법에 대한 일관된 평가를 제공합니다.

2. Methods

[Anomaly Detection의 개요]

Anomaly detection은 Clean(Normal) data의 Distribution에 속하지 않는 다른 데이터들을 식별하는 작업으로 정의할 수 있습니다.

[Supervised Learning으로 하는 Anomaly Detection의 문제점]

Clean(Normal) data에 비해 Defective(Abnormal) data를 수집하는 것은 한계가 있고 만들다 하더라도 Data Imbalance가 발생합니다.

(그림 1) Unsupervised Learning 방법으로 Anomaly Detection 하는 전체 Architecture framework

본 논문은 Unsupervised Learning으로 Anomaly Detection을 해결하는 논문입니다. 다만 이전에 정리했었던 AnoGAN, F-AnoGAN와의 차이점은 Query image가 입력으로 들어오면 그것을 구조는 동일하지만 Normal image로 image generation해주는 방법으로 GAN을 사용했습니다. 그러나 이 논문은 GAN이 mode collapse의 문제점을 지적하고 image generation 해주는 대신 image reconstruction 해주는 AutoEncoder 구조를 사용했습니다.

제 생각이지만 해당 저자는 F- AnoGAN과 AnoGAN의 방법만 인용했지, GAN 모델을 수정한 노력은 없어 보였습니다. 그래서 High resolution을 잘 생성해주는 GAN 모델들을 이용하면 mode collapse 문제는 많이 없어질텐데...좀 아쉽네요

3. Training Step

[Blue box]

아무튼 그림(1)의 모델의 구조를 뜯어보고 해석 해보도록 하겠습니다. 일단 Blue box를 보시면 GAN 같은 경우 Normal image를 generation 해주는 용도로 사용이 되지만, 여기서는 Skip-connections를 사용한 AutoEncoder(AES) 모델을 사용해서 입력 이미지로 query image가 들어오면 그것을 어떤 이미지가 들어오든 Normal image로 reconstruction 해주는 방법입니다.

Stain Model을 사용한 이유는 AutoEncoder는 입력 이미지가 들어오면 그것을 그대로 복원해주는 성질이 있습니다. 근데 Denoising AutoEncoder를 생각해보면 noise가 있는 입력 이미지가 들어오면 그것을 선명한 이미지로 reconstruction해주는 성질이 있어서 일반 AutoEncoder를 사용할때 보다 더 선명하게 reconstruction 해주는 경향이 있습니다.

마찬가지로 해당 논문에서는 얼룩 무늬를 추가해주는 Stain noise model을 이용해서 입력 이미지를 결함이 있는 이미지로 만들어줘서 다시 깨끗한 이미지로 복원될 수 있도록 하는 역할을 가지고 있습니다. 즉, Identity mapping이 안되도록 방지해주기 위해 Stain noise model을 사용하는 것 입니다.

좀 더 자세히 모델을 뜯어보도록 하겠습니다.

(그림 2) Autoencoder Skip-connection Architecture

이 논문에서 사용한 데이터 크기는 256x256인 오직 Clean(Normal) Image로 학습되었습니다. 여기서 bottleneck 구조를 갖는 Skip-connection 을 사용함으로 써 model에 projection한 임의의 이미지로부터 좀 더 선명한 이미지가 reconstruction 된다고 합니다.

AESc 모델 구조를 보면 U-Net과 모양이 비슷하다는 생각이 자연스럽게 들게 됩니다. 그래서 한번 U-Net과 AESc를 비교 해보았습니다.

3-1. AESc vs U-Net

(그림 3) AutoEncoder Skip-connection vs U-Net

이 개념은 Pix2Pix 논문 리뷰 글에서 언급을 했었던 내용입니다. 다시 한번 정리를 해보겠습니다.

AutoEncoder

AutoEncoder는 입력 이미지에서 핵심 Feature들만 뽑는 구조이며 Bottleneck을 갖고 있습니다. Bottleneck 구조를 갖는 모델은 Image-to-Image translation tasks에서 많이 사용되는 구조이며 결과 이미지의 형태들이 급진적으로 변화하는 특징을 갖고있습니다.

Bottleneck 구조를 갖는 AutoEncoder 구조의 장단점

장점: Bottleneck 구조는 갖고 있어서 핵심 Feature를 추출해낼 수 있으며 Domain이 다른 이미지로 변형을 하고 싶을 때 적합하다.
단점: 생성(복원)된 이미지의 Detail이 떨어진다.

Bottleneck 구조를 갖는 AutoEncoder를 사용한 이유

추가적으로 Bottleneck 구조를 갖는 AutoEncoder를 사용한 이유는 Anomaly Detection tasks에서 defective structures를 image distribution에서 제외하는 것은 반복적으로 발생하는 문제라고 합니다. 그래서 Bottleneck 구조를 갖는 AE로 Feature map을 압축하는 과정은 Normal Image를 Manifold에 놓여지도록 reconstruction을 일반화 합니다.

U-Net

U-Net 구조의 특징은 "Skip-connection이 잇다보니 입력된 영상에 대한 detail들이 마지막 layer 까지 잘 전달 된다는 특징"이 있습니다. 그래서 아무래도 AutoEncoder의 결과와 비교해보면 output image quality가 더 좋습니다. 그렇지만 단점도 존재합니다. "Skip-connection은 depth가 거의 없다보니 depth가 어느정도 있는 다른 네트워크 구조에 비해 생성된 결과가 별로"라는 점 입니다.

U-Net 구조의 특징과 장단점

특징: paired된 dataset이 어느정도 비슷한 컨텐츠들이 있는 경우 skip-connection을 많이 사용하는 경향을 보이고 있다.
장점: 처음 detail들이 마지막 layer까지 잘 전달 된다.
단점: skip-connection을 사용해서 depth가 거의 없다.

Bottleneck 구조를 갖는 AutoEncoder에 Skip-connection을 사용한 이유

(그림 2)와 같이 Skip-connections을 사용하면 처음 detail들이 마지막 layer까지 전달되다 보니 reconstruction image가 보다 더 선명해 진다고 합니다. 근데! U-Net에서 Skip-connection을 사용할때는 Decoder 구조에 feature map을 Concatenation해서 사용했지만 해당 논문에선 encoder에서 decoder로 feature map을 Addition 시켜주었다고 합니다.

red box에서 다시 설명을 하겠지만, Skip-connection이 없는 그냥 AE를 사용해서 얻은 reconstruction image를 query image랑 MSE로 loss를 구하면 reconstruction image가 나중에는 결국 blurry한 image로 reconstruction됩니다. 또한 reconstruction loss가 커지게 되어서 엽력 이미지랑 모양이 똑같은 이미지로 복원이 잘 안이루어지게 됩니다.

GAN 말고 AESc를 사용한 이유

위에서도 언급한 내용으로 본 논문에서는 Clean(Normal) image를 복원 시키는 과정에서 GAN의 mode collapse 문제점을 지적하며 GAN 말고 Skip-connection을 사용한 AutoEncoder(AECs) 구조를 사용했습니다.

Anomaly Detection은 Unsupervised Learning으로 접근하고 있으며 그중에 대표적인 방법 중 GAN을 사용 안하는 이유는 딱 3가지 입니다.

mode collapse로 인해 학습 하기가 어렵다.
generative distribution에서 결합 샘플을 제외 못함 -> 이 문제는 AE에서 Bottleneck 구조로 해결.
inference 과정시 query image의 distribution과 latent space에 속하는 가장 유하산 출력 이미지를 생성해야 하는 latent space 속의 latent vector를 찾기 위해서 추가적인 최적화 단계가 필요.

비교를 위해 AnoGAN과 여기서 제안한 방법을 비교해보았는데 당연히(?) 이 논문에서 제안한 방법이 더 잘 나왔다 라는 결과가 나와서 GAN 사용 안하고 AES + Stain Model을 사용한 것 같습니다.

개인적으로 여기서 의문이 드는 점은 AnoGAN의 GAN Architecture는 DCGAN으로 이루어져 있습니다. DCGAN은 mode collapse를 방지할 수 없어서 개선된 모델들이 더 많이 나왔습니다. 근데 굳이 64x64 이미지로 학습을 진행한 AnoGAN과 비교를 하다니.... 의문점이 많다는 생각이 들었습니다.

(그림 4) AE와 AESc 모델 각각 Stain noise model를 추가한 것과 추가하기 전 reconstruction image 결과 비교.

(그림 4)를 보면 AutoEncoder와 Skip-connections를 사용한 AutoEncoder 모델 각각 Identity mapping을 방지하기 위해 넣어준 Stain noise model과 아무것도 안넣어준 경우의 reconstruction image의 결과를 비교한 그림입니다. None의 경우 Identity mapping이 이루어져서 입력 이미지 그대로 출력되어 제대로 결측인 부분들은 감지하지 못합니다. 그러나 Stain noise model을 추가한 결과를 보면 Identity mapping을 방지해서 결함이 있는 이미지가 들어오더라도 구조는 동일하게 가지만 정상인 이미지로 reconstruction하는 것을 볼 수 있습니다. 다만 skip connections을 사용하지 않아서 AE기반인 모델들은 이미지가 blurry하게 나오는 것을 볼 수 있습니다.

AESc를 보면 AE와는 다르게 image가 선명하게 복원되는 것을 볼 수 있으며 Stain model을 사용한 결과가 Identity mapping이 안이루어진 모습을 확인할 수 있습니다.

Train 과정에서 있는 중요 내용들을 다시 한번 요약해보도록 하겠습니다.

GAN의 mode collapse 문제로 AutoEncoder 구조를 사용해서 Normal Image를 reconstruction 하도록 진행.

AE는 Bottleneck 구조를 갖는다. 따라서 Feature map을 압축하는 과정이 Normal Image Manifold에 놓여지도록 reconstruction을 일반화 시킬 수 있다.

AutoEncoder만 사용하면 Identity mapping이 발생되므로 Stain noise model을 사용했다.

AutoEncoder에 Skip-connections을 추가하므로 써 reconstruction image가 blurry하게 복원 되는 것을 방지했으며 U-Net과의 차이점은 concatenation 말고 Addition 시켜주었다는 점이다

4. Test Step

[Red box]

red box에 있는 내용은 test data를 이용해서 inference하는 과정입니다. 여기서 눈여겨 볼 점은 inference할 때 두가지의 전략(Residual-based detection과 Uncertainity-based detection)으로 진행 했습니다.

4-1. Residual-based Detection

Test과정 중 Query image랑 Query image를 기반으로 Clean(Normal) image로 reconstruction된 image와 차이를 계산하는 것 입니다. 이때 사용되는 loss는 L2Norm(MSE)이고, Image-wise 관점과 Pixel-wise 관점에서 이루어 집니다.

• residual(잔차)
→ 모집단에서 추출한 표본둘의 평균(표본평균)과 개별 표본갑 간의 '편차'를 말하지만 주로 '추정오차 (Estimation Error)'와 거의 같음 의미를 지닌다.

• 추정 오차 (Estimation Error)
→ 표본 집단에 기초해 산출된 기대값(추정값)과 확률 시행 결과의 관측값 과의 차이.

Residual-baded detection의 단점과 MCDropout 사용 이유

Anomaly Detection 하고싶은 부분 말고 나머지 뒷 배경과의 대조가 명확하지 않은 경우. Normal Image로 Reconstruction을 해도 reconstruction loss가 충분하게 높지 않게 됩니다. 따라서 MCDropout을 사용해서 prediction uncertainity을 정량화 하여 anomaly detection에 사용합니다.

4-2. Uncertainty-based Detection

Uncertainity-based detection 방법은 Bayesian Estimation에서 나온 개념입니다. Uncertainty(불확실성)는 확률 변수의 분산 크기이며 확률 변수가 얼마나 random한지 측정하는 sclar 값 입니다. 그래서 해당 값은 Bayesian Model을 이용한 Estimation에서 확인할 수 있는데 Bayesian Model의 parameter 수가 많아서 model이 많이 무겁다고 합니다. 그래서 이와 비슷한 효과를 주는 방법에서 Uncertainity를 정량화 하는 방법으로 MCDropout(Monte Carlo Dropout)을 사용해서 Uncertainity를 정량화 한다고 합니다.

그래서 MCDropout으로 추정한 30개의 output image 사이의 variance(분산)으로 추정할 때 훈련중에 볼 수 없는 structures, 즉, 이상징후가 더 높은 불확실성(uncertainties)과 상관성을 갖는 직관에 의존하는 방법입니다. 그래서 해당 논문에서는 AutoEncoder의 layer가 깊어질수록 dropout level 을 증가하면서 [0, 0, 10, 20, 30, 40] 적용한 결과 더 정확한 검출이 얻어지는 것을 밝혀냈다고 합니다.

(그림 5)는 reconstruction residual가 대부분 uncertainty와 상관관계가 있음을 보여주는 그림 입니다.

(그림 5) MCDropout의 중요성을 알려주는 그림.

(그림 5)를 보면 첫번째, 두번째 행은 Stain noise model을 사용하지 않고 AE and AECs networks를 학습한 경우이고 세번째, 네번째 행은 Stain noise model을 사용한 경우입니다. 두가지 경우 공통적으로 test 할 때 MCDropout을 사용 안한 상태로 Residual-based detection과 Uncertainty-based detection한 결과를 나타내고 있습니다.

데이터셋 상황에 따른 Detection 방법 선택

Residual-based Detection은 Reconstruction error threshold를 넘어가면 결함으로 간주하는 원리입니다. AECs가 Normal 한 이미지를 reconstruction을 하도록 학습하는 과정은 결함이 있는 구조를 깨끗한 이미지로 대처하도록 하는 것이 목적이지 그 주변 환경과의 대비를 더 명확하게 주라고 학습을 한 것은 아닙니다. 그래서 reconstruction image가 주변 환경과 대조가 잘 되지 않으면 residual intensities가 낮게 나옵니다.

반면에 Uncertainity-based Detection은 이미지의 구조와 주변 환경의 대비에 의존하지 않는다는게 가장 큰 특징입니다. 따라서 대비가 늦은 결함 이미지의 경우 Anomaly Detection 기능이 향상됩니다.

정리를 한번 해보도록 하겠습니다.

주변환경과 데이터셋 대비가 명확하다
→ Residual-based Detection 전략이 좋다.

주변 환경과 데이터셋 대비가 명확하지 않다.
→ Uncertainity-based Detection 전략이 좋다.

추가적으로 위에서도 언급했다 싶이 Residual-based Detection 전략으로 진행할 경우 AESc + Stain model은 일반적으로 산발적인 반점으로 구성 된 reconstruction residual을 유발하고 낮은 대비를 갖는 데이터셋에 대해 결함을 놓치게 된다. 이런 경우에는 Uncertainity-based 전략이 효과적이다.

5. Conclusion

Query image에서 Normal image를 reconstruction 하는 것을 기반으로 한 anomaly detection 방법을 진행하기 위해서 본 논문에서는 Skip-connection을 사용한 AutoEncoder인 AESc를 기반으로 MCDropout으로 30번 estimated된 reconstruction residual 또는 prediction uncertainity에 의존하여 Anomaly Detection을 진행합니다.

Skip-connections를 Addition 시켜 사용한 AutoEncoder 구조를 사용할 때 장접을 본 논문에서는 입증을 하였으며 Identity mapping이 이루어지지 않도록 train image가 Stain Noise model로 corrupted 시켜서 학습을 진행하였습니다.

또한 본 논문에서 사용된 새로운 접근 방법은 일반 AutoEncoder보다 상당히 잘 MVTec AD Dataset들의 결함들을 잘 검출 해냈으며 AECs + Stain noise model을 사용하여 AutoEncoder와의 Uncertainity-based Detection 전략을 공정하게 비교해냈습니다.

Reconstruction residual과 달리 Uncertainity Indicator는 결함과 그 주변 사이 환경의 대비와는 무관합니다. 따라서 주변 환경과 대비가 뚜렷하다면 Reconstruction residual 전략으로 가고 대비가 뚜렷한 대비가 없다는 Uncertainity 기반 전략으로 Anomaly Detection을 진행하면 됩니다.

또한 Residual-based detection 전략에 비해 Uncertainty-based detection 전략은 Normal한 query image에서 false-positive rate를 증가키시게 되는 단점이 존재합니다.

[CycleGAN] Unpaired image-to-image Translation using Cycle-Consistent Adversarial Networks

Waterbottle — Tue, 18 Aug 2020 16:10:25 +0900

1. Abstract

Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs. However, for many tasks, paired training data will not be available. We present an approach for learning to translate an image from a source domain X to a target domain Y in the absence of paired examples. Our goal is to learn a mapping G : X → Y such that the distribution of images from G(X) is indistinguishable from the distribution Y using an adversarial loss. Because this mapping is highly under-constrained, we couple it with an inverse mapping F : Y → X and introduce a cycle consistency loss to enforce F(G(X)) ≈ X (and vice versa). Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc. Quantitative comparisons against several prior methods demonstrate the superiority of our approach.

2. 사전지식

2-1. GAN

Image-to-Image translation tasks 관점에서 보면 흑백 이미지 사진을 컬러 사진으로 변경 해주는 경우 Generator는 이미지를 실제와 비슷하고 선명하게 생성을 해주는 것이 목적 입니다. 즉, GAN은 이미지의 detail을 담당한다고 볼 수 있습니다. Discriminator는 Generator가 이쁘게 만들어낼 수 있도록 선생님 역할을 담당하여 Generator의 training을 도와주는 역할을 하게 됩니다.

참고 블로그: [GAN] Generative Adversarial Network 정리

2-2. Pix2Pix

Pix2Pix는 GAN의 개념에다가 Image difference 개념을 추가한 것 입니다. 자세한 내용을 이전에 정리했던 블로그 글을 참고해주시기 바랍니다.

참고 블로그: [Pix2Pix] Image-to-Image Translation with Conditional Adversarial Network

3. CycleGAN

3-1. 목표

주어진 dataset이 동일한 구성요소(composition)는 아니고 각각 다른 Style인 경우(=Unpaired Image) 그럴듯한 Image translation을 해보는 것.

Generator가 그림 → 사진 으로 변경할 때 다시 사진 → 그림 으로 복구가 가능한 정도로 바꾸는 것.

(그림 1) Pix2Pix와 CycleGAN 큰 차이점을 비교하는 그림

CycleGAN과 Pix2Pix의 차이점은 생성된 이미지를 다시 원래 이미지로 복구 가능한지 아닌지 입니다. CycleGAN을 공부하다가 든 생각인데, 단순하게 생각을 해보면 Pix2Pix model을 두개 만들어서 A ←→ B 가 가능하도록 해도 될것을 Cycle이라는 개념을 추가하여 CycleGAN이라는 모델을 제안한 것은 그 당시 기발한 아이디어라고 생각이 들었습니다.

이 부분에서 저와 같은 생각이 드신 분들도 많으실거라고 생각을 합니다.

두 모델(Pix2Pix & CycleGAN)의 목표는 Image-to-Image translation입니다. 그렇다면 Pix2Pix에서 사용한 GAN Loss를 CycleGAN에 적용해보면 어떻게 학습이 이루어지는지 알아보도록 하겠습니다.

Pix2Pix GAN Loss를 CycleGAN에 적용하면 어떻게 될까?

Generator이 생성해낸 G(z)가 Discriminator를 속이면(실제 training data와 비슷하게만 보이면 됨) 일반적인 GAN의 역할을 하는 것 이니 적용은 가능합니다. 그러나 다른 부작용이 발생합니다.

❗️ [부작용] 입력으로 사람 이미지가 주어졌다고 생각 해보면, Pix2Pix에서 사용한 GAN Loss를 이용해서 학습한 CycleGAN은 입력 데이터로 무엇이 들어왔든 무시하고 오직 D를 속이기 위해 가이드 없이 학습을 진행하다 보니 전혀 다른 이미지를 생성해낼 위험이 존재합니다.

GAN Loss를 사용하면

입력 이미지의 Style을 무시하며 학습 할 위험성이 존재합니다.
어떤 input data가 들어와도 똑같은 output만 내놓습니다.

이러한 문제로 인해서 CycleGAN에서 Generator은 Discriminator를 속이는 것 뿐만 그림 → 사진으로 바꿀 때 다시 사진 → 그림으로 복구 가능한 정도로 학습은 하는 기능을 담당하는 'Cycle Consistency Loss'를 추가해서 학습을 하게 된다.

Cycle Consistency Loss는 아래 Loss 파트에서 다루도록 하겠습니다.

(그림 2) CGAN Loss + L1 Loss

Pix2Pix와 CycleGAN의 차이점에 대해 간략하게 한번 알아보도록 하겠습니다.

⭐️ Pix2Pix vs CycleGAN

Pix2Pix: G만 학습 시킨다. (Loss는 G에 대한 Loss 1개)

CycleGAN: G랑 F를 동시에 학습 시킨다. (Loss G, F에 대한 Loss 2개)

제 생각이지만... 일반적으로 생각을 해보면 generation image와 input image가 자유롭게 Cycle이 가능하다는 것은 Latent Space가 잘 mapping 된 것이 아닐까? 라는 생각이 들게됩니다. 따라서 mapping이 안되어 있는 흔히 noise라고 불리는 Latent Space 말고 AutoEncoder에 Encoder 부분을 이용하여 Latent Space를 입력 이미지와 Mapping한 후 어느정도 중요한 Feature들을 갖고 있는 Latent Space를 이용하여 GAN 학습을 이어서 하는 방법으로 하면 되지 않을까?? 라는 생각이 들 수 있습니다. (저는 실제로 읽다가 이런 생각이 들었습니다.)

실제로 이러한 방법들은 DiscoGAN(2017), F-AnoGAN(2019) 등 많은 논문에서 적용이 되었습니다. 자세한 내용을 아래에서 다루도록 하겠습니다.

3-2. AE + GAN 구조

AutoEncoder에서 얻은 latent space를 학습으로 이용하는 GAN 구조부터 한번 알아보겠습니다.

(그림 3) AE + GAN

해당 구조를 하면 입력 이미지에 대한 중요한 Feature들을 담고 있는 latent space가 존재하고 그 latent space에서 다시 원래 사진으로 돌아가는 구조입니다. (쉽게 생각해서 Generator가 Decoder라고 생각을 하면 좋을거 같습니다.) 이때 latent space를 우리가 눈으로 확인할 수 없다는 것이 큰 특징 입니다.

3-3. CycleGAN 구조

(그림 4). CycleGAN

하지만 CycleGAN을 보면 input image가 들어가고 중간에 bottleneck 구조를 띈 latent space가 아니라 실제로 우리가 시각적으로 볼 수 있는 사진으로 되어있는 latent space가 target image로 존재한다고 생각을 하면 좋을거 같습니다.

4. DiscoGAN vs CycleGAN

(그림 5). DiscoGAN (https://arxiv.org/abs/1703.05192)

DiscoGAN은 CycleGAN과 2017년도에 나온 동일한 시기에 비슷한 아이디어로 나온 논문 입니다. DiscoGAN(Learning to Discover Cross-Domain Relations with Generative Adversarial Networks)의 전제 논문 제목을 보시면 "Cross-Domain"라고 나와있습니다. 제목에도 나와있다 싶이 (그림 5) 처럼 Domain이 전혀 다른 이미지로 변형(ex, 가방 → 신발, 자동차 → 사람 얼굴)을 해주는 논문입니다. DiscoGAN의 Generator는 Bottleneck 구조를 갖는 Encoder-Decoder 구조입니다. Encoder-Decoder 구조의 특징은 input image의 중요한 feature들만 추출합니다. 이런 bottleneck 구조를 갖는 model은 Image-to-Image translation에서 형태가 급진적으로 변형되는 현상이 발생되게 됩니다. 마침 DiscoGAN의 목표는 Domain을 변형시키는 것(=형태가 급진적으로 변형)이 목표니까 bottleneck을 갖는 Encoder-Decoder 구조가 적합합니다.

그에 비해 CycleGAN은 Domain을 바꾸는 것이 아니라 형태는 그대로 유지하되 그 Style을 변경하는 것이 목표입니다. 그래서 Bottleneck을 갖는 Encoder-Decoder 구조는 맞지 않습니다. (PixPix 정리글 3-1 참고)

CycleGAN 논문에서는 Encoder-Decoder 구조는 맞지 않으니 skip-connection을 갖는 U-Net Archutecture를 이용해서 CycleGAN의 Generator에 적용을 해보았습니다.

5. Architecture

5-1. Generator

U-Net Architecture

Skip-connection 사용

특징 : paired dataset이 어느 정도 비슷한 컨텐츠들이 있는 경우 skip-connection을 많이 사용하는 경향을 보이고 있다.
장점 : 입력 데이터에 대한 detail들이 마지막 layer까지 잘 전달 된다.
단점 : skip-connection을 사용해서 detph가 거의 없다. 따라서 생성된 결과가 별로다.

ResNet Architecture (9 layers)

Residual Block을 사용해 보다 더 효율적으로 Deep하게 쌓을 수 있게 된 네트워크

특징 : Depth도 있고 bottleneck도 없어서 detail도 간직하고 생성 결과 퀄리티도 좋은 편이다.
단점 : bottleneck이 없어서 많은 메모리를 요구하고 그로 인해 learn of parameter 개수가 적어지게 된다.

Encoder-Decoder vs U-Net 구조의 특징 및 장단점은 Pix2Pix 리뷰 글에서 확인하실 수 있습니다.

5-2. Discriminator

PatchGAN을 사용 (참고 blog Link)

(그림 6) PatchGAN의 Discriminator

DCGAN의 Discriminator

이미지 전체를 보고 진짜인지 가짜인지 판별 합니다.

PatchGAN의 Discriminator

이미지 전체에서 Receptive field 크기 만큼 특정 Patch(receptive field) 부분을 보고 그 부분이 진짜인지 가짜인지 판별 합니다..

6. Loss

6-1. GAN이 Training 하기 어려운 이유

Adversarial Loss

→ For the mapping function G : X → Y and its discriminator Dy

(그림 7) Adversarial Loss

Gradient가 Flatten해지는 현상은 X가 Positive일 때 Flatten해져 loss가 0에 가까워집니다. 그로 인해 Vanishing gradients 현상이 발생되게 됩니다. 그래서 Adversarial loss만 사용하는 일반적인 GAN은 Training하기 어려워집니다.

해결 방법

(그림 8) Vanishing gradients를 해결하기 위한 LSGAN Loss

Discriminator의 역할은 진짜를 진짜라고, 가짜를 가짜라고 잘 맞추는 것 입니다. 그래서 진짜일 경우 1에 가까운 값을 내야하고 가짜일 경우 0에 가까운 값을 내야합니다. LSGAN Loss를 사용하면 Vanishing gradients 문제가 없기 때문에 training이 Adversarial Loss를 사용할 때 보다 훨씬 안정적으로 학습이 진행이 되고 생성된 이미지 퀄리티도 훨씬 좋게 됩니다. 또한 GAN 학습 과정 중 불안정하게 학습되는 대표적인 예시인 Mode Collapsing가 발생한다던지 생성된 이미지에 노이즈가 끼면서 생성이 된다던지 하는 현상이 없습니다.

Mode collapsing

mode collapsing은 training data의 확률 분포를 모두 커버하지 못한 경우 다양성을 잃어버리게 됩니다. 그러면 GAN 학습시 loss만 줄이는 목표를 갖고 학습을 하다보니 Generator가 전체 데이터 분포를 커버하지 못하고 특정 부분의 데이터 분포만 커버하며 학습을 하게 될 수 있습니다. (ex, MNIST에서 4만 계속 생성하는 경우가 발생)

해결방안

Feature matching: Fake image와 Real image 사이에 Least Square loss function을 사용한다 (LSGAN의 loss)
mini-batch Discriminator: mini-batch별로 fake image와 real image 사이의 확률분포 거리의 차이를 loss function에 추가해준다.
Historical averaging: batch 단위로 parameter를 update하면 이전 학습은 잘 잊혀지게 되므로 이전 학습 내용을 기억하는 방식으로 학습을 진행한다.

참고자료: GAN - Ways to improve GAN performance

6-2. L1 Loss

L1 loss는 Ground truth Y와 generation image G(z)의 차이 값에 사용되는 중요한 loss function입니다. 왜냐하면 흔히 minmax game이라고 하는 GAN loss만 이용하면 G와 D가 경쟁을 하며 학습을 하다보니 training이 잘 안되는 경우가 많습니다. 이때 L1 loss를 GAN loss와 함께 사용을 한다면 L1 loss가 GAN이 학습을 할 때 Guide 역할을 해주므로써 길잡이 역할을 해주게 됩니다. 이때 detail한 부분들(이미지를 생성한다거나 선명하게 한다는 부분들)은 GAN loss가 담당을 하게 됩니다.

Pix2Pix에서는 입력 데이터가 어떻게 변경하면 될지 정답이 있는 Paired Image-to-Image translations 입니다. 그래서 L1 loss를 사용해서 흑백 → 컬러로 변경 했을 때 진짜 정답인 target image랑 동일해야 한는 정답이 있습니다.

하지만 CycleGAN은 정답이 없는 Unpaired Image-to-Image translations 입니다. 그래서 관련이 없는 이미지를 막 넣어도 된다는 말 입니다. 대표적인 예시로 말 사진을 넣으면 어떤 결과값을 내놓는지는 잘 모르겠지만 반대 방향인 얼룩말 → 말 로 변경을 해주는 네트워크를 훈련시켜서 얼룩말을 말처럼 만들었을 때 다시 말이 얼룩말로 돌아가야 하는지 정답이 있는 상황으로 학습을 할 수 있다.

6-3. Identity Loss

(그림 9) 이미지의 Quality를 향상 시키기 위한 Identity loss

사실 Identity Loss는 써도 그만 안써도 그만 입니다. 다만 좀 더 detail하고 결과물의 quality가 중요하다고 하면 쓰는게 좋습니다. 예를 들자면 모네 그림같은 경우 그 특정 화가의 화풍을 캐치해야하고 명화니깐 이미지 퀄리티도 좋아야 하니 이러한 경우 Identity Loss를 사용합니다.

그럼 간단히 Identity Loss의 장단점에 대해 정리를 해보도록 하겠습니다.

Identity Loss의 장단점

장점 : 생성 결과물의 quality를 중요시 하고 detail한 결과물을 얻고 싶을때 사용하면 좋음.
단점 : Parameter 수가 많아져서 연상량이 많아지게 되므로 학습 속도가 느려지게 된다.

6-4. Cycle Consistency Loss

(그림 10) Cycle이 이루어질 수 있도록 하는 Cycle Consistency Loss

6-5. Total Loss

(그림 11) CycleGAN에서 사용하는 total loss function

7. Details

(그림 12) Seed value 변경에 따른 output 값 차이.

Seed값을 A에서 training한 모델을 두고 Seed값을 B라는 값으로 변경 후 처음부터 다시 학습을 시켜보니 분명 Seed A일때의 Discriminator에서 진짜라고 인식하던 결과물이 Seed B일때는 가짜라고 인식을 해버리는 현상이 발생되게 된다. 즉, Seed 값이 바뀔때 마다 학습이 안정적으로 될 때가 있고 불안정하게 될 때가 있다.

7-1. Solution

Solution 1 (비추)

특징 : Discriminator가 하나가 여러개 모델을 생성한 후 각각 모델에서 나온 값을 평균 내어서 하나의 Generator에 보여주는 방법.
장점 : Seed 값이 바껴도 학습이 안정적으로 진행.
단점 : Discriminator 개수가 많아지다보니 메모리를 많이 소모.

Solution 2 (강추)

특징 : Reinforcement learning(강화학습)에서 사용하는 방법 중 Replay buffer 방법을 사용. [참고 Link]

→ Generator가 만들어준 사진들을 Discriminator에 주기적으로 보여주는 방법입니다. 그러면 과거의 Generator가 지금까지 어떻게 행동했는지 Discriminator가 대응을 해야하기 때문에 훨씬 안정적으로 학습이 이루어지게 됩니다.

→ Discriminator에 주기적으로 생성된 이미지를 보여줄때는 Generator는 Backpropagation 과정은 이루어지지 않고 Discriminator만 이루어 집니다. 그래서 Discriminator가 가짜를 더 잘 구분할 수 있도록 합니다.

장점 : 학습이 안정적으로 진행.

⭐️ 다르게 생각을 해보면 Generator를 여러개 늘리는 방법이라고도 볼 수 있을거 같습니다.

Reference

✔️ Pix2Pix paper [Link]

✔️ PatchGAN Discriminator 뽀개기 [Link]

✔️ Receptive Field Wikipedia [Link]

✔️ CycleGAN D2 youtube [Link]

✔️ CycleGAN paper [Link]

✔️ Patch GAN Discriminator Issue [Link]

✔️ Reinforcement learning Replay buffer [Link]

✔️ GAN - Ways to improve GAN performance [Link]

물공's의 딥러닝

블로그 이사합니다.

이사한 블로그 주소: https://mulkong.github.io

[ViT 시리즈] Vision Transformer 논문 리뷰 보단 메모.

1. 사전 지식

■ Attention mechanism

■ Self-Attention mechanism

■ Inductive bias

네트워크 목적

Inductiva bias란?

■ CNN vs Transformer

CNN

Transformer

2. ViT(Vision Transformer)

■ 특징

■ 학습 과정

학습 순서

■ 학습을 통해 결정되는 Parameter

Classification token

Position embedding

시각화

■ Architecture

Transformer Encoder

■ Attention in Transformer Encoder

Self-Attention

Multi-Head Self-Attention

MLP (1 hidden layer fully-connected layer)

Transformer output

■ 실험적 특징

학습 팁

데이터가 많이 필요하다!

데이터가 많이 필요한 ViT의 단점을 극복한 논문이 DeiT(facebook)

Reference

[생성모델 시리즈] Adversarial Latent Autoencoders

1. Abstract

2. Introduction

3. Preliminaries

3-1. AutoEncoder

Encoder

Decoder

3-2. GANs

3-3. Adversarial Latent Autoencoders

4. Architecture

4-1. ALAE

◼︎ Generator F

◼︎ Generator G

◼︎ Discriminator Encoder E

◻︎ Matching the latent space

◻︎ AE가 GAN처럼 선명한 이미지를 만들 수 없는 이유!

◼︎ Discriminator D

4-2. StyleALAE

◼︎ 개념 정리

◻︎ IN(Instance Normalization)

◻︎ Style Information

[DCLGAN] Dual Contrastive Learning for Unsupervised Image-to-Image Translation

Abstract

Introduction

Cycle consistency

Contrastive Learning을 이용한 Image-to-Image Translation

DCLGAN

정리

Related Work

Supervised methods

Unsupervised methods

Break the cycle

[글또 6기] 글또 6기를 시작하며

1. 참여 계기

2. 얻고 싶은 것.

3. 글쓰기 계획

글또 5기 회고록

글또 5기를 시작했을 때 나의 다짐

요즘은 어덯게 살고 있나?

앞으로느 어떻게 살것인가?

[MemAE]Memorizing Normality to Detect Anomaly: Memory-augmented Deep Autoencoder for Unsupervised Anomaly Detection -1

1. Abstract

2. Introduction

2-1. AutoEncoder을 이용한 Anomaly Detection의 한계점

2-2. Memory Module

3. Memory-augmented Autoencoder

3-1. Memory module with Attention-based Sparse Addressing