  • Batch Normalization Embeddings for Deep Domain Generalization

    1. [2] Transferable Normalization: Towards Improving Transferability of Deep Neural Networks, Nips 2019
    2. [4] Matsuura and Harada, Domain generalization using a mixture of multiple latent domains, AAAI’20

1. Transferable Normalization: Towards Improving Transferability of Deep Neural Networks, Nips 2019


  • Unsupervised Domain Adaptation
  • Transferability: 다른 Domain에 적벌한 Model로 쉽고 빠르게 전환될 수 있는 능력
  • Transferable Normalization (TransNorm) 을 사용함으로써, Target에 더 적절한 적응을 하는 모델을 만들 수 있다.
  • Method
    1. domain specific normalization
      • 강압적인 Norm parameter share는 transferability를 저하시킨다.
      • normalization을 각 domain에 맞춰 적절히 수행함으로써, domain shift 영향을 줄이고자 한다. (As the inputs of both domains are normalized to have zero mean and univariance, the domain shift in the low-order statistics is partially reduced.)
    2. Sharing Gamma and Beta
      • zero mean and univariance feature가 norm에 의해서 이뤄졌다면, the identity transform을 통해서 feature를 복구하기 위해서 shared affine parameter를 사용하는게 옳다.
    3. Domain Adaptive Alpha
      • 하나의 feature 안에 각각의 channel 은 서로 다른 특성을 가질 수 있다. 특히 각 channel 마다 다른 transferability를 가지고 있을 수 있다.
      • Distance(Source statistics - target statistics) 를 계산함으로써 해당 channel의 transferability를 비교한다. 만약 distance가 크다면 transferability가 작은 channel 이므로 중요도를 낮춘다. 반대로 distance가 작다면 transferability가 큰 channel 이므로 중요도를 높힌다.
      • Residual (1+α) 형태로 수식이 이뤄져있다. 이것으로 avoid overly penalizing the informative channels.
  • Results
    • UDA기법은 DANN, CDAN 이라는 기법을 활용했고, 거기서 BN을 TransNorm으로 바꿔 사용했다.
    • Classification Task에서 [DANN, CDAN] + BN를 한 것 보다 [DANN, CDAN] + TransNorm 를 한 것이 2~4 정도의 성능향상을 가져왔다.
    • 계산된 α 값에 따른 Visualization 결과도 매우 흥미롭다.

2. Domain Generalization Using a Mixture of Multiple Latent Domains, AAAI 2020


  • Multi Source dataset에는 multiple latent domains가 존재한다. 하지만 지금까지 이것을 고려하지 않고 모델을 그대로 학습시켰다. 이 논문에서는 이것을 고려하여 DG 모델 만드는 것을 목표로 한다.
  • “Intro / Domain-discriminative Features” 부분에서 Feature statistics를 사용해서 pseudo domain label을 만든것을 길게 풀어썼다. 나중에 필요시 참고하자.
  • 웹에서 크로링한 데이터는 Multi Source임에도 Domain label이 존재하지 않다. 이것이 주어지지 않았다는 가정으로 mixture of multiple latent domains을 clustering 한다.
  • 전체적인 Method는 위의 그림 참조.
  • 성능 결과
    1. Pseudo domain label의 갯수(K)를 몇개로 하든, 다른 비교 논문들보다 높은 DG성능을 가지는 모델을 만들어냈다. (전체적으로 K=2일때 성능이 가장 좋다)
    2. Figure3에서 K를 2~14까지 실험한 결과 그래프가 있다. K=2일때 가장 성능이 높다. 이런 약점같은 약점을 논문에서는 아래와 같이 서술했다.
    3. Note that in reality, the number of original domains is three. Based on the results obtained, there is no significant correlation between the number of pseudo domains and the clas- sification accuracy, (하지만) which highlights the robustness of our method to varying numbers of pseudo domains.
    4. 위와 깉은 “나의 약점은 약점 아닌 듯 놔두고, 강점을 강조하는 위와 같은 논문 작성법”을 배워둬야 겠다.

