【Writing】 Review analaysis of ICLR papers
Paper
- Batch Normalization Embeddings for Deep Domain Generalization, ICLR 2021 Submission Withdrawn
- Domain Generalization with MixStyle ICLR 21
- Source-free Domain Adaptation via Distributional Alignment by Matching Batch Normalization Statistics, ICLR 2021 rejected
- Source-Free Adaptation to Measurement Shift via Bottom-Up Feature Restoration, ICLR 2022 accepted
Site:
- https://openreview.net/group?id=ICLR.cc/2022/Conference
리뷰들의 공통점과 깨달은점
- 너가 논문에서 “이렇다” 라고 주장/가정 했는데, 그것을 충분히 보장할 만한 증거 / 정당성 (justification) 이 요구된다. → 논문에 적는 문장 하나하나가 소중하다. 문장 하나하나에 무게를 두고 증명가능한, 정당성 주장 가능한 내용만을 적도록 노력해야겠다.
- 너가 논문에서 “이렇다” 라고 주장/가정 했는데, 그것은 말이 안된다. → 논문에서는 정말 확실하고 분명한 표현만 사용해야겠다.
- Novelty가 정말 있는가? 과거에 이런이런 논문이 있었고, 거기서도 똑같은 방법을 사용했다. → 다른 논문에서 이미 사용했던 Method라면, 나의 Method가 과거와의 차이점이 무엇인지, 왜 이 Method를 사용했어야 하는지 주장해야한다.
- 논문을 작성할 때, ‘우리 방법이 최고다, 모두 잘된다’ 를 이야기하는 것은 좋지 않다. ‘약점을 약점 아닌듯이 쓰면서, 다른 강점을 강조하는 능력’ 은 논문 작성에 중요한 스킬 중 하나이다.
- 남들이 생각하지 못한 것을 Visualization 하면 큰 점수를 얻을 수 있다. → 기본적으로 남들이 다 하는 Visualization보다 TransNorm 처럼 생각지도 못한 것을 Visualization 해서 논문에 넣어둔다면, 리뷰어 입장에서 훨씬 신뢰성있는 논문이라는 생각이 든다. 획기적인 Visualization하면 Score가 한 단계 더 올라간다고 믿어라.
1. Batch Normalization Embeddings for Deep Domain Generalization ICLR 21
Reviews
- domain-dependent BN statistics 에 대한 우려가 있다. [1] 논문에 의하면, BN을 ImageNet-pretrained-weight 그대로 freeze하고 ERM으로 Multi source를 학습하는게 가장 좋은 DG 성능을 가진다고 했었는데, (내가 논문에 직접보니 그런 내용 없는데..) 뭐가 더 좋은 성능을 가지는가?
- linear combination of multiple source domains 으로 충분히 Target domain을 커버할 수 있다고 했는데, 증거가 있는가? Alexnet과 같은 다른 Architecture를 사용해도 똑같은 성능 향상을 가져오는가?
- 모든 BN에 Wasserstein distance 모두를 그냥 더하는 방법은, Robust하지 않다. 모든 Layer에 대해서 상대적으로 적절한/정규적인 disistance가 나온다는 보장이 없다. (리뷰어의 의도와 다른 해석이지만, Layer초기 후반에 따라 Weight를 다르게 줄 필요가 있는 것 같다.)
- 논문에서 ‘the unknown target distribution can be recovered’ 라고 주장되었다. 하지만 이것은 Restoring feature distributions에 의해서만 가능한 작업이다. 단지 최종 예측 결과를 Weighted sum 하는 것 만으로는 위의 작업이 일어 난다고 말할 수 없다.
- Main concern은 “novelty and effectiveness” 이다. 과거에 이미 domain-specific BN이 이미 사용되었었다. 또한 실험상으로 other BN methods (IN, IBN) 들과 비교도 있어야 했다.
- Linear combination이 정확했다면, 더 많은 Multi source dataset을 사용해서 Unknowned dataset에서 더 좋은 성능이 나오는지를 파악해볼 수 있지 않았을까? 단점 보단 추천하는 추가 작업으로 말하는 것이다.
- Rating : 4, 5, 4, 6
Reference
- [1] In search of lost domain generalization [정리링크]
- [2] Transferable Normalization: Towards Improving Transferability of Deep Neural Networks, Nips 2019
- [3] Domain-Specific Batch Normalization for Unsupervised Domain Adaptation CVPR2019 [정리링크]
- [4] Matsuura and Harada, Domain generalization using a mixture of multiple latent domains, AAAI'20
- [5] Adaptive Batch Normalization for practical domain adaptation, PR 2018 [정리링크]
2. Domain Generalization with MixStyle ICLR 21
Reviews
- 그림과 실험결과에 대한 설명이 모호하다. 구체적인 설명이 필요하다.
- 아래의 [1,2,3] 논문과 큰 그림은 같다. 특히 [1] 논문의 incremental 하다.
- 더 많은, 충분한 실험이 요구된다.
- MixStyle에 의해서, Seen domain 성능 저하가 우려된다. (A. supple에 seen domain 성능 향상 제시했다.)
- Mixup은 out_label 단에서 interpolate하는 거였다. 논문에서 Mixup과 같은 augment보다 좋다고 했는데 왜 그런지 자세한 설명이 필요한다. 내 생각에 Mixup과 Mixstyle과 비슷한 것 같고 Mixstyle만의 특별한 장점을 모르겠다.
- Semi-sup 에서도 동일한 효과를 내는지 알고 싶다. (A. Semi-sup은 beyond our work 이므로 future experiment 로 남겨주겠다.)
Reference
- [1] Mixup: Better Representations by Interpolating Hidden States. In ICML 2019
- [2] DLOW: Domain Flow for Adaptation and Generalization. In CVPR 2019
- [3] Learning to Optimize Domain Specific Normalization for Domain Generalization. In ECCV 2020.