[ML/Tabular] GAIN: Missing Data Imputation using Generative Adversarial Nets (Missing Value Imputation)

728x90

GAIN: Missing Data Imputation using Generative Adversarial Nets

Generative Adversarial Imputation Nets (GAIN)

Paper : http://proceedings.mlr.press/v80/yoon18a/yoon18a.pdf

Code : https://github.com/jsyoon0823/GAIN

Generative Adversarial Nets (GAN) 알고리즘을 이용하여 새롭게 고안한 MVI 방법으로 데이터가 없는 missing data 부분을 다시 생성하는 알고리즘

Missing data types

missing data 는 3가지 타입으로 분류될 수 있다.

missing completely at random (MCAR)
- 정말 랜덤으로 나타나는 결측치 (어떤 변수와도 연관성이 없음)
missing at random (MAR)
- 결측치가 오직 관찰된 데이터에만 의존하는 경우 (측정된 데이터와 연관이 있음)
- 예) 센서의 온도가 너무 높으면 해당 데이터 값이 측정이 되지 않는 경우
not missing at random (NMAR)
- 1 & 2 둘다 아닌 경우 (결측치가 측정 데이터 & 결측 데이터와 연관 있음)
- 예) 해당 데이터 값이 너무 높아서 측정이 안되는 경우

본 논문에서는 데이터의 결측치가 MCAR 이라고 가정하고 이론적 결론을 추론한다.

Architecture

본 논문에서 제안하는 GAIN 은 크게 Generator(G), Discriminator(D), Hint Generator(H) 로 이루어져 있다.

위 그림과 같이 해당 논문에서 mask vector M을 사용하여 관측된 데이터와 그렇지 않은 데이터를 나타낸다.

Generator (G)
- G는 실제 데이터 요소들을 보고 missing data를 impute 하여 관측 데이터와 imputed data를 결합한 총 데이터 벡터를 생성한다.
- 원래의 데이터와 mask vector M과 noise variable Z를 input으로 하고, 이들을 이용해 새로운 데이터 matrix 를 output으로 추출한다.
- 즉 위 식(2) 는 G로 부터 생성된 vector를 뜻하고 식(3)는 mask vector에 의해 최종적으로 결합된 vector를 뜻한다.
Discriminatior (D)
- D는 G가 생성한 matrix를 이용해서 어떤 데이터가 실제로 관측된 것이고 어떤 것이 missing value 였는지를 판별한다.
- Generator 로 부터 생성된 데이터가 전체적으로 real 이거나 fake 이던 기존 GAN과 다르게, 생성된 데이터가 부분적으로 fake 라는 점을 유의하여야 한다.
- 즉, 전체 벡터가 아닌 어떤 요소(components)가 real 이고 fake 인지를 판별해야 한다. - 결국 mask vector M을 예측하는 것
Hint (H)
- Discriminator 에 제시되는 추가적인 input으로 D의 분별 과정에 도움을 주는 역할을 한다.
- H를 정의하는 방법에 따라 H에 담긴 M에 대한 정보의 양을 조절할 수 있다.

Objective

D는 자신이 mask vector M을 예측하는 정확도를 최대화 하는 것을 목표하고, G는 D가 M을 예측하는 정확도를 최소화 하는 것을 목표로 한다

위 식(4) 에서 D(X,H) 는 Disciriminator의 결과로 1에 가까우면 해당 요소의 mask 가 1, 즉 실제 관찰된 데이터로 보고, 0에 가까우면 mask가 0, missing data로 본다.
즉, 식(5) V(D,G) 는 M=1 인 요소는 D(X,H) 가 1에 가까울 수록, M=0 인 요소는 1-D(X,H) 가 1에 가까울 수록 (D(X,H) 가 0에 가까울 수록) max가 되므로 D의 분별력이 늘어난다고 볼 수 있고, 반대로 될수록 G가 D의 분별력을 낮추고 있다고 볼 수 있다.
결과적으로 식(7) 처럼 원래의 M과 예측된 M 사이의 loss function 을 최대화 하는 D 최소화 하는 G를 찾으며 훈련시키는 것이다.

Conclusion

해당 논문에서는 다른 MVI 알고리즘 및 다양한 데이터와 비교하여 제시된 GAIN의 알고리즘이 상당히 좋은 성과를 낸다는 것을 결론지었다.

'ML & AI > Paper Review' 카테고리의 다른 글

[ML/Multi-Agent Systems] Interaction Modeling with Multiplex Attention (0)	2023.11.20
[ML/Tabular] CTGAN, Modeling Tabular Data using Conditional GAN Review (0)	2023.08.02
[AI/ViT] Vision Transformer(ViT), 그림으로 쉽게 이해하기 (0)	2023.03.23
[LLM Training] 거대 언어 모델 병렬 훈련 기법들/Large Language Models Parallel Training (1)	2023.02.09
[AI Security] 인공지능 보안 이슈 : 인공지능 시대의 도래, 그로 인해 생겨난 보안 위협과 관련 이슈는 어떤 것이 있을까? (Privacy-preserving AI) (0)	2021.12.27

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

차곡차곡 창고

[ML/Tabular] GAIN: Missing Data Imputation using Generative Adversarial Nets (Missing Value Imputation)

GAIN: Missing Data Imputation using Generative Adversarial Nets

Missing data types

Architecture

Objective

Conclusion

'ML & AI > Paper Review' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[ML/Tabular] GAIN: Missing Data Imputation using Generative Adversarial Nets (Missing Value Imputation)

GAIN: Missing Data Imputation using Generative Adversarial Nets

Missing data types

Architecture

Objective

Conclusion

'ML & AI > Paper Review' 카테고리의 다른 글

'ML & AI/Paper Review' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역