본문 바로가기

전체 글7

Group Distribution Risk Optimization (Group DRO) 본 게시글에서는 논문 Sagawa et. al.(2020) 을 리뷰합니다. Background 1. 허구적 상관관계 Spurious correlation(허구적 상관관계)란, 관심이 있는 어떤 변수 X와 변수 Y가 존재할 때, X와 Y에 모두 영향을 주는 또 다른 변수(이른바 '혼재변수(Confounding Variable)')로 인해 X와 Y 간에 인과관계가 있는 것처럼 보이는 상황을 의미합니다. 전통적인 통계학과 최근의 머신러닝에서는 Confounding Variable을 없애고 변수 X와 Y 간의 진정한 인과관계를 찾기 위한 다양한 방법을 논의해왔습니다. 예를 들어볼까요? 미국의 흑인 피선거권자 수(변수 \(X\))가 많아질수록, 흑인 인구의 투표율(변수 \(Y\))이 어떻게 변화하는지 예측하는 단.. 2023. 8. 27.
확률분포 조감도 1 (베르누이분포, 이항분포, 초기하분포, 다항분포, 포아송분포) 확률분포는 왜 필요한가? 우리는 보통 어떤 사건의 발생 가능성을 알고 싶을 때 '확률'의 개념을 많이 활용합니다. Frequentist의 입장에서, 확률이라는 숫자에 객관성을 보장하려면 확률실험(Random experiment)을 거쳐야만 하죠. 아래의 3가지 조건을 만족해야 random experiment라고 할 수 있겠습니다. (1) 시행으로 가능한 결과들을 모두 알아야 한다(=표본공간을 정의할 수 있어야 한다). (2) 한 시행의 결과를 딱 한 개로 정확하게 예측할 수 없어야 한다. (3) 동일한 조건에서 동일한 결과가 나오는 시행을 무한 반복할 수 있어야 한다. 사실 (1)과 (2)는 어떻게든 가능하다고 할지라도, 인간의 삶은 유한하기 때문에 (3)이 많은 경우에 불가능합니다. 따라서 많은 경우에.. 2023. 5. 4.
적률생성함수(Moment Generating Function) 이거 왜 쓰니? 확률 분포들을 공부하다보면 항상 등장하지만 눈으로만 훑고 넘어가는 개념이 바로 '적률생성함수(mgf, Moment Generating Function)'입니다. 확률질량함수(pmf, Probability Mass function) 또는 확률밀도함수(pdf, Probability Density Function)를 공부하고 평균과 분산의 식을 본 다음 등장하곤 하죠. \(M_X(t)=E(e^{tX})\)라는 식과 함께 '그렇구나~'하고 넘어가서 제대로 그 뜻을 짚고 넘어가지 않는 경우가 많습니다. 사전지식을 많이 요하기도 하고 식이 너무 복잡하게 생겼기 때문일 겁니다. 하지만 통계학에서 상당히 중요하게 쓰이는 개념입니다. 어떤 확률변수의 분포를 알고 싶을 때, mgf를 구해봄으로써 분포를 정.. 2023. 3. 5.