(가) 정의 및 종류
선택바이어스(selection bias)는 전체 중 일부를 분석하면서 발생하는 형태의 바이어스이다. 선택바이어스는 연구의 모든 단계, 즉 연구대상자 파악, 연구대상자 모집, 연구대상자들을 추적 및 정보를 얻는 각 단계에서 발생할 수 있다. 예를 들어 모집단(source population)에서 연구 집단(study population)이 선정될 때 모든 대상자를 선정하지 못하는 경우, 연구대상자의 추적과정 혹은 정보의 결측 상황에서 전체를 대표하지 못할 때도 발생할 수 있다. 역학연구에서 흔히 모집단 전체 구성원을 연구에 모집 혹은 추적하지 못하며, 연구 진행의 편의성과 비용 등으로 대상자의 일부만 포함되는 경우가 발생하기 때문에 선택바이어스에 대한 이해가 필요하다.
선택바이어스는 모든 연구 방법에서 발생할 수 있다. 단면연구 시 연구집단 자체가 전체를 반영하지 못하게 설정하는 경우(예를 들어 휴대폰을 사용하는 사람들만 대상으로 조사하는 경우 비사용자들이 제외), 환자-대조군 연구에서는 집단을 대표하지 못하는 환자군이 선정될 때(예를 들어 특정 병원에 특정 속성을 가진 환자들이 선택적으로 찾아오는 경우), 코호트 연구에서는 대상자들이 노출과 건강 상태별로 공평하게 추적되지 않는 경우(예를 들어 질병 발생에 민감한 노출자들만 추적이 안되는 경우), 체계적 문헌 고찰 시 출판된 논문들만 선정되는 경우(출판 바이어스)에 발생할 수 있다.
건강검진 시에는 자발적으로 참여하는 대상자들이 비참여자들과 건강 및 노출 상태가 다를 수 있으므로 선택바이어스가 발생할 수 있다. 예를 들어 대장암 검사를 받은 사람들의 암발생률과 받지 않은 사람들의 암발생률을 비교할 때 참여자와 비참여자의 속성차이로 인해 집단 내 암발생률은 높을 수도(건강이 나쁜 사람들이 주로 참가할 때) 혹은 낮을 수도(건강관리를 잘하는 사람들이 참여할 때) 있다. 이 외에도 건강 검진 시 발견되는 질병자의 예후는 검진 자체의 효과와는 별도로 검진을 받지 않은 질병자보다 좋게 나타나는 기간 차이 바이어스(length bias)가 나타날 수 있다. 즉 유병자는 전체 발생자 중 살아남은 선택된 일부이며 상대적으로 질병의 심각성이 낮을 가능성이 크기 때문에 발생한다.
완전한 자료를 갖은 세부 집단(결측 없는 집단)이 전체 연구집단(결측 있는 집단)을 대표하지 못하는 경우 자료 결측에 의해 선택바이어스가 발생할 수 있다. 각 연구에서 특정 질문 혹은 정보의 차이에 의해서도 선택바이어스가 발생할 수 있다. 예를 들어 병원 의무기록을 조사하는 경우 자세한 정보를 갖춘 환자는 오래 입원한 경우 그리고 더 심한 질환자들일 가능성이 커서 정보의 결측이 선택적으로 일어날 수 있다.
선택바이어스는 연구의 내용이 생물학적 보다는 역학적 내용(인구 집단적)일 경우 더 중요하다. 생체지표 등을 사용한 생물학적 결과는 비록 전체 인구집단을 대표하지 못하는 결과라고 하더라도 일반화시키는 경우 문제가 적지만, 역학적 내용은 사회 및 생물학적 요인들이 종합된 현상들이어서 인구집단이 누구냐에 따라 일반화에 영향을 받는다. 즉 역학 결과는 어느 인구집단을 대상으로 하느냐에 따라 결과가 달라질 수 있다. 또한 비록 특정 요인과 질병과의 연관성은 일반화할 수 있다고 하더라도, 연관성의 정도(크기)는 집단에 따라 다를 수도 있다.
선택바이어스는 단지 일반화의 문제만이 아니라 내적 타당도에도 영향을 줄 수 있다. 대규모 코호트라고 하더라도 대표성을 확보하지 못한 경우(선택바이어스가 있는 경우) 노출과 질병 사이의 관련성이 왜곡될 수 있다. 따라서 연구집단이 누구를 얼마나 대표하는지 파악하고 만약 선정(selection) 및 소멸(attrition)과 관련된 요인을 파악할 수 있다면 그 변수를 보정하여야 한다.
(나) 기전
모든 선택(selection)이 선택바이어스(selection bias)를 유발하는 것은 아니다. 만약 노출과 질병 상태에 따라 골고루 선택되었다면 산출하고자 하는 역학지표에는 변화가 없다 (오히려 많은 사람을 조사하지 않고 효율적인 방식으로 연구를 수행하는 것은 바람직하다). 반면 노출과 질병 상태에 따라 다른 분포로 선택될 경우 발생한다. 즉 선택바이어스는 선택되는 사람들이 노출과 질병이라는 변수에 어떻게 연관이 되었느냐에 따라 발생할 수도 안할 수도 있다.
그림 6.2.1 모집단과 연구 참여집단에서의 오즈비 산출
그림 6.2.1에서 전체 인구집단에서 오즈비의 참값(ORp)은 왼쪽의 AD/BC이지만 각 집단에서 일부만 선택되므로 실제 관찰된 결과는 오른쪽의 ad/bc이다. 따라서 관찰된 오즈비는 참값의 오즈비에 각 집단별 선택된 확률(예를 들어 Pa=a/A)이 함께 곱해진 형태, (PaPd/PbPc) × ORp가 된다. 이때 만약 선택되는 분율이 질병 상태와는 상관없이 노출에 의해서만 영향을 받았다면(예를 들어 노출자 a, b 모두 90%, 비노출자 c, d가 모두 70%인 경우) 서로 같은 분율로 선택되었으므로(Pa=Pb 그리고 Pc=Pd이며 이는 질병에 걸릴 사람과 안 걸릴 사람 모두 같은 확률로 선정되는 경우) 전체집단에서의 오즈비와 같은 값을 산출한다. 만약 노출상태에 영향을 받지 않고 질병 상태에 대해서만 영향을 받는 경우에도(Pa=Pc, Pb=Pd이며 이는 노출될 사람과 안될 사람 모두 같은 확률로 선정되는 경우) PaPd/PbPc=1이 되는 상황이므로 전체집단에서의 오즈비와 같은 값을 산출한다. 그러나 만약 노출 상태와 질병 상태가 같이 맞물려서 일부만 선정이 될 때는 곱해지는 각 분율의 오즈가 1이 되지 않으므로 선택바이어스가 발생한다(즉 AD/BC가 ad/bc와 다르게 된다). 만약 이 값이 1보다 작으면 원래 위험도를 감소시키는 방향으로, 1보다 크면 원래 위험도를 증가시키는 바이어스를 초래한다.
선택의 과정은 코호트 연구에서의 추적과정에서도 발생한다. 따라서 코호트 연구에서 단지 참여율이 높다는 것은 선택바이어스가 적다는 것을 보증하지는 않는다. 비록 높은 참여율 혹은 추적률을 보인다고 하더라고 노출과 질병 상태에서 추적률에 차이가 날 경우라면 심각한 선택바이어스를 초래할 수 있다. 즉 선택바이어스는 각 인구집단에서 일정 분율만이 연구에 선택됨으로 발생 되는 것이지만, 모든 경우에 발생하는 것은 아니고 연구에 참여할 가능성이 질병과 노출 요인에 따라 독립적이지 못할 때에만 발생한다.
일반적으로 노출 및 질병 발생 여부에 따른 각각의 참여율과 추적률이 알려지지 않은 경우들이 많아 1) 일단 가능한 높은 참여 및 추적률을 유지하는 것이 중요하고 2) 선택 혹은 참여가 노출과 질병에 따라 영향을 받을 것으로 판단되면 선택 바이어스를 파악해야 한다. 만약 선택 확률비(selection probability ratio)값을 알게 된다면(비참여자를 별도로 조사해서 파악할 수도 있다) 관찰된 오즈비가 얼마나 바이어스가 되었는지 산출할 수 있다. 그러나 실제로는 비참여자들에 대해서 잘 모르기 때문에 선택바이어스의 존재는 관찰되기보다는 합리적으로 추론된다.
(다) 파악 및 최소화
선택 바이어스를 줄이기 위한 실질적 방법으로는 참여 의지가 높은 사람들을 우선 대상에 포함하거나, 연구 디자인으로 전향적 코호트 연구를 적용하고, 높은 참여율(추적률)을 달성하기 위해 노력하는 것이다. 만약 추적이 어렵다고 판단된 사람들은 처음부터 코호트에 포함하지 않는 것도 바람직하다(이 경우 선택 바이어스는 대상자 선정 단계에서는 증가시키지만 추적시에는 줄어든다). 그 외에 연구의 주제가 적절하고 연구 주체에 권위가 있으며, 미리 편지를 보내거나 언론의 관심을 유도하고, 지속적 연계를 통해서 홍보하고, 인센티브를 제공하는 등 다양한 전략들이 시도될 수 있다.
선택바이어스를 예방하는 직접적인 방법은 모든 연구디자인과 수행단계에서 비참여를 없애거나 최소화하는 것이다. 그러나 역학연구에서 일정한 비참여는 피하기 어려우며 모든 사람이 참여하였다고 하더라도 자료의 결측이나 세부 분석 대상자가 선정되는 상황이 발생할 수밖에 없다. 따라서 선택바이어스의 존재 여부 및 방향성 등에 대해서 항상 평가하고 최소화하려는 접근이 필요하다. 선택바이어스는 연구 수행 이후 극복할 수 있는 방법이 제한되어 있어 역학연구에서 특히 중요하다. 선택바이어스를 파악하고 최소화하는 방법은 주로 연구자의 통찰력에 의존하며 기존에 도움을 주는 것으로 제시된 몇 가지 방법들은 다음과 같다.
1) 비참여자들의 특성(일반적으로 인구학적 특성)을 파악하여 참여자들과 비교한다. 만약 성별, 연령, 경제수준, 인종 등이 참여 비참여 집단 간 서로 다르면 선택바이어스가 발생될 가능성이 크다. 그러나 이러한 변수들에 차이가 있다고 반드시 선택바이어스가 있다고는 할 수 없으며, 이들 변수가 질병과 노출에 영향을 받느냐가 중요하다. 연구가설과 관련된 주요 특성들이어야 선택바이어스를 유발시키기 때문이다.
2) 비노출군의 질병 발생률을 일반 인구집단의 질병 발생률과 비교하는 것이 선택바이어스를 파악하는 데 도움을 준다. 만약 연구에 참여한 비노출군의 질병 발생률이 일반인구 집단과 비슷하다면 선택바이어스의 가능성이 적다고 할 수 있으며 차이가 크다면 대상자 선정 시 혹은 연구대상자들의 질병 진단 과정에서의 차이 등 바이어스를 의심할 수 있다.
3) 노출에 영향을 받지 않은 질병 발생률을 노출군과 비노출군간 비교함으로써 선택된 집단인지를 평가할 수 있다. 만약 서로 비슷하다면 노출군이 치우쳐서 선택된 집단이라고 보기 어렵고, 다르다면 치우친 선택이었을 가능성이 크다고 할 수 있다. 물론 해당 질병이 실제 노출과 관련된 질병일 수도 있으므로 해석에 주의가 필요하다.
4) 질병 발생이 예측된 경향으로 나오는지를 평가함으로써 선택바이어스가 관여했는지 판단할 수 있다. 즉 성별과 연령 등 일부 잘 알려진 질병 발생 요인들에 따라 해당 연구집단의 질병 양상이 이미 알려진 경향과 비슷한지를 비교할 수 있다. 예를 들어 연령 증가에 따라 혹은 흡연자에서 질병 발생이 감소한다면 선정된 집단이 비정상적으로 선택된 대상자일 수 있다. 이러한 접근은 ‘알려진’ 위험요인의 양상을 확인하는 경우 ‘알려지지 않은’ 영향들에 대한 타당성에 확신을 가질 수 있기 때문에 연구집단이 모집단을 반영하는지를 판단하는 데 도움이 된다.
5) 연구 참여 정도별로 참여자들의 특성을 비교하여 선택바이어스가 얼마나 발생했는지 파악할 수 있다. 만약 교육 수준이 높은 사람들이 더 많이 참여했다면 그리고 이 변수가 질병 및 노출과 관련이 있다면 교육 수준에 대한 정보를 통제함으로써 부분적으로 선택바이어스를 보정할 수 있다. 또한 연구 참여 대상자들에서 선택바이어스가 가장 적을 것 같은 세부 집단을 선정하여 그렇지 않은 집단 간 결과를 비교하여 군간 차이가 적다면 선택바이어스 가능성이 작다고 할 수 있다. 물론 이러한 결과 비교는 선택바이어스뿐 아니라 효과변경, 교란작용 등 다른 요인들도 작용할 수 있어 해석에 주의가 필요하다.
6) 비참여자들에 대한 정보 추정(multiple imputation, inverse probability weighting 등)을 통해서 선택바이어스를 부분적으로 보완할 수 있다. 간접적이고 불확실성 때문에 실제 측정된 값과 같을 수 없지만, 미참여로 인한 정보를 채워줌으로 선택바이어스를 줄일 수 있다. 그러나 실제 관찰된 정보가 아니므로 이러한 접근을 통한 분석은 대체로 민감도 분석의 형태로 제시한다.
(가) 정의 및 사례
콜라이더(collider)는 둘 또는 그 이상의 변수에 독립적으로 원인적 연관성이 있는 변수를 말한다. 콜라이더 바이어스(collider bias)는 콜라이더 변수를 보정함으로서 이 변수와 연결된 다른 변수들 간의 관련성이 왜곡되는 현상을 말한다. 예를 들어 호흡기질환과 근골격계질환과의 연관성 연구에서, 만약 병원에 입원한 사람들만을 대상으로 두 질환의 연관성을 조사한다면 병원 입원이라는 콜라이더 변수가 근골격계 및 호흡기질환 각각에 독립적으로 원인적 연관성이 있으므로(근골격계와 호흡기질환은 병원 입원의 원인변수), 실제 두 질환 간 연관성이 없다고 하더라도 병원 입원이란 변수로 대상자들이 묶이면서(선택 바이어스의 형태로 병원 입원이라는 콜라이더 변수를 보정한 것과 같은 상황이다), 호흡기질환과 근골격계질환의 연관성이 유의하게 관찰될 수 있다(그림 6.2.2).
그림 6.2.2 콜라이더 바이어스 사례
버크슨 바이어스(Berkson‘s bias)는 병원기반 환자-대조군 연구에서 병원 입원 환자가 전체 환자를 대변하지 못해서 발생하는 상황을 말한다. 즉 병원 입원 환자는 일반적으로 다른 건강 문제를 함께 가진 경우가 많아 일반인에게는 서로 독립적인 두 질환이 병원 기반 환자-대조군 연구에서는 연관성을 보일 수도 있다. 예를 들어 만성기관지염을 갖고 있던 사람이 인플루엔자에 걸리면 만성기관지염이 없는 사람이면서 인플루엔자에 걸린 사람보다 입원할 가능성이 크다. 이런 상황에서는 만약 입원한 사람들만을 대상으로 두 질환의 연관성을 살펴본다면 인플루엔자와 만성기관지염은 연관성이 있게 나올 가능성이 크다. 이와 같이 콜라이더 변수가 병원 입원이라는 특정 상황의 선택바이어스를 버크슨 바이어스라고 한다.
비슷한 사례로 당뇨병에 대한 병원기반 환자-대조군 연구에서 피임약 복용과의 연관성이 유의하게 나타날 수 있다. 그러나 이것은 피임약 복용 여성은 그렇지 않은 여성보다 병의원 진료를 받을 가능성이 크며 임상 전 단계에서 당뇨병을 진단받을 가능성이 더 크기 때문에 나타날 수 있다. 즉 두 요인이(당뇨병과 피임약 복용) 일반인구를 대변하지 못하는 데서 왜곡된 결과가 관찰될 수 있다. 반대로 흡연과 방광암과의 연구를 병원 기반으로 실시할 경우에는 연관성 없이 나올 수 있다. 왜냐하면 연구에서 선정된 환자 및 대조군 모두 일반인보다 흡연율이 높을 수 있으며(흡연하는 경우 건강 상태가 비흡연자보다 좋지 않고 따라서 병원에 입원할 가능성이 높기 때문) 흡연과 방광암의 관련성이 과소평가될 수 있기 때문이다.
비만은 일반인에서 사망의 위험을 높이는 인자이다. 그러나 특정 질환이나 병원 입원 환자 중에서는 비만인 경우가 비만하지 않은 경우보다 사망률을 낮추는 것으로 관찰되는 경우가 있으며, 이같은 현상을 비만의 역설(obesity paradox)이라고 한다. 이는 특정 질환이나 병원 입원이라는 변수가 콜라이더로 작용하여 생기는 바이어스로 설명된다. 예를 들어 비만과 흡연은 신장암으로 인한 사망위험요인으로 알려져 있다(흡연은 비만보다도 강력한 위험요인이다). 즉 신장암에 걸려있는 비만한 환자들은 비만과 흡연이란 요인들이 기여한 반면 비만하지 않은 환자들은 흡연에 기인했을 가능성이 높다. 왜냐하면 비만하지 않은 환자들은 비만이 아닌 다른 요인(흡연)에 의해 암이 발생될 가능성이 높기 때문이다. 따라서 비만한 신장암 환자들은 비만하지 않은 신장암 환자들 보다 흡연할 가능성이 상대적으로 낮다. 따라서 신장암 환자들만으로 대상으로 조사한 연구에서는 마치 비만이 신장암 사망의 위험도를 감소시키는 왜곡된 결과가 산출될 수 있다. 이를 인과적 도식으로 표현하면 비만->신장암->사망간의 직접적인 방향성외에 비만->신장암->흡연->사망이라는 길이 열리게 되어 비만과 신장암 사망과의 연관성을 올바로 평가하지 못하게 되기 때문이다.
또 다른 사례로 비만한 당뇨병 환자가 비만하지 않은 당뇨병 환자보다 사망률이 낮게 관찰될 수 있다. 이것은 비만하지 않은 당뇨병 환자의 경우 비만이외의 다른 당뇨병 위험인자를 많이 가졌고 이것이 사망 위험도를 증가시키면 나타날 수 있는 현상이다. 따라서 특정 질환이 있는 군과 없는 군 모두를 포함한 집단에서 질환을 통제하지 않고(즉 일반 인구집단을 대상으로) 비만과 사망과의 연관성을 조사하는 것이 바람직하다.
출생시 체중이 적으면 신생아의 사망률이 높다는 것은 잘 알려져 있다. 그러나 출생시 저체중인 아이들만을 대상으로 연구할 경우 이미 알려진 위험요인의 효과가 오히려 보호요인으로 관찰되는 현상이 나타날 수 있으며 전혀 관련이 없는 요인이 위험요인으로 관찰될 수 있다(출생체중의 역설: birth weight paradox). 예를 들어 산모가 흡연하는 경우 신생아 사망률이 증가하는데 만약 조사대상을 저체중아 집단으로 국한할 경우 흡연이 마치 사망률을 낮추는 것으로 관찰될 수도 있다. 그렇다면 산모가 흡연하는 것이 저체중아인 경우 사망률을 낮출 수 있는 행위인가? 흡연이 사망률을 높임에도 불구하고 이러한 현상이 관찰되는 것은 흡연에 의한 효과외에 체중과 사망에 공통으로 영향을 주는 교란요인(예를들어 선천성장애 등)에 의한 효과가 저체중 집단에서 열리게 됨으로써 발생한다.
비만의 역설은 항상 나타나는 것은 아니다. 연구 대상자들의 특성과 연구 대상 질환에 따라 나타나는 경우도 있고 나타나지 않는 경우도 있다. 또한 비만의 역설에 대한 설명에서 콜라이더는 하나의 요인일뿐 정보바이어스 및 역인과성 등도 비만의 역설을 설명하는데 기여할 수 있다. 이외에도 BMI 자체의 한계, 질환으로 인한 급격한 체중 감소 등 임상적 이유들로 인해서도 가능하다. 따라서 보다 자세한 비만측정정보 및 질병 관련 요인들에 대한 정보들이 연구 설계에 함께 고려되는 것이 필요하다. 분명한 것은 이러한 잘못된 현상을 근거로 인해 비만을 권장해서는 안된다.
이와 관련하여 과보정 바이어스 (overadjustment bias), 즉 불필요한 보정은 단지 불필요한 수고를 추가하는 것을 넘어서 결과값에 바이어스를 초래할 수 있다는 것을 염두해야 한다. 대표적으로 만약 중재변수(intermediate variable, 충돌변수(collider), 도구변수(instrumental variable), 그리고 결과변수의 자손변수(descendant of the outcome)를 보정하는 경우 왜곡된 노출과 결과 값이 산출될 수 있다. 즉 보정하고자 하는 변수가 관심 노출변수(exposure of interest)에 의해 영향을 받는다면 보정할 경우 오히려 바이어스를 초래할 수 있다. 한편 교란변수를 보정함으로 인한 이익이 잠재적인 콜라이더 바이어스 효과보다 큰 경우도 있어 특정변수에 대한 보정 여부는 각 연구별로 신중하게 판단해야 한다.
선택바이어스는 서로 다른 상황에서 해석함에 따라 여러 가지 용어들이 조금씩 다르게 표현되고 있다. 즉 콜라이더 바이어스(collider bias)는 가장 일반적인 용어로서 공통된 효과를 조건화해서 발생하는 현상을 말하며, 선택바이어스(selection bias)는 콜라이더 바이어스 중에서 대상자 선정을 조건화한다는 특별한 형태를 말하며, 버크슨 바이어스(Berkson’s bias)는 선택바이어스 중에서 병원 입원이라는 특별한 형태의 선택 상황을 의미한다 (Berkson bias는 1946년 Joseph Berkson이 일반인구 집단에서는 서로 독립적인 두 질환이 병원기반 환자-대조군 연구에서는 잘못된 연관성을 보인다고 지적한 것에서 유래되었다. 유병자료를 사용할 경우 나타날 수 있으며 발생자료의 경우에는 잘 나타나지 않은다).
(나) 파악 및 최소화
콜라이더 바이어스를 예방하기 위해서는 무엇이 콜라이더 변수로 작용할 수 있을지 사전에 파악하는 것이 중요하다. 이를 위해 연구가설과 관련된 변수들이 공통으로 원인적 연관성을 가질 수 있는 변수들이 무엇이 있는지를 문헌조사를 통해 파악한다. 또한 분석과정에서 특정 변수별로 층화분석하는 경우 한 가지 변수로 묶어줌으로 인해 콜라이더 바이어스가 잠재적으로 발생할 수 있다. 따라서 층화한 변수가 노출과 질병에 공통적으로 관련된 변수인지를 판단하는 것이 필요하며, 만약 잠재적 콜라이더 변수가 파악되었다면 분석과정에서 보정하지 않는다.
각 변수들이 콜라이더 변수의 원인이 되므로 인과적 도식으로 표현 시 화살표의 방향이 각 변수들에서 콜라이더 변수로 향한다. 반대로 교란 바이어스의 경우 교란변수가 각 변수들의 원인이 되므로 화살표의 방향이 교란변수에서 각 변수로 향한다. 교란 바이어스는 교란변수를 보정하지 않을 때 연관성이 왜곡되는 반면 콜라이더 바이어스는 콜라이더 변수를 보정하는 경우에 발생하게 된다. 따라서 특정 변수가 콜라이더 변수인지 교란변수인지를 구별하는 것이 필요하며 이를 위해서는 연구에서 사용되는 각 변수들의 의미를 인과적 차원에서 입체적으로 파악하는 것이 중요하다.
이런 의미에서 원폭 생존자 및 체르노빌 사고 주민 등을 비롯한 일반인구집단에 대한 코호트가 병원에 방문한 환자들을 대상으로 한 CT 연구보다 선택바이어스의 가능성이 적다고 할 수 있다. 왜냐하면 의료방사선 노출 연구대상자들은 병원 이용자들이므로 만약 CT 촬영 및 암 질환과 동시에 관련된 콜라이더 변수가 있다면 바이어스가 발생할 가능성이 있기 때문이다. 따라서 특정 집단 혹은 특정 자료원(특히 병원 입원)에서 연관성을 발견하였다면 콜라이더 변수에 의한 선택바이어스에 대해 주의깊게 점검하는 것이 필요하다.
(가) 정의 및 특성
건강근로자효과(healthy worker effect)는 직업을 가짐으로 인해 나타나는 여러 현상들이 복합된 건강 영향의 특징을 의미한다. 즉 직업군의 건강 수준과 비직업군(일반인구 및 중도에 직업을 중단한 집단)의 건강상태의 차이로 표시한다. 초기에는 주로 사망률을 비교하는 연구에서 언급되었으나 질병의 발생 및 유병률에도 적용된다. 건강근로자효과는 대체로 직업에 종사하고 있는 인구집단이 더 좋은 건강상태를 의미하나 반드시 그렇지는 아닐 수 있다. 예를 들어 일부 농업군과 광부들은 일반인보다 더 나쁜 건강상태를 보고하고 있으며, 여성 직업군의 경우 임신할 수 있는 보다 건강한 사람들이 휴직하거나 직장을 떠나는 경우들이 있어 오히려 직장 여성보다 건강한 경우(unhealthy worker effect)도 있다. 따라서 건강근로자효과의 더 정확한 정의는 일반인에 비해 건강상태가 다른것이라고 할 수 있다.
건강근로자효과는 3가지 특성을 가진다. 첫째는 건강고용효과(healthy hire effect)로서 고용단계에서 장애나 질병이 있는 사람보다 건강한 사람들이 뽑힐 확률이 더 높다. 둘째는 건강근로자 생존효과(healthy worker survivor effect)로서 건강한 사람들이 계속하여 작업을 하고 건강하지 못한 사람은 일을 그만두게 되는 현상이 발생할 수 있다. 즉 고용 시 건강한 근로자가 선택되는 과정뿐만 아니라 고용된 이후에도 건강한 근로자가 계속 선택되는 과정이 나타난다. 셋째는 고용후 시간(time since employment)이 경과함에 따라 직업군의 건강 상태가 점차 나빠진다. 이로 인해 건강고용 혹은 생존효과의 크기가 줄어든다. 건강근로자효과는 이러한 특성들이 종합된 결과로서 다양한 형태로 나타날 수 있다. 즉 건강근로자효과는 작업 혹은 직업에 종사한다는 특성이 건강상태에 미치는 영향을 다양한 차원에서 설명하는 광범위한 용어이다.
건강근로자효과의 발생 여부 및 크기에는 성별, 인종, 사회경제적 수준, 고용 시 연령, 노출 시 연령, 근무 기간, 질병 종류, 사회적 상황 등 여러 요인이 영향을 준다. 일반적으로 건강근로자효과는 다른 질병에 비해 악성종양에서 비교적 적게 나타나며 심혈관 및 호흡기 질환, 내분비 질환 등에서는 상대적으로 크게 나타난다. 또한 사회경제적인 수준이 높은 전문가 직업군에서 건강근로자 효과가 더 크게 나타나는 경향을 보인다. 이러한 현상은 채용조건의 변화(즉 어떤 사람들이 더 잘 뽑히기가 혹은 직장에 오래 근무하는가 등)와 사회문화적 상황에 따라서도 달라진다.
일반인구집단과 비교한 표준화사망비 혹은 표준화발생비는 건강근로자효과를 표현하기 위해 흔히 사용되는 지표이다. 그러나 이들은 작업 중 노출된 유해 인자의 건강위험도를 직접 설명해주는 지표는 아니다. 직업군을 대상으로 일반인구집단과 비교하여 표준화비를 산출할 때 일반적으로 직업을 가진 사람은 일반집단에 비해 건강한 집단이기 때문에(건강근로자효과) 위험물질에 노출되었음에도 질병 위험도에 있어서 실제적인 증가가 없는 것처럼 나타날 수 있기 때문이다.
왼쪽 절단 바이어스(left truncation bias) 혹은 유병 고용 바이어스(prevalent hire bias)는 추적이 이루어지기 전에 노출로 인해 질병이 잘 발생될 수 있는 작업자들이 이미 빠져나가고 상대적으로 건강한 집단이 남아있게 되는 건강근로자효과를 말한다. 예를 들어 원전 종사자 코호트 연구에서 방사선 노출은 작업 초기에 가장 높은 경향이 있으나 만약 수년이 지나서 종사자들에 대한 추적이 시작되었다면(독일과 일본 원전 종사자 연구의 경우) 유병 고용 바이어스의 영향이 상대적으로 크게 나타날 수 있으며, 작업 시작과 추적이 비슷하게 이루어진 경우(프랑스와 한국 연구 등)에서는 상대적으로 덜 문제가 된다. 이를 극복하기 위해 전체 종사자가 아니라 추적이 진행된 이후 종사자들만을(inception cohort) 대상으로 분석하기도 한다.
노출-질병의 인과성 파악에 있어서 건강근로자효과는 선택바이어스 및 교란변수로 작용한다. 즉 직업을 갖고 있는 경우 이미 일반인보다 건강한 사람들이 선택되었을 가능성이 높다. 그리고 직업을 계속 유지하고 있다는 것은 건강상태 및 노출수준과도 연관되어 있을 교란작용의 가능성이 높다. 이러한 요인들은 노출요인으로 인한 건강영향을 대체로 과소평가하는 경향으로 작용해 관찰된 위험도값이 사실이 아닐 수 있다. 따라서 건강근로자효과를 파악하는 것 뿐아니라 예방 및 최소화시키는 것이 중요하다.
건강근로자효과를 최소화하고 파악하고자하는 노출요인과 질병과의 연관성을 위해서는 적절한 내부비교군을 통해 위험도를 산출하고(건강고용효과) 시간의존 고용상태를 보정한다(건강근로자 생존효과). 근무기간을 보정 혹은 층화하여 건강근로자 생존효과를 부분적으로 통제하기도 한다. 그리고 고용후 시간에 따른 변화를 보정 혹은 파악하기 위해서는 추적기간별로 위험도를 산출한다. 또한 각 연도(calendar year)별 질병의 발생률과 노출양상이 다를 수 있으므로 교란변수로 작용할 수 있다. 따라서 직업역학에서는 일반적으로 성과 연령외에도 입적연도, 고용상태, 추적기간등이 보정을 위해 중요하게 고려된다. 그 외에 퇴사한 작업자를 추적하여 건강 상태를 파악하거나, 일반인이 아닌 다른 직업군과 건강 수준을 비교하거나, 최소 근무기간을 설정하거나, 래그 기간을 두기도 한다. 또한 시간에 따라 변화하는 고용상태가 노출과 건강영향간에 교란변수 및 매개변수로 동시에 작용하는 것(건강근로자 생존효과)을 해결하기 위해 통계적 보정 방법을(g-methods)를 적용 한다.
(나) 사례
영국 영상의학과 의사들을 대상으로 한 100년에 걸친 사망률 추적연구에서 낮은 사망 위험도가 보고된 바 있다. 이 논문이 출판된 이후 방사선에 노출되는 영상의학과 의사가 사망률이 낮은 것은 저선량 방사선 노출이 건강에 이롭기 때문이라는 해석이 제기되어 논란이 된 바 있다. 이 집단에서 감소한 위험도 크기가 건강근로자효과로만 설명하기에 충분하지 않은 큰 규모로서 나머지는 결국 방사선 때문일 것이라는 주장이었다. 그러나 방사선 작업자들의 수명이 길다는 것은 원전 종사자뿐 아니라 다른 대부분의 사업장 근로자들에게 발견되는 일반적인 현상이다. 즉 방사선 노출이 수명을 연장하는 것이 아니라 방사선이라는 유해요인에 노출됨에도 불구하고 영상의학과 의사 집단이 가진 사회경제 및 개인적 특성들로 인해 다른 집단보다 낮은 사망률을 가진 것이라고 해석하는 것이 합리적이다.
모든 직업인이 일반인보다 건강 상태가 좋게 관찰되는 것은 아니다. 많은 직업군에서 일반인보다 더 좋은 건강 지표가 관찰되고 있으나 농업인이나 광부 등 일부 직종의 경우 오히려 일반인보다 건강 상태가 더 나쁘게 관찰되기도 한다. 즉 건강근로자효과는 해당 작업을 구성하는 인구집단의 특성과 상황에 따라 다르게 나타날 수 있다. 직업군과 일반인구집단과의 건강 상태의 차이는 특히 직업 및 환경 역학 영역에서 자료 분석과 결과 해석에 있어서 다루어야 할 중요한 주제이다.
건강근로자효과는 특히 의료종사자들을 대상으로 한 직업 역학에서 크게 관찰되고 있다. 국내 방사선관계종사자들도 일반인구 집단과 비교해서 남녀 모두에서 사망률이 유의하게 감소하였다(표 6.2.1). 그러나 건강근로자 효과로 의한 전체적인 낮은 사망력을 보정하게 되면 여러 악성 종양들이 높은 위험도 값을 보였다(상대표준화사망비는 관심 질병의 표준화사망비와 관심 질병 이외의 모든 질병에 대한 표준화사망비의 비로 산출한다). 이러한 결과는 비록 의료인이 일반인보다 건강한 편이지만 특정 질환의 경우 의료인이 갖는 직업 및 생활환경 특성들과 연관될 수 있다는 것을 의미한다.
건강생존자효과를 보정하기 위해서 흔히 근무상태 혹은 기간을 보정한다. 그러나 근무상태가 이전 노출에 영향을 받는다면 교란작용과 동시에 매개변수 및 콜라이더로 작용할 수 있다. 따라서 전통적인 보정방법으로는 충분하지 않아 인과추론에 사용되는 방법 (g-methods 등)이 권장된다. 국내 의료방사선종사자들을 대상으로 한 g-estimation을 적용한 결과 전통적인 방법에서의 결과 유의한 차이를 보인 바 있다. 즉 남성에서 직업적 방사선 노출과 총사망위험도는 약 50%, 암발생률은 30% 증가하였고 여성은 반대의 결과를 보였다. 이는 기존에 남성 종사자를 대상으로 사망력 지표를 사용한 연구결과가 위험도를 과소평가했을 수 있다는 의미로서 건강근로자효과에 대한 보정의 중요성을 강조한다.
표 6.2.1 국내 방사선관계종사자의 표준화사망비와 상대표준화사망비 (남성), 1996-2015