정보 바이어스(information bias)는 측정하고자 하는 변수들이 원하는 개념을 제대로 반영하지 못해 발생하는 현상을 말한다. 즉 연구 개념과 실제 측정값과의 차이(오류)를 의미하며 연속변수에 대한 오류를 측정오류(measurement error), 범주형 변수에서는 오분류(misclassification)라고 한다. 정보 바이어스는 정보를 취득하는 모든 과정에서 발생하며 여러 종류로 나누어진다. 선택바이어스가 대체로 대상자 선정단계에서 발생하는 반면 정보 바이어스는 선정 이후에 발생한다. 특히 대규모 인구집단에 대해서 정보를 확보하는 역학 연구에서 발생하기 쉽다. 예를 들어 실제로는 방사선 작업에 종사하였지만 작업 시 개인선량계를 착용하지 않은 경우, 선량값에 근거한 평가는 방사선에 노출되지 않은 것으로 잘못 분류할 수 있다. 이러한 정보 바이어스는 실제 방사선 노출과 건강 영향과 연관성을 관찰하기 어렵게 만든다.
정보 바이어스는 연구 디자인에 따라 다르게 나타나, 환자-대조군의 경우 질병 발생 이후 정보를 얻으므로 코호트 연구보다 더 잘 나타날 수 있다. 그리고 오류가 발생하더라도 코호트의 경우 많은 대상자 중 일부에 영향을 주지만 환자-대조군의 경우에는 상대적으로 큰 분율의 대상자에게 적용된다. 또한 환자-대조군 연구의 경우 이미 질병 상태가 정해져 있으므로 바이어스가 차별적으로 발생하기가 쉬우나, 코호트 연구의 경우 정확하게 정보를 얻지 못할 수는 있어도 질병 발생 이전 단계이므로 질병 발생 여부에 따라 차별적으로 정보를 얻게 될 가능성은 적다. 반면 코호트 연구에서는 전체 집단에 대해 같은 진단 방법 및 절차를 수행하지 못 했을 때는 질병을 확인하는 단계에서 정보 바이어스가 발생할 수 있다. 한편 생태학적 오류도 개인과 집단 수준에서 정보의 차이로 인해 발생하는 정보 바이어스라고 할 수 있다.
정보 바이어스와 관련하여 노출 평가를 어느 수준까지 할 것인지는 연구 목적에 따라 달라진다. 예를 들어 임신 시 약물복용 여부에 따른 기형 출산 위험도를 살펴보는 것이라면 단순히 약 복용력 자체를 평가함으로써 측정오류를 감소시킬 수 있다. 반면 약물의 용량과 기형 출산과의 선량-반응 관련성을 살펴보는 것이라면 복용량을 파악해야 한다. 이 경우 노출의 변이를 파악하는 큰 장점이 있지만, 용량이라는 세부 정보를 기억해내는 것에 따른 측정오류의 증가를 감수해야 한다. 즉 측정오류(measurement error)와 노출의 변이(exposure variation) 중 어떤 것에 중점을 둘 것인지는 연구 목적에 따른 판단이 필요하다.
각 변수의 정확한 값을 파악할 수 있는 측정 방법이 적용될수록 노출과 질병 간에 더욱 의미있는 결과를 산출할 수 있지만, 변수가 의미하는 바를 올바로 측정하지 못할수록 노출과 질병 간의 연관성이 왜곡된다. 노출 변수 이외에도 결과변수와 교란변수 등 다른 형태의 변수에 각각 측정오류가 발생한다면 그 영향은 다양하게 나타날 수 있다. 이러한 바이어스는 건강에 영향을 주는 주요 교란변수들을 보정하지 못하는 것보다도 결과를 더욱 크게 왜곡시킬 수 있다. 따라서 관찰된 위험도를 그대로 받아들이기보다는 가능한 오류의 영향 등을 파악하면서 해석하는 것이 중요하다.
(가) 차별적 및 비차별적 오류
정보 바이어스의 형태는 차별적(differential) 또는 비차별적(non-differential) 오분류로 나타날 수 있다. 차별적 오분류는 연구집단에 따라 측정오류가 다르게 발생하는 것을 말하며 비차별적 오분류는 이와 무관하게 오류가 발생하는 것을 의미한다. 즉 비차별적 오분류는 민감도와 특이도가 환자 및 대조군에서 같은 경우를 차별적 오분류는 민감도와 특이도가 환자군과 대조군간에 다른 것을 의미한다. 그러나 대부분의 경우 오분류가 차별적으로 발생했는지 비차별적으로 작용했는지 구분하는 것은 쉽지 않다. 따라서 현실적으로는 연구에서의 분류 값들에 대해 관련 문헌조사를 통해 비교하고 전문가와의 논의를 통해 판단한다.
예를 들어 표 6.3.1와 같이 정보 바이어스가 없을 경우 오즈비는 1.80이었으나(a) 모든 환자군과 대조군이 비차별적으로 10%의 정보가 잘못되었을 경우 오즈비는 1.56으로 감소하게 되며(b), 만약 차별적으로 20%의 비노출된 환자군에서만 분류 오류가 발생하였을 때는 오즈비가 2.40으로 증가하게 된다(c).
표 6.3.1 차별 및 비차별적 측정오류에 따른 오즈비 변화
스웨덴에서 갑상선 암 발생이 진단용 엑스선 방사선 노출과 연관성이 있는지 확인하기 위해 환자-대조군 연구를 시행하였으며, 이때 의료 노출량에 대한 정보는 의료기록과 우편 설문을 통해 파악하였다. 연구 결과 환자군에서 의료기록을 통한 방사선 노출량은 1.1mGy였으나 우편 설문을 통해 파악한 노출량은 0.6mGy였으며, 대조군의 경우 의료기록을 통한 노출량은 1.0mGy, 우편 설문을 통해 파악한 노출량은 0.3mGy였다. 즉 의료기록을 통한 정보는 두 군 비슷하였으나 우편 설문에서의 정보는 차이를 보였다. 따라서 우편 설문에 의한 조사는 두 군 모두에서 방사선 노출량이 과소 평가된 정보 바이어스를 발생시켰으며 그 형태는 대조군에서 더 크게 발생한 차별적 오류 형태였다. 반면 같은 주제의 또 다른 미국과 스웨덴 연구에서는 정보 바이어스가 비차별적으로 발생하였다고 보고한 바 있다. 즉 특정 정보가 차별적 혹은 비차별적 오류의 형태인지는 정해져 있는 것이 아니라 연구집단별로 파악해야 할 내용이다.
만약 노출을 이분형(노출 혹은 비노출)으로 진행한 연구에서 비차별 오분류가 발생하게 되면 대체로(in general) 결과의 연관성이 작아지는 방향으로 작용한다. 그러나 만약 노출의 분류를 여러 범주(분류가 3개 이상인 집단)로 한다면 비차별적 오분류가 발생하더라도 위험도가 작아지거나 커질 수 있다. 이 경우 단지 위험도의 크기만이 아니라 경향성도 바뀔 수 있다. 그리고 생태학적 연구에서 발생하는 비차별적 오분류는 개인 수준에서의 오류의 방향성과는 다르게 나타날 수 있어 이분형인 경우라도 연관성이 과장될 수 있다. 또한 비차별 오분류가 발생하였다고 하더라도 연관성의 크기가 작아지지 않는 경우들도 있다. 따라서 오분류가 1) 차별적 혹은 비차별적인지 구별하는 것뿐만 아니라 2) 결과에 실제로 어떤 영향을 주었을지를 독립적으로 파악하는 것이 필요하다.
(나) 확인 바이어스
확인 바이어스(ascertainment bias)는 건강 영향(결과변수)을 판정할 때 발생할 수 있는 정보 바이어스로서, 질병자를 비질병자로 혹은 비질병자를 질병자로 분류할 경우 발생한다. 질병의 측정은 임상검사, 의사진단, 암 발생 및 사망 등록 정보 등 대체로 객관적 자료를 활용하기 때문에 위험 인자의 노출 평가에서 보다는 정보 바이어스가 덜 문제가 된다. 그러나 노출자에서 비노출자보다 질병을 확인하는 방법의 차이가 있을 때(예를 들어 더욱 정확한 방법을 사용하거나 더욱 자주 검사하는 경우) 확인 바이어스가 발생할 수 있다. 또한 세계보건기구의 질병분류 체계는 여러 차례 변화되었는데 새로운 분류체계를 사용하는 과정에서 기존 질병 및 사망 정의에 대한 바이어스가 초래될 수 있다.
주관적인 증상에 의해 질병이 정의될 때에는(질병 여부를 단지 임상 증상 여부로 판단하거나 개인의 기억 또는 판단으로 질병력을 판단하는 경우 등) 확인 바이어스가 나타날 수 있다. 만약 전체적으로 측정오류가 의심되지만 검정하기 어려우면 중증 질환자만을 대상으로 연구를 할 수도 있다. 왜냐하면 질병의 스펙트럼에서 중증일수록 질병의 정확도가 높아지며, 따라서 측정오류가 적어지기 때문이다. 또한 질병을 하나로 정의하기 어려운 경우에는 몇 가지 범주로(예를 들어 분명한 경우, 가능한 경우, 아닌 경우 등) 나누어 살펴보는 것도 필요하다. 이런 과정을 통해 건강 영향 평가에서의 바이어스를 줄이고 보다 정확한 연관성 지표를 얻을 수 있다. 따라서 미국방사선사코호트(USRT)의 경우 설문을 통해 파악한 암발생 정보를 병원 의무기록 자료를 통해 검증하였다. 한편 원폭 실험에 의해 발생된 방사성 물질의 낙진으로 인한 암발생 영향을 평가하는 연구가 미국 네바다 지역에서 실시된바 있다. 이때 암발생 여부를 인터뷰에 의해 확인하였으며 산출된 암발생 위험도가 매우 높게 (일본원폭생존자 연구에서 1Gy 이상 노출된 경우의 위험도에 해당) 나와 논란이 된 바 있다 (암사망을 등록자료에 근거하여 조사한 결과에서는 전체적인 암사망 위험도는 유의하게 감소하였으며 백혈병 사망은 인터뷰에 근거한 결과보다 적었지만 유의하게 증가하였다).
검진 바이어스(surveillance bias)는 의료 이용을 자주 할수록 해당 질환 혹은 다른 질환이 발견될 가능성이 커짐으로 인해 발생하는 확인 바이어스의 한 형태이다. 어떤 원인에 의해서 조사하고자 하는 노출 요인을 가진 집단이 비노출집단보다 더 검사를 자주 받게 되면 두 군간 질병 발생률이 같더라도 노출군에서 질병자가 더 많이 발견하게 된다. 그 결과 노출 요인과 관계없이 마치 노출군에서 질병 발생이 높은 것처럼 왜곡될 수 있다. 이러한 현상은 의료 이용을 자주 할수록 다른 질환이 발견될 가능성이 큰 것을 의미하며 과진단 바이어스(overdiagnosis)라고도 한다. 이 바이어스는 특히 검진을 많이 하는 질환(예를 들어 갑상선 암, 유방암, 전립선암, 당뇨 등)에서 잘 발견될 수 있다.
예를 들어 일본 원폭 생존자 연구(LSS) 대상자 중 일부만이 2년에 한 번씩 의료 검사를 받는 연구(AHS)에 참여하고 있다. 그런데 전체 LSS 대상자 중 상대적으로 높은 선량에 노출된 경우에 AHS에 많이 참여하였고, 따라서 AHS 참여자들은 비참여자들 보다 더 자세히 질병 확인 과정을 가지는 확인 바이어스가 유발될 수 있었다. 특히 치명적이지 않은 갑상선암과 비흑색종 피부암의 진단 가능성이 AHS 참여자들에서 LSS 집단보다 컸다. 따라서 일본 원폭 생존자 연구에서는 고형암 위험도의 과대평가를 예방하기 위해 AHS 참여 여부 자체를 분석 모델에 포함하여 보정한 바 있다. 이러한 사례는 대규모 코호트 집단과 그 중에서 검진을 많이 받는 일부 집단(subgroup) 간의 결과 차이를 비교하는 다른 역학연구에도 적용될 수 있다.
확인 바이어스는 연구 방법에 따라 선택 혹은 정보 바이어스가 될 수 있다. 예를 들어 환자-대조군 연구에서는 노출된 환자군이 더 많이 병의원 검사를 했다면 선정단계에서의 문제이므로 선택바이어스가 된다. 그러나 코호트 연구에서는 이미 선정된 집단을 대상으로 진행하므로 선택바이어스는 해당하지 않으며, 이후에 이들 중에 노출군이 검진을 더 많이 받는다면 정보 바이어스로 분류될 수 있다. 즉 같은 현상이라고 하더라도 각 연구 디자인에 따라 분류가 달라질 수 있다.
(다) 회귀 희석 바이어스
회귀 희석 바이어스(regression dilution bias)는 처음 측정된 값의 분포가 반복 측정값에 비해 넓어서 노출과 질병과의 연관성에 대한 위험도 크기를 희석하는 것을 의미한다. 이는 나중에 측정한 값들이 처음에 측정한 값보다 평균에 회귀하는 현상(regression to the mean) 때문에 발생한다. 즉 처음에 측정값이 우연에 의해 극단값이 나올 가능성이 있지만, 반복 측정할 때에는 극단값보다는 보통 상태의 값을 가질 확률이 높아져 점차 평균적 값에 회귀된다. 이러한 현상은 측정 오류, 자연적인 변동, 장기간 추세 등에 의해서도 나타날 수 있다.
예를 들어 혈압을 처음 측정 시 자연적 변동으로 여러 범위의 값들이 측정될 수 있다. 그러나 반복 측정시 처음에 극단적으로 나온 값이 반복해서 극단적으로 나올 가능성은 적다(평균적인 원래 값과 비슷하게 나올 가능성이 높다). 따라서 혈압에 대한 질병의 위험도는 첫 번째 측정값에 기초한 경우보다 두 번째 측정한 값을 기준으로 하였을 때 낮아지게 된다. 이를 파악하기 위해서 일부 대상자들에 대해서 다시 검사 후 그 희석 정도를 파악한 후 보정하는 방법을 적용할 수도 있다.
(라) 불멸 시간 바이어스
불멸 시간(immortal time)이란 연구 설계상 사망이나 보고자 하는 질병이 발생할 수 없는 시간을(추적 기간을 의미) 의미하여, 불멸 시간 바이어스(immortal time bias)란 이러한 기간을 분석 과정에서 노출군의 추적기간에 포함함으로(비노출군의 추적기간에는 포함하지 않으므로) 인해 발생하는 결과의 왜곡을 말한다. 예를 들어 코호트 연구에서 추적손실이 일어난 경우를 포함하면 발생률 산출 시 분모의 인년 산출에는 기여를 하지만 분자는 모르는 상태임에도 불구하고 질병 발생(사망)이 일어나지 않은 것으로 간주된다. 이 경우 분모에 해당하는 기간은 연구 참여자를 마치 살아있는 것처럼 간주한 것으로 불멸 시간이 되며, 질병 발생이나 사망이 없기 때문에 위험도는 저평가된다. 따라서 추적손실이 발생한 경우 대상자에 대해서 관찰을 중단(censuring)시켜야 한다. 이처럼 불멸 시간 바이어스는 추적과 관련된 형태에서 발생하므로 코호트 연구에서 대상자들에 대한 추적의 완결성을 높이는 것이 중요하다.
불멸 시간 바이어스를 예방하기 위해서 대규모 코호트 연구에서는 일반적으로 추적 관련 정보가 불분명한 대상자들을 분석에서 제외한다. 그러나 임상적 치료법을 비교하는 소규모 단기간 추적하는 연구들에서는(약물 역학 등) 대상자를 제외하는 대신 각 대상자에게서의 불멸 시간을 파악하여 분석에 반영한다. 예를 들어 갑상선기능항진증 환자들에서 방사성요오드 치료약을 처방한 이후 암발생을 보는 연구를 할 때 갑상선기능항진증 진단과 약물 처방 사이는 불멸 시간이 된다. 왜냐하면 진단과 동시에 약물 처방이 되지 않는 경우가 있으며 나중에 약물 처방을 받기 위해서는 반드시 진단 이후 생존해 있어야 하기 때문이다. 비슷하게 수술후 방사선치료를 받는 경우 방사선 치료를 받기 위해서는 수술후 생존해 있어야 한다. 따라서 방사선치료 이후의 기간이 올바른 추적 기간이며 수술과 방사선 치료 사이의 기간은 불멸 시간은 노출기간에서 제외한다. 즉 환자군에서 진단과 치료 사이의 기간(불멸 시간)을 발생률 산출 시 어떻게 다루느냐에 따라 불멸 시간 바이어스가 발생할 수 있다.
불멸 시간 바이어스를 제거하기 위해서는 1) 치료군에서 불멸 시간을 제외하며, 2) 제외된 시간을 비치료군의 기간에 포함한다. 즉 불멸 시간에서는 분자에 해당하는 사망이나 생존을 파악할 수 없기 때문에 치료군에서 제외한다. 만약 치료군에서 불멸 기간을 포함할 경우 발생률 산출 시 분모에는 이 기간이 포함되지만, 분자에서는 확인할 수 없어서(그 사이에 사망할 수가 없지만 무엇이 일어났는지 확인이 안되는 기간), 사건이 발생하지 않은 것으로 평가되어 추적손실이 분자에서만 발생한다. 한편 치료군에서의 불멸 시간은 본격적으로 치료를 하기 전의 기간이므로 비치료군의 기간에 해당되며, 만약 이 기간을 무시한다면 비치료군에서의 분모가 적어지게 된다. 따라서 이 바이어스는 약제나 치료가 질병을 예방하거나 도움이 되는 것처럼 잘못된 결론을 도출할 수 있다.
불멸 시간 바이어스의 발생 정도는 1) 노출과 추적 시작 간의 간격이 짧을수록 적으며(즉 추적과 동시에 치료하는 경우 불멸 시간이 없다), 2) 노출자의 분율이 적을수록 적으며(대규모 코호트 연구의 경우 상대적으로 비노출군이 많으므로 해당 시간이 적다), 3) 추적 기간이 길수록 전체 기간에 비해 불멸 시간이 희석되어 적어진다.
(가) 측정오류의 평가
측정오류를 평가하는 방식에는 2가지가 있다. 1) 측정값의 평균값이 참값과 얼마나 다른가(b = μX1-μT. b는 바이어스 μ는 각 군의 평균값)를 살펴봄으로써 오류를 파악할 수 있다. 2) 측정값들의 분산(참값 자체의 크기와는 별도로), 즉 측정값들의 퍼진 정도를 살펴봄으로써 오류를 파악할 수 있다. 오류가 적다면 관찰된 값들이 비슷하게 분포하지만(즉 분산이 작고), 오류가 많다면 분산값들이 넓게 펼쳐지기 때문이다. 이것은 바이어스된 측정에서도 참값을 우연히 맞출 수 있다는 첫 번째 방식을 보완하는 의미가 된다. 즉 참값과 평균값이 같다고 하더라도 그것이 우연에 의해 이루어진 넓은 분산 속에서 이루어졌다면 측정오류가 있다고 할 수 있다. 따라서 측정값의 평균과 분산을 평가하는 두 가지 방식은 서로 다른 측면에서 상호 보완적으로 측정오류를 설명한다.
정보 바이어스를 평가하기 위해 신뢰도와 타당도가 적용된다. 신뢰도(reliability)는 같은 대상자에게 같은 내용을 반복적으로 측정할 때 동일한 결과를 가져올 수 있는 정도를 의미하는 것으로 측정의 재현성 혹은 반복성으로도 표현된다. 만약 어떤 측정용 도구를 동일한 현상에 반복 적용하였을 때 항상 같은 결과를 얻게 된다면 신뢰성이 높다고 할 수 있다. 타당도(validity)란 적용된 검사 방법이 참값(gold standard)을 얼마나 정확히 나타내느냐를 평가하는 것이다. 그러나 현실적으로 진짜 참값을 모르는 경우가 많아 더 정확한 방법과 비교한 두 방법간의 신뢰도를 의미한다.
신뢰도에 사용되는 지표들로는 여러 가지가 있으며 조사하고자 하는 변수의 성격에 따라 다른 지표들이 사용된다. 이분형 척도에는 백분율 일치도(percent agreement)와 카파 통계량(kappa statistic)을 산출하며, 연속형 척도에서는 급내상관계수(intraclass correlation coefficient)를 산출한다. 순위형 척도로 조사하였다면 가중 카파 통계량(weighted kappa statistic)을 적용한다. 그 외에 상관계수, 단순일치율 등이 신뢰도 평가 지표로 사용될 수 있다. 타당도를 평가하기 위해서는 민감도(sensitivity)와 특이도(specificity)지표가 주로 사용된다.
타당도는 내적 타당도(internal validity)와 외적 타당도(external validity)로 구분된다. 내적 타당도는 연구의 설계, 진행, 대상자 선정, 자료 분석 및 해석에서 바이어스가 얼마나 있는지를 말하며 외적 타당도의 전제 조건이 된다. 외적 타당도는 연구 결과가 연구에 참여하지 않는 집단에 일반화 혹은 전달 가능한 정도를 의미한다. 역학 연구에서 일반화와 내적 타당도를 모두 확보하는 것이 중요하지만 내적 타당도가 없는 연구는 일반화시킬 수 없다. 따라서 역학연구에서 내적 타당도의 확보가 우선이고 외적 타당도는 그 다음이라고 할 수 있다.
측정 방법의 신뢰도와 타당도는 역학 결과값에 영향을 준다. 신뢰도와 타당도가 낮을 경우 노출 및 질병 변수의 오분류를 발생시키고 궁극적으로 노출과 결과의 연관성을 왜곡시킬 수 있다. 반면 높은 신뢰도는 효과를 발견할 수 있는 검정력을 높일 수 있고(효과 크기를 잘 발견할 수 있도록) 높은 타당도는 발견된 결과의 정확성을 높일 수 있다. 따라서 평가 방법의 신뢰도 및 타당도를 높이기 위한 노력은 각 연구에서 설문뿐 아니라 측정, 모델링 등 모든 노출 및 결과 변수 평가 방식에 기본적으로 필요하다.
노출에 대한 오류는 관심 변수(방사선 노출), 교란변수(흡연), 효과변경인자(연령) 각각에서 독립적으로 발생할 수 있다. 측정오류가 주요 노출 변수에서 발생하면 연구대상자들의 노출 상태를 잘못 분류시키게 되어 결과적으로 연관성을 왜곡시킨다. 예를 들어 임신 중 엑스선 측정과 기형아 출생과의 관련성 연구 시 환자군과 정상군에서 임신 중 엑스선 노출력에 대한 민감도와 특이도가 각각 다르다면 위험도가 왜곡된다(예를 들어 민감도가 환자군에서는 1.0 정상군에서는 0.5, 특이도는 환자군에서는 0.9 정상군에서는 1.0이라면 원래의 상대위험도 값 1.0이 4.5로 과대 평가된다).
측정오류가 교란변수 및 효과변경인자에서 발생하여도 결과 해석에 잘못된 정보를 제공해 줄 수 있다. 측정오류가 교란변수에서 발생한다면 그 효과는 잔류 교란변수(residual confounding)로서 나타나게 되어, 결과값이 조율(crude rate)과 보정된 값(adjusted rate) 사이로 산출된다. 그리고 측정오류가 효과변경인자에서 발생하게 된다면 상호작용을 감소시켜 취약 집단이 누구인지 파악하기 어렵게 만들 수 있다. 질병 여부와 같은 결과변수를 판정하는 데도 오분류가 발생할 수 있다.
정보 바이어스를 줄이기 위해 다양한 방법이 사용될 수 있다. 즉 여러 번 측정하여 평균값을 사용하거나, 연구 대상자 수를 증가시켜 비차별적 오류에 의한 영향을 줄이거나, 보다 정확한 측정 방법을 일부 대상자에게 실시하여 높은 타당도 값을 얻어 보정할 수 있다. 그러나 자세한 검사가 항상 가능하지 않으며 보정을 위해서는 여러 불확실성을 고려하야 하므로, 만약 잘못된 정보 또는 가정을 통한 보정은 더 큰 바이어스를 초래할 수 있다. 따라서 민감도 분석을 통해 여러 가지 가정하에 보정에 대한 계산이 이루어지는 것이 바람직하며, 보정되지 않은 효과 크기 값도 함께 제시하는 것이 바람직하다. 비록 정보 바이어스를 직접 보정할 수 없다고 하더라도 바이어스의 방향성과 정도를 파악하는 것은 결과의 해석과 활용에 큰 의미가 있다.