6.5. 바이어스 분석과 불확실성
(bias analysis and uncertainty)
(1) 바이어스 분석
바이어스 분석(bias analysis)은 바이어스의 잠재적인 크기와 방향을 추정하고 바이어스 관련 불확실성을 정량화하는 것을 말한다. 즉 바이어스 분석은 체계적 오류(즉 교란작용, 오분류, 선택바이어스 등)가 연구 결과에 대해 미치는 영향을 평가하는 것으로, 민감도 분석(sensitivity analysis) 혹은 세부 집단 분석(subgroup analysis)은 넓은 의미의 바이어스 분석에 포함된다.
역학연구는 잠재적인 여러 바이어스의 가능성이 있다. 즉 관찰된 값은 연구 대상자의 선정에서 부터 얻어진 정보의 정확성 그리고 효과크기에 영향을 주는 교란영향 등 여러 요인들에 영향을 받을 수 있다. 따라서 바이어스 분석을 통해서 관찰된 값이 진짜인지 그리고 현실적인 여러 가정(정보의 정확성, 연구참여율 등)들에 따라 관찰값이 어떻게 달라질 수 있는지를 파악하는 것이 필요하다. 바이어스 분석은 연구결과(인과성)에 대한 정확한 판단과 유해 물질 관리에 대한 실무적 판단에 도움을 주는 역할을 한다.
바이어스 분석에는 많은 시간과 노력이 소요되므로, 모든 연구에 필수적인 것은 아니며 바이어스 분석을 시행함으로 인한 이득이 분명해야 의미가 있다. 기술 역학 연구나 효과가 분명하여 논란이 되지 않은 연구(예를 들어 흡연과 폐암, 비닐 클로라이드 노출과 혈관 육종, 에스트로젠 치료와 자궁내막암 등)들의 경우는 바이어스 분석이 굳이 필요하지 않다. 반면 공중보건학적 정책이 시행되어야 할 상황에서 애매한 결과값을 보인 주제에 대해서는(특히 상대위험도가 1과 2 사이), 전통적 메타분석 결과보다는 바이어스 분석을 통해 더욱 정밀하게 접근하는 것이 권장된다. 그러나 만약 바이어스 분석에 적용되는 정보 및 가정이(예를들어 차별적 오류를 비차별적 오류로 가정 등) 잘못되면 오분류된 관찰값보다도 더 큰 바이어스가 초래될 수 있다.
바이어스 분석 방법은 단순 바이어스 분석(simple bias analysis), 다차원 바이어스 분석(multidimensional bias analysis), 확률적 바이어스 분석(probabilistic bias analysis), 다중 바이어스 모델링(multiple bias modelling)으로 나뉜다. 단순한 방법부터 매우 복잡한 방법까지 있어 어떤 방법을 적용할 것인가는 계산에 들어가는 복잡성과 그만큼의 실질적인 가치와 설명력 간의 균형 잡힌 판단으로 결정한다.
단순 바이어스 분석은 주요 바이어스들(선택바이어스, 교란작용, 오분류)들을 각각 하나씩 고정된 변수 값을 할당하여 분석하는 가장 간단한 형태이다. 예를 들어 선택바이어스는 참여자만을 대상으로 산출된 위험도에 선정된 대상자의 선택확률을 곱해주어 위험도를 수정한다. 교란 작용에 대해서는 각 교란변수와 관련된 정보들이 얼마나 달라질 수 있는지를 파악하여 위험도 산출에 적용한다. 오분류에 대해서는 민감도와 특이도를 비롯하여 유병률, 양성 및 음성 예측치 등의 정보들을 통해 노출 분류 정도를 달리하면서 가능한 위험도를 산출한다.
다차원 바이어스 분석은 단순 바이어스 분석을 확대하여 각 바이어스 변수 값들을 동시에 고려한다. 특히 변수 값들을 전혀 모르는 경우 혹은 여러 다른 값들을 적용해야 할 경우 하나의 고정된 값을 할당하기보다는 다양한 시나리오를 고려하는 것이 바람직하다. 예를 들어 민감도와 특이도를 하나의 고정된 값이 아니라 여러 가능한 경우들을 각각 적용하여 종합된 값을 산출할 수 있다.
확률적 바이어스 분석에서는 각 바이어스 변수값에 확률 분포를 적용한다. 이 방법은 각 바이어스 변수로 하나의 고정한 값 혹은 여러 개의 값을 적용하는 대신 몬테카를로(Monte Carlo) 분석을 통해 각 파라미터를 여러 번 반복함으로써 분포를 생성시켜 확률론적 값을 할당하여 단순 및 다차원 분석보다 정교한 분석을 진행할 수 있다.
다중 바이어스 모델링에서는 여러 바이어스들을 동시에 고려하여 분석한다. 실제로 각 연구에서는 선택바이어스, 정보 바이어스, 교란 작용들이 같이 존재할 수 있으므로 이들을 동시에 분석하는 것은 중요하다. 가능한 여러 바이어스들 중 어떤 것에 우선순위를 설정할 것인지를 판단하기 위해 단순 바이어스 분석을 먼저 시행하여 결과값을 비교한다. 어떤 바이어스를 먼저 보정하느냐에 따라 결과 차이가 가능하므로, 각 연구 가설에 기초하며 순서를 설정한다.
표 6.5.1 바이어스 분석 방법별 특성
바이어스 분석을 위해서는 내부적인 세부 분석 자료, 비참여자들에 대한 추가조사 자료, 관련 값에 대한 외부 자료들이 필요하다. 이를 위해 관련 연구를 많이 찾아보고 정보를 확보해야 하며, 따라서 바이어스 분석은 분석만이 아니라 문헌 고찰의 성격도 함께 갖고 있다. 예를 들어 문헌 고찰 논문을 통해 인구집단에서의 비참여자가 얼마나 될지, 교란변수가 얼마나 분포되었는지, 노출 분류 관련 항목들의 다른 가능한 경우들에 대한 정보를 확보하며 필요한 경우 관련 내용에 대한 전문가의 의견도 값의 형태로 포함할 수 있다. 이때 분석에 적용된 자료와 가정들에 대해서는 투명성과 신뢰성이 공유되어야 한다.
바이어스 분석을 시행한 연구들에 대한 체계적 문헌 고찰에 의하면 2006-2019년까지 총 238편의 논문이 발표되어 그 중요성에 비해 상대적으로 많이 보고되지는 않았다. 사용된 방법 중 확률적 바이어스 분석을 가장 많이(57%) 사용하였으며 반영된 바이어스는 오분류, 교란 작용, 선택바이어스 순이었으며, 대부분의 연구에서 여러 바이어스를 동시에 고려하지는 않았다. 약 60% 정도의 연구에서 원래 값보다 10% 이상 변화된 결과값을 보고하였다. 그러나 대부분 연구자(63%)는 바이어스 분석값에 근거하여 원래 해석을 변경하지는 않았다. 이는 연구의 목적이 연관성에 대한 양적 평가라기보다는 연관성의 존재 여부에 두었기 때문으로 해석되었다.
영국 핵시설 종사자들의 심장질환 사망과 직업적 방사선 노출과의 연구에서 확률적 바이어스 분석이 진행된 바 있다. 기존 결과에서 오즈비 1.35의 유의하지 않은 결과를 보고하였는데 이 결과에 대한 해석이 다양하게 제기되어 보다 정교한 결과가 요구되었기 때문이다. 따라서 측정오류, 흡연 정보 결측, 측정되지 않은 교란요인 등을 고려한 확률적 바이어스 분석을 실시하여, 직업적 방사선 노출이 허혈성 심장질환의 사망을 43%(95% CI: 7-92%) 증가시키는 인과적 요인이라는 것을 더욱 분명히 하였다.
(2) 불확실성 분석
불확실성(uncertainty)은 측정 결과값 또는 모델의 예측값에 대한 확신의 부족을 의미한다. 모든 연구는 완벽하지 못한 정보들을 사용하거나 가정하는 경우들이 있어 어느 정도의 불확실성을 갖고 있다. 불확실성 분석(uncertainty analysis)이란 불확실성을 통해 발생할 수 있는 결과값의 변화를 파악하는 정량화 과정을 말한다. 불확실성 분석은 기본적으로 바이어스 분석과 같은 의미이나, 바이어스 분석이 주로 체계적 오류에 집중하는 반면, 불확실성 분석은 무작위 오류까지 포함하는 보다 포괄적인 의미로 사용된다. 한편 불확실성 전파(uncertainty propagation)란 불확실성에 기여하는 모든 요인들을 불확실성 분석에 함께 반영하는 것을 의미한다.
방사선 역학연구에서 대표적인 불확실성 요인들로는 선량 평가에서의 불확실성, 연구 집단 선정 및 추적에서의 가능한 바이어스 등에 의한 불확실성, 정보 확보에서의 회상 바이어스로 인한 영향, 건강근로자효과로 인한 영향, 적은 표본수로 인한 통계적 불확실성, 기저율, 추적기간, 선량-선량률 효과인자(고선량에서 추정된 위험도 모형에서 저선량에서의 위험도를 외삽 추정하는 데 따른 계수)의 불확실성, 각 암종의 잠재 기간에 대한 불확실성, 방사선 노출과 다른 암 위험인자에 의한 교란작용 및 가능한 상호작용(예를 들어 폐암과 흡연, 유방암과 출산력 등) 등이 포함된다.
각 불확실성 요인의 중요성은 연구 주제별로 차이를 갖는다. 예를 들어 원전 종사자 연구에서는 일부 작업자에서 선량계 정보가 없음으로 인한 선량값 자체의 불확실성, 흡연 혹은 사회경제적 지표가 없는 작업자들에서 이 변수들로 인한 교란작용의 영향 등이 큰 요인으로 작용한 반면, 방사선 노출에 의한 생애암위험도 산출의 경우에는 노출 선량 평가에서의 불확실성 이외에도, 특정 연도의 암발생률을 긴 기간 동안의 추정에 적용하는 불확실성, 인구학적 특성 및 암 치료율 및 조기진단의 변화에 따른 영향, 선량-반응 모델에서 각 암종별 특이적 모델이 반영하지 못하는데서 발생하는 불확실성 등이 주요 요인이 되었다.
불확실성을 줄이기 위해서는 여러 역학 연구들을 종합하는 것이 필요하다. 예를 들어 인구집단이 다름으로 인한 위험도 전이(risk transfer)에서의 불확실성을 줄이기 위해서는 보다 다양한 인구집단에서의 역학 연구 결과값을 확보하여 적용하는 것이 중요하다. 방사선과 다른 노출 인자와의 상호작용 혹은 교란작용의 불확실성을 줄이기 위해서도 가능한 많은 자료원에서의 다양한 정보를 종합하는 것이 필요하다.
불확실성이 있을 때 연구에 따라서 이를 무시하거나, 정성적으로 평가하여 기술하거나, 정량적으로 평가하는 방식을 취한다. 일차적으로 불확실성 자체를 줄이려는 노력이 중요하지만, 현실적으로는 불확실성의 특성을 파악하고 그것이 결과에 어떠한 영향을 줄 것인지를 해석하는 것이 더욱 중요하다.
러시아의 마야크(Mayak) 지역 핵시설 종사자들에 대해 기존에 보고된 폐암 사망 결과가 선량에 대한 불확실성을 갖고 있었기 때문에, 여러 불확실성 요인들을 고려한 연구가 보고된 바 있다. 연구 결과 불확실성을 반영 시 노출선량은 기존 연구와 비교해 조금 증가하였고 위험도 값은 조금 감소하였다. 방사선 종류별로는 감마선 노출에 의한 폐암 위험도 값에는 큰 변화가 없었으나, 플루토늄의 내부노출의 경우 폐암 위험도가 조금 감소하였고 신뢰구간 상한값이 증가하였다. 이러한 결과는 감마선 노출의 경우 기존에 보고된 위험도 값이 신뢰성을 갖는다는 의미이며, 플루토늄에 의한 건강 영향은 기존에 산출된 결과보다 위험도가 클 수 있다는 것을 의미한다.