자료 분석은 자료를 종합하여 오류 없이 올바른 결과를 얻기 위한 과정이다. 자료분석을 효율적이며 가설에 기초해(a priori) 진행하기 위해서는 분석계획을 사전에 수립하는 것이 필요하다. 이는 분석의 방향을 잡아주는 데 도움을 주며 다중검정(multiple test)의 약점을 보완하고 결과의 과대 해석을 예방해준다. 분석계획에서는 연구목적을 포함하여 분석될 자료, 자료 분석 방식, 변수의 종류와 역할 등을 구체화한다. 자료 분석은 일반적으로 자료 정제, 기술분석, 추론 분석, 민감도 분석의 순서로 진행한다.
자료 정제(data cleaning) 과정은 자료 분석을 하기 전에 수행해야 할 중요한 기초 과정이다. 예를 들어 설문조사 결과에서 각 정보가 올바로 얻어진 것인지 확인하여 간혹 잘못 이해한 응답이나 논리적이지 못한 응답에 대해서 정제가 필요하다. 즉 방사선 작업 여부에 '아니오'라고 응답했지만, 방사선 작업빈도나 기간을 묻는 문항에는 일정한 값을 체크해 놓은 경우가 있다. 또한 방사선 종사자들의 배지 선량이 분기별로 수백 혹은 수천 mSv로 기록된 경우가 있다면 잘못 기록된 값일 가능성이 커서 확인 후 수정할 필요가 있다. 이러한 오류를 최소화하기 위해서는 조사 시 정확한 정보를 얻는 것이 가장 중요하고, 이후 얻어진 자료는 정제 과정을 거쳐 수정 혹은 비정상적 값들을 합리적으로 판단하는 것이 필요하다.
기술분석(descriptive analyses)은 자료를 탐색하고 간단한 관련성을 살펴보는 과정으로 탐색적 자료 분석(exploratory data analysis)이라고도 한다. 이 과정에서 각 변수의 기본적 특성을 이해하고 자료에서 보이는 양상을 파악함으로써 연구자가 측정값들에 대한 이해를 높일 수 있다. 기술분석의 주요 기능으로는 1) 비정상적인 극단값을 파악하거나 정제과정에서 미처 발견하지 못한 자료의 오류를 수정한다. 만약 비정상적인 값이 오류인지 아닌지 불확실한 경우에는 민감도 분석에 적용한다. 2) 결측(missing) 자료가 있는 경우 그 양상을 파악하여 추후 분석시 활용한다. 3) 연구대상자들에 대한 일반적인 특성에 대한 결과 표(일반적으로 표 1에 해당)를 만드는 역할을 한다. 4) 자료의 분포 파악을 통해 추론 분석에서 필요한 가정을 확인해 준다. 5) 기술분석 자체를 통해 주어진 건강 문제를 설명하는 데 충분한 정보를 제공하는 경우가 많아 그 자체가 완성된 분석이 될 수도 있다.
기술분석의 중요한 목적은 자료의 특성을 효율적으로 잘 보여주는 것이다. 이를 위해 표나 그림으로(box plot, histogram, scatterplots 등) 자료를 제시하는 것이 유용하다. 표에는 평균, 분산, 백분율 등 연구에서 의미 있는 결과를 선택하여 제시한다. 이때 제시하는 지표는 연구 목적과 해당 분야에 따라 결정한다. 예를 들어 연속변수의 경우 평균과 표준편차가 일반적으로 많이 제시되지만, 연속변수를 그대로 사용하기보다는 범주화하여 보여주기도 한다. 반복 측정된 자료의 경우에는 평균값 자체보다는 개별 사람들의 변화값을 제시하는 것이 필요하다. 역학연구에서 자료 분석과정 대부분의 시간과 노력은 자료 정제와 기술분석 단계에 집중해야 한다고 해도 과언이 아니다.
추론 분석(inferential analyses)은 해당 자료를 넘어서 연구에서 관찰된 결과를 일반화하는 과정이다. 즉 특정 연구대상자로부터 합리적인 추론(가설)을 끌어내는 과정으로서, 연구집단이 모집단에서 표본으로 선정되었기 때문에 필요하다. 추론 분석을 위해서 가설검정(hypothesis testing)이 진행된다. 가설검정이란 연구자가 부정하고자 하는 값을 귀무가설(null hypothesis)로 설정하고 이를 부정함으로써 연구자가 원하는 대립가설(alternative hypothesis)을 채택하는 과정이다. 예를 들어 방사선 노출과 백혈병 발생과의 연구에서 방사선 노출이 백혈병 발생과 관련이 없다는 귀무가설을 설정하고 이를 부정함으로써 둘 사이의 연관성을 검정한다. 이를 위해 관심 있는 변수 값의 유의성을 검정하는 것을 통계적 추론(statistical inference)이라고 하며 이러한 추론은 가설검정에서 산출된 파라미터들과 통계량에 근거한다. 즉 연관성 지표들(상대위험도, 오즈비 등), 신뢰구간, 유의확률(p-value)이 가설검정을 통해 산출되고 이 값들을 근거로 대립가설을 받아들일 수 있는지 판단한다.
올바른 귀무가설을 받아들이지 않은 것을 제1종 혹은 알파 오류(type 1 error)라고 하며, 반대로 올바르지 않은 귀무가설을 받아들이는 것을 제2종 혹은 베타 오류(type 2 error)라고 한다. 두 오류의 관계는 지렛대와 같아 한쪽을 줄이려면 다른 쪽이 커지는 것을 감수해야 한다. 유의수준(signficance level)이란 연구자가 부정하고자 하는 귀무가설을 기각할 때 발생될 수 있는 오류(제1종 오류)를 범할 수 있는 최대 수준을 말한다. 일반적으로 제1종 오류의 크기를 0.05, 제2종 오류는 0.2의 크기로 설정한다. 한편 방사선은 발암성이 확인된 인자로서 근거가 분명하기 때문에 단측검정(one-tailed)을 사용하는 경우가 종종 있다. 단측검정 시 유의확률 0.05는 양측검정(two-tailed)에서는 0.1이 되므로 같은 표본수를 사용하더라도 검정력을 높일 수 있다.
추론 분석에서 기본적으로 먼저 실시되어야 하는 것은 층화분석(stratification)이다. 이를 통해 자료의 특성(본질)에 대해 보다 정확한 정보를 제공할 수 있기 때문이다. 그러나 여러 변수에 따라 층화하면 인원수가 줄어들고 분석과정도 쉽지 않다. 따라서 교란변수를 통제하는 다중 단변량 분석(multiple univariate analysis)을 층화분석에 대한 보완적 방법으로 적용할 수 있다.
자료 분석에서 교란변수 파악 및 보정을 위해 회귀분석 모형에 변수들을 포함한다. 이때 포함될 교란변수 선정은 일반적으로 변수를 포함시키지 않은 모델(crude model)값과 비교하여 특정 변수 추가가 결과값을 의미 있게(약 10%) 변화시키는지를 기준으로 한다. 보정을 위해서 모델에 변수를 포함할 경우에는 일반적으로 간단한 변수 형태로 포함하여, 예를 들어 흡연에 대한 보정은 비흡연자, 과거흡연자, 현재흡연자 등으로 구분하여 모델에 포함시키는 경우들이 많다(이때 잔류 교란 효과가 가능하다). 만약 흡연정보가 보정 목적이 아니라 주된 노출 변수라면 보다 자세한 흡연에 대한 정보(기간 및 개피수 등)를 활용한다. 교란변수 추가 여부가 불분명한 경우라면 교란변수를 보정하지 않은 결과(crude result)와 교란변수를 보정한 결과(adjusted result)를 모두를 제시한다.
교란변수를 보정하는 방법으로 맨텔-헨젤(Mantel-Haenszel) 분석, 회귀분석, 표준화 방법이 적용된다. 맨텔-헨젤 분석은 교란변수별로 나누어진 층의 각 위험도를 각 층별 가중치(층별 노출 및 비노출인원수)를 고려하여 합치는 방법이다. 즉 교란변수 별로 층화시키고 각 층을 재결합하는 방식(범주형 변수인 경우)을 취하며, 이때 각 층이 기본적으로 동질적이라는 것을 전제한다. 회귀분석은 교란변수가 여러 개일 때 그리고 연속형 변수일 때 활용된다. 반면 표준화는 교란변수 범주별로 각 층이 동질하지 않을 경우(예를 들어 연령) 각 인구집단의 분율을 가중치로 적용하는 방식이다. 즉 맨텔-헨젤과 회귀분석은 각 층이 동질적이라는 가정하에(이것이 만족되지 못하면 적용할 수 없다) 합치는 것이지만, 표준화는 동질적이라는 가정 없이 교란변수를 통제하여 종합한다.
자료 분석 시 독립변수들이 비슷한 의미가 있는 경우 서로 간에 높은 상관관계를 보일 수 있는 다중공선성(multicollinearity)이 발생할 수 있다. 따라서 모델 구축 시 중요한 교란변수들은 가능한 한 포함하되 불필요한 변수들을 포함하여 다중공선성이 발생되지 않도록 해야 한다. 다중공선성이 나타날 경우 모델에 한 변수가 추가되거나 제외될 때 추정된 회귀계수의 변동이 매우 심하거나, 추정된 신뢰구간이 매우 커지거나, 개별회귀계수들이 유의하지 않는데도 결정계수(coefficient of determination)가 높게 나타나거나, 회귀계수들의 부호가 예상과 달리 나타날 수 있다(예를 들어 독립변수와 결과변수가 양의 관련성이 예상되었으나 둘 이상의 독립변수들 사이에 극단적인 양의 상관성을 보일 경우, 결과변수에 대한 회귀계수는 음의 값을 보일 수 있다). 이런 현상이 나타나는 경우 분산팽창요인(Variance Inflation Factor)를 조사하여 관련 변수 중 하나를 제거하거나 변수의 범주를 새롭게 조합하는 것이 필요하다.
민감도 분석(sensitivity analyses)은 특정 모델의 변수들 값을 합리적 범위에서 변화함으로써 결과값의 변화를 검사하는 과정으로 자료분석의 후반부에 실시한다. 만약 결과가 다양한 상황에서도 일관된다면 연구 결과가 강건하다(robustness)는 것을 보여줄 수 있다. 예를 들어 대상자를 제한하거나(3년 이내 발생 환자 제외), 변수를 다르게 처리하는 경우를(잘 모르겠다는 답변의 경우 그대로 사용할 수도 있고 결측으로 취급할 수도 있다) 의미한다. 연구 대상자를 달리하는 인구집단별 분석(subgroup analysis)도 민감도 분석에 포함된다. 한편 민감도 분석이 확대되면 바이어스 분석(bias analysis)이 될 수 있다. 민감도 분석은 변수들을 달리 선택했을 때 결과가 어떻게 달라지는지를 살펴보는 데 초점을 두는 반면, 바이어스 분석은 각 변수 선택에 의한 바이어스의 크기를 파악하는데 초점을 둔다 (바이어스 분석 참고).
가설검정은 과학적인 방법의 하나이지만 학문적 추론 자체는 유의성 검정으로만 이루어지지는 않는다. 왜냐하면 가설검정은 무작위 오류의 존재를 양적으로 평가하지만, 체계적 오류를 평가하지는 못하기 때문이다. 체계적 오류(바이어스)는 가설검정과는 독립적인 연구주제에 대한 역학적 판단에 근거하며, 이를 위해서 주제와 관련된 학문적 내용 자체를 깊이 이해하는 것이 필요하다.
통계적 검정력(statistical power)는 연구자가 원하는 주장(귀무가설이 틀린 것을 틀렸다고 판단하는 것)을 보여줄 수 있는 정도를 말하는 것으로 ‘1-제2종 오류’와 같은 의미이다. 즉 실제로 차이가 존재할 때 이를 정확하게 검출할 수 있는 확률을 의미한다. 만약 검정력이 너무 낮다면 실제로 차이가 존재하더라도 그 차이를 발견할 확률이 감소하기 때문에 역학연구에서 적절한 검정력(일반적으로 80%)을 유지하는 것은 중요하다.
유의확률(p-value)은 자료 분석의 유의성을 의미하며 일반적으로 0.05(5%)보다 낮게 나오면 유의한 결과로 판정한다. 그러나 이는 단지 많은 사람이 그동안의 경험을 통해 우연히 일어날 수 없다고 생각하고 있는 의식을 반영하고 있으며, 연구 목적과 자료의 특성에 따라 다르게 판정할 수도 있다. 간혹 의미가 없는 작은 값의 변화를 통계적으로 의미 있다고 판정하는 오류를 범할 수 있고 반대로 의미있는 변화를 단지 통계적으로 무의미하다고 판단할 수 있다. 유의확률은 표본수, 평균 차이, 값의 분산 등에 의해 영향을 받으므로 0.05라는 값이 유의성 판단의 절대적 기준이 아니다. 또한 유의확률은 단지 하나의 수치만 표현하고 있어 보여줄 수 있는 정보가 제한적이다. 따라서 역학 및 보건학 연구에서는 효과크기를 제시할 때 유의성의 방향성과 범위를 함께 보여 줄 수 있는 신뢰구간(confidence interval)을 제시한다.
가설에 근거하지 않고 여러 변수들과 다중비교(multiple comparison)를 하는 경우, 실제 연관성이 없음에도 불구하고 우연에 의해 연관성이 있는 것처럼 나올 수 있다. 예를 들어 10개의 질환과 10개의 노출 요인들 간의 가능한 연관성을 보기 위해 2×2표를 만들었다면, 이론적으로 노출 요인과 질환이 관련이 없다고 하더라도 100개의 노출-질환 조합 중에서 우연에 의해서 5개는 통계적으로 5% 유의수준에서 유의한 연관성을 보일 수 있다. 이러한 문제점을 극복하기 위해서 여러 통계적인 방법들이 동원되고 있으며 본페로니(Bonferroni) 검정이 가장 많이 알려졌다. 그러나 기계적인 기준을 적용하게 되면 실제로 연관성이 있음에도 불구하고 무시될 수도 있다. 즉 통계적 보정 방법을 통해 제1종 오류를 줄일 수는 있지만 반대로 제2종 오류는 증가시킬 수 있다. 따라서 다중비교시 나타나는 제1종 오류는 통계적인 방법을 사용하기 보다는 역학적 인과성 가이드라인(일관성, 연관성의 강도, 양-반응관계 등)을 우선하여 적용하여 판단한다.
방사선 역학연구에서 효과 크기(effect size)를 적절하게 검정하기 위한 표본수(sample size)는 선량(dose)의 크기에 반비례한다. 따라서 저선량에서 유의한 암 위험도를 파악하기 위해서는 규모가 큰 인구집단이 필요하다. 실제로 미국국립과학학술원에서 유의한 암사망률의 증가를 검출할 수 있는 선량별 표본수를 산출한 바 있다. 그러나 여기서 산출된 인원수는 사망률을 바탕으로 산출된 결과로서 발생률을 적용할 경우에는 더 적은 수가 필요하다. 반면 방사선 외 암발생에 미치는 다른 변수들과의 상호작용을 살펴보려면 더 많은 수가 필요하다. 또한 산출된 인구 수는 평생 추적을 전제로 한 계산이므로 실제로 추적이 완전하지 못한 경우에는 더 많은 인구수가 요구된다. 이처럼 방사선 역학에서 검정력은 단지 표본수에만 근거하는 것이 아니라 방사선 노출 선량, 선량-반응 관련성, 질병자의 숫자(질병의 기저율), 연구 집단 내 선량의 분포 정도, 위험도의 크기 등에 영향을 받는다.
따라서 방사선 역학에서 통계적 검정력을 향상하기 위해 여러 방법이 적용될 수 있다. 첫째, 유효한 표본 크기를 증가시킨다. 예를 들어 연구대상자로서 방사선 노출에 민감한(sensitive) 인구집단(어린이, 여성 혹은 유전적 민감 집단 등)을 포함시키면 전체 인구보다 방사선 위험성이 상대적으로 높아 같은 인원수로도 검정력을 높일 수 있다. 또한 선량이 높으면 효과 크기(위험도)가 높아지므로 필요한 인원수는 선량 크기에 비례적으로 감소한다. 따라서 방사선에 고노출된 사람들(진단과 치료목적으로 고노출 방사선에 노출되는 환자 혹은 과거 작업자들)을 포함시키면 상대적으로 적은 인원수로도 검정력을 높일 수 있다. 둘째, 방사선 노출과의 연관성이 높은 건강 영향을 파악한다. 예를 들어 백혈병은 여러 연구에서 방사선 노출에 가장 높은 단위 선량당 위험도를 보여주고 있다. 이러한 근거로 방사선 역학연구에서는 어린이들을 대상으로 한 백혈병 연구가 상대적으로 많은 관심을 가져왔다. 셋째, 비슷한 주제의 연구들을 모아서 큰 규모의 형태로 진행한다. 실제로 여러 방사선 연구 주제들(예를 들어 원전 종사자, 광부, CT 노출자 등)이 국제적인 공동연구를 통해 대규모 인원수를 확보한 연구로 진행하고 있다.
한편 방사선 역학에서의 통계적 검정력은 초과상대위험도(ERR)가 0이라는 귀무가설을 검정한다. 따라서 일반적인 역학 분야에서와는 달리 ERR 산출과 관련된 추가 정보들(기저위험도, 선량구간별 평균 선량값 및 인년 혹은 인원수 등)이 필요하다. 길버트(Ethel S. Gilbert)가 저선량 방사선 역학 연구들을 대상으로 통계적 검정력을 산출한 바에 의하면 질병에 따라 차이가 있지만 대부분 80% 미만이었다. 따라서 여러 연구들에서 보고된 ‘통계적으로 유의하지 않지만 증가된 초과상대위험도 결과’는 낮은 검정력에 의한 것이지 방사선 노출에 의한 건강 영향이 없다는 것을 의미하지는 않는다.
경쟁사건 (competing events)은 보고자 하는 결과가 다른 원인에 의해 방해 받는 것을 말한다. 즉 노출에 의해 발생될 수 있는 건강 영향이 다른 경쟁사건에 의해 미쳐 파악되지 않고 추적에서 빠져나가므로(제외되므로, censoring) 노출과 결과 사이의 연관성이 충분히 파악되지 않거나 다른 방향으로 왜곡될 수 있다. 전체 사망(all-cause mortality)을 관심 결과로 한 경우에는 이와 경쟁하는 사건이 없지만, 다른 건강영향들인 경우 잠재적인 경쟁사건들이 존재한다(사망의 경우도 개별 사망원인을 결과변수로 설정시 다른 개별사망이 경쟁사건이 될 수 있다).
센셔링(Censored)은 결과값을 (예를 들어 암발생 여부) 관측하지 못하는 것을 의미한다. 노출(작업)을 중간에 그만둔 경우라도 결과값을 확인할 수 있으면 센셔링된 것이 아니다. 예를들어 코호트 대상자들을 암등록자료를 통해 2020년까지의 암발생을 모두 관찰한다고 설정한 경우 비록 중간에 작업을 그만둔 사람들이 있다고 하더라도 센셔링은 발생하지 않는다. 그러나 만약 중간에 해외로 이주한 경우라면 국내 암등록자료에서 암이 발생되었는지 확인할 수 없어 센셔링되었다고 할 수 있다. 일반적으로 암등록자료 연계 연구에서 이주로 인한 센셔링을 가정하지 않는다. 반면 경쟁사건은 중간에 다른 원인으로 관심있는 결과값을 확인할 수 없는 경우이기 때문에 (예를 들어 암발생 여부를 보려고 하는데 중간에 교통사고로 사망한 경우 이후에 이 사람에 대한 암발생을 확인할 수 없어 교통사고 싯점에서 센셔링되었다고 한다) 분석시 고려해야 한다.
경쟁사건을 보정하기 위해 분석 방법들이 (inverse probability weighting, parametric g-formula 등) 개발되었다. 대표적으로 각 개인이 센셔링 될 추정된 확률을 산출하고 이것의 역수를 가중해서 분석에서 보정한다. 예를 들어 특정 사람이 센셔링될 확률이 0.25이면 이런 특성을 가진 1명이 4명을 반영하는 것으로 계산해주어 가상적인 3명이 추가된 상태에서 위험도를 산출한다.
경쟁사건들이 존재한다고 항상 결과가 왜곡되는 것은 아니며 그 사건이 노출 (및 결과변수)과 관련된 경우에만 바이어스된다. 예를 들어 방사선과 암발생간의 연관성을 보는 연구에서 만약 방사선 노출에 의해 심혈관질환으로 사망한다면 방사선 노출에 의한 암발생과의 연관성을 볼 기회를 놓치게 된다. 즉 방사선에 의해 암 발생이 증가할 수 있는데 방사선 관련 다른 질환으로 사망하면서 현재 관찰된 방사선과 암의 연관성이 과소평가 될 수 있다. 그러나 노출과 결과와는 독립적으로 발생하는 다른 사망(예를 들어 사고)의 경쟁사건이 존재한다고 하더라도 결과값에 바이어스를 초래하지 않는다.