역학에서는 지표들을 통해 결과를 이해하고 서로 소통하기 때문에 사용되는 각 지표의 기본적인 개념을 이해하는 것이 필수적이다. 역학에서는 인구집단에서 질병의 양적 규모를 파악하는 것이 중요하기 때문에 수리적 측정과 표현이 자주 사용된다. 이때 한 가지 지표로는 전체적인 이해가 제한될 수 있으므로, 여러 지표를 통해 결과를 종합적으로 파악하는 것이 중요하다.
비(ratio)는 분자를 분모로 나누는 일반적인 개념의 지표이다. 예를 들어 성비(남성 인원수/여성 인원수) 등이 포함된다. 이 지표의 특성은 분자가 분모에 포함되지 않으며 분자와 분모가 반드시 같은 단위일 필요는 없다. 분율(proportion)은 분자가 분모에 포함되는 지표로서, 예를 들어 남자의 분율은 남자 인구수를 분자로 하고 전체인구수를 분모로 한다. 유병률도 전체인구 중 질병자를 분자로 하는 분율이다. 율(rate)은 분율과 같으나 단위 시간당 변화는 속도의 개념이 추가된다. 예를 들어 연간 발생률이란 특정 연도의 발생률이라기보다는 평균 연도별 변화에 따른 새로운 환자수의 변화(시간에 따른 변화)를 의미한다. 단위는 0에서 무한대의 값을 갖는다.
반면 비와 분율 지표는 시간 개념이 없거나 있어도 정해진 특정 기간(예를 들어 1년)을 가정한다. 질병의 연간 발생률은 반드시 1년을 조사해서 연간 발생률을 구하는 것이 아니라 6개월 혹은 4년을 조사하고 연간으로 환산할 수 있다. 이는 자동차 시속을 알기 위해 1시간을 측정해야 할 필요는 없고 순간순간의 값을 통해 산출하는 것과 비슷하다. 따라서 발생률에서의 연간 혹은 월간이란 단위는 인위적이며, 이 기간이 조사 기간과 일치하지 않을 수 있다. 이에 반해 유병률은 특정 기간의 환자수를 의미하는 것이로, 일정한 기간을 조사하므로 그 기간 자체가 연구조사 기간을 의미한다.
즉 비는 분자와 분모를 사용한 일반적인 지표에서 흔히 사용되는 지표이며, 분율은 상대적인 빈도 혹은 확률을 의미하고, 비율은 질병률 변화의 속도와 방향을 표현할 때 사용된다.
유병률(prevalence)은 특정 인구집단에 존재하고 있는 환자 수의 분율로서 유병분율(prevalence proportion)을 의미한다. 유병률은 시간적 변화를 나타내는 율(rate)이 아니기 때문에 유병분율이 정확한 표현이나 관습적으로 유병률이란 단어를 사용하고 있다. 유병률과 발생률은 질병의 빈도(frequency)를 나타내는 가장 기본적인 지표로서 유병률은 질병의 상태(disease status)를 의미하며 질병 발생(disease onset)과는 직접적인 관련성이 없다. 유병률의 개념은 반드시 질병에만 적용되는 것은 아니며 질병 전 단계의 상태 혹은 노출 인자의 크기(예를 들어 수정체 혼탁을 가진 사람들의 분율 혹은 전체 작업자 중 방사선 작업자의 분율 등)를 표현할 때도 사용할 수 있다.
예를 들어 2022년 7월 1일 1만 명의 인구집단 중 200명의 암환자가 있다면 유병률은 2% 혹은 0.02로 표시된다. 이 수치는 2022년 7월 1일이라는 특정 시점에만 적용되는 것이며 시간에 따라 다를 수 있다. 유병률은 단위가 없는 지표이며 산출 시 특정 기간 혹은 시간을 설정하며, 사람을 소수점으로 나타내지 않으려고 1,000 혹은 100,000 등을 곱해준다. 이때 분자에는 질병에 걸려 있는 환자가 포함되므로 사망이나 회복된 사람은 제외되며, 분모는 인구집단 전체가 되지만 조사되지 못한 사람들은(예를 들어 의료기관에 입원 되었거나 특수기관에 있는 경우 등) 제외된다.
유병률의 종류는 특정 시점 인구에서의 질병 상태를 표현하는 시점유병률(point prevalence)과 특정 기간의 질병 유병을 의미하는 기간유병률(period prevalence)로 구분한다. 만약 특정 기간이 평생을 의미한다면 평생 유병률(lifetime prevalence)이라고 한다. 이론적으로 모든 조사가 특정 시점에 동시에 이루어지기 어려우므로 시점유병률이라고 하더라도 일정한 조사 기간이 필요하다.
유병률의 크기는 질병 발생과 질병의 유병 기간에 영향을 받는다. 일반적으로 발생이 많으면 유병률은 증가하나 발생이 많더라도 유병 기간이 짧다면(회복이 빠르거나 반대로 치명적인 질환의 경우) 낮은 유병률을 보일 수 있다. 또는 치료가 잘 안 되지만 오래 생존하게 되는 질환들(당뇨, 고혈압, 치매 등)은 발생률의 크기에 비해 높은 유병률을 보일 수 있다. 또한 질병의 치료율은 각 국가와 인구집단에 따라 다를 수 있어 같은 발생률을 가진 인구집단이라고 하더라도 해당 인구집단의 면역 및 영양상태, 의료기관 접근성 및 질병 관리 체계에 따라 달라질 수 있다. 유병률은 주로 질병 발생의 크기와 비례하지만, 질병 발생 자체 외에도 질병의 유병 기간과 예후에 영향을 주는 요인들에도 영향을 받는다.
유병률은 인구집단에서 질병의 크기와 부담을 평가하는데 필수적인 지표이다. 예를 들어 신장 질환 환자들이 얼마나 있는지에 대한 정보를 알아야 해당 지역에 투석시설과 인력이 얼마나 필요한지 올바로 판단할 수 있다. 그러나 유병률은 질병 자체의 발생에만 영향을 받는 것이 아니기 때문에, 질병의 원인 인자를 밝혀내는 데는 유용성이 제한된다.
그러나 발생률 산출이 불가능한 경우에는 유병률이 건강 상태를 조사할 때 유용하게 활용될 수 있다. 예를 들어 방사선 노출에 의한 기형아 출산과의 관련성 연구에서 발생률 산출을 위해서는 분모가 장애를 가질 수 있는 모든 태아가 되어야 하나 이를 현실적으로 파악하기는 어렵다. 왜냐하면 현재 임신부들은 최소 몇 개월 임신이 유지된 사람들로서 조기에 사산한 경우나 중간에 태아를 손실한 경우들은 제외되었기 때문이다. 따라서 출생아 중에서 장애를 갖고 태어난 아이들의 분율(즉 유병률)을 기형아 출산 지표로 사용하여 활용한다. 물론 이렇게 파악된 기형아 출산 유병률은 방사선 노출 요인뿐 아니라 기형을 가진 태아가 출산할 때까지 생존할 수 있게 하는 다른 요인에 영향을 받는다.
발생률은 위험에 노출된 인구집단(population at risk)에서 새롭게 발생한 질병빈도를 표현하는 지표이다. 분모의 형태에 따라 발생분율(incidence proportion), 발생률(incidence rate), 발생오즈(incidence odds)로 구분된다. 발생분율과 발생오즈는 분모가 위험에 노출된 인구수이며 발생률은 분모가 위험 시간인 경우(time at risk)를 말한다. 따라서 사람 수를 기준으로 한 발생분율과 발생오즈는 0과 1 사이의 값을 갖지만(재발의 경우를 포함하면 1보다 커질 수도 있다), 발생률과 같이 분모가 시간인 경우는 0-무한대의 범위가 가능하다. 예를 들어 월 단위 발생률(0.1 case/person-month)을 연 단위로 단위(1.2 case/person-year)를 바꾸면 발생률 값이 달라진다.
발생률 산출 시 분자에는 일반적으로 첫 번째로 발생한 질병을 포함한다(예를 들어 first primary cancer cases). 즉 조사 기간 이전부터 질병에 걸려 있는 경우는 발생 사례가 아니므로 제외한다. 그리고 분자에 같은 질병을 반복해서 발생하는 경우(재발의 경우) 질병 발생 위험요인이 첫 발생과 다를 수 있으므로 일반적으로 제외한다. 또한 노출과 관련이 없는 기간에 발생한 경우도 제외한다. 예를 들어 방사선에 노출된 이후 1년 이내에 발생한 고형암 발생 사례는 방사선 노출에 의한 것이라기보다는 그 이전에 다른 요인에 의해 발생한 것으로 판단할 수 있기 때문이다.
발생률 산출 시 분모는 인구수 혹은 관찰 기간을 사용한다. 첫째로 인구수를 분모로 할 때는 모든 인구가 아니라 질병에 걸릴 가능성 즉 위험에 노출된 인구집단(population at risk)만을 포함한다. 예를 들어 자궁암 발생 위험에서는 분모에서 자궁 수술을 받은 여성을 제외하고, 감염병 질환의 경우 이미 면역이 생겨 다시 걸릴 위험이 없는 사람들도 분모에서 제외한다. 이때 누가 위험 인구집단이냐는 어떤 질병을 연구하느냐에 따라 달라져 예를 들어 당뇨병 발생 연구를 한다면 당뇨가 있는 사람은 포함되지 않지만, 정신질환이 있는 사람은 포함이 된다(반대도 마찬가지). 연구주제가 사망, 평생 면역이 있는 전염성 질환, 혹은 만성질환의 경우 해당 질환자들은 상대적으로 쉽게 분모에서 제외될 수 있으나 여러 번 걸릴 수 있는 질환의 경우 질병에 걸려있는 동안에는 질병에 걸릴 위험도가 없지만 회복된 이후엔 다시 위험에 노출된 집단에 포함된다. 이처럼 위험 인구집단을 파악하는 것은 단순하지 않고 분자 발생에 따라 변화하는 속성을 가진다. 이러한 접근은 유병률을 산출할 때도 같지만, 유병률은 질병의 규모를 파악하는데 초점이 있으므로 위험에 노출된 인구집단을 정확히 가려내기보다는 전체 인구집단을 적용하는 경우가 많다.
둘째로 분모를 시간 즉 인원수가 아니라 관찰 인구수와 기간의 곱(person-time)으로 할 수 있다. 각 사람이 추적된 기간을 고려하는 것으로, 인구수는 같아도 관찰 기간이 달라지면 위험에 노출된 정도가 다르다는 것을 고려하기 위해 만들어진 것으로 일반적으로 인년(person-year) 단위를 사용한다. 이때 관찰된 모든 기간이 질병 발생과 관련이 있는 것은 아니므로 위험 추적 기간만을 포함시킨다(노출평가 참고).
분모에 시간적 개념을 적용하는 것은 발생률 산출 시 더욱 정확한 값을 제시할 수 있는 장점이 있다. 그러나 추적이 가능한 연구 형태(코호트 연구)에서만 적용될 수 있으며 산출과정이 인구수로 하는 경우보다 다소 복잡하다는 단점이 있다. 이 외에 1) 단위가 시간 개념이므로 실제 인구수를 보여주는 것이 아니어서 공중보건학적으로 구체적인 의미를 전달하는 데 한계가 있다. 일반적으로 한 사람을 1년간 관찰한 인년 단위를 사용하여 인원수와 같게 해석한다. 2) 인년 단위는 모든 사람이 질병에 걸릴 위험이 같다는 것을 전제로 계산된 것이지만 실제 질병에 걸릴 위험은 인구집단 내의 각 사람의 나이와 코호트 입적 시기 등에 따라 다를 수 있다. 예를 들어 내가 경험한 1년이 다른 사람이 경험한 1년과 질병 발생 위험성이 같지 않다면 시간 단위 사용의 가정은 성립되기 어렵다. 3) 많은 인원수를 짧은 기간에 관찰한 위험도가 적은 인원수를 오랜 기간 관찰한 위험도와 같지 않을 수 있다. 즉 인년 계산은 질병 발생이 시간에 따라 균일하게 발생한다는 전제이지만, 전체 인년이 같더라고 의미하는 바는 다를 수 있다. 예를 들어 10,000명을 2년 추적 조사한 연구에서는 비록 인년이 길다고 하더라도 질병 잠재기를 고려하면 합리적인 암발생 연구 결과를 산출할 수는 없다. 이보다는 2,000명을 10년 추적한 연구가 같은 인년값을 가지면서 질병의 잠재기를 합리적으로 반영한 결과를 제시할 수 있다.
분모를 인구수 혹은 인년 단위로 할지는 연구에 따라 적용한다. 추적 기간이 상대적으로 짧은 경우는 인년 단위를 사용하는 장점이 크지 않아 분모로서 인구수를 사용한 발생분율 지표를 사용할 수 있다. 반면 추적 기간이 긴 경우는 추적 기간이 각 개인별로 다를 수 있어 인년 단위의 지표가 더 적합하다. 특히 만성질환에 관한 연구에서는 노출 이후 질병 발생까지의 기간이 길어 분모로서 인년 단위를 흔히 사용한다.
발생률을 거꾸로 표현하면 사건이 발생될 때까지의 기간(waiting time)이 된다(위험률이 시간에 따라 변하지 않는 조건에서). 즉 발생분율은 사람 대 사람이 분자와 분모로 나누어진 형태이므로 단위가 없지만, 발생률은 인구수와 인구수-시간의 비율이므로 결국 '1/시간'의 단위가 되며, 이것의 역수는 1명의 환자가 발생될 때까지의 시간이 된다. 예를 들어 어떤 인구집단의 사망률이 10/1,000인년이라고 할 때 한 사람의 사망이 일어날 때까지의 기간(역수)을 구하면 100년이 되며, 사망이 발생할 때까지의 시간, 즉 예상 생존률(expected survival time)이 100세라는 의미가 된다.
위험도 혹은 위해도(risk)는 특정 기간 추적된 개인 혹은 집단이 질병에 걸릴(혹은 사망할) 확률을 의미한다. 발생분율(incidence proportion)을 위험도로 표현하기도 하며 발생률에 해당 시간(time)을 곱해서 산출하기도 한다. 위험도 값은 0과 1 사이를 가지며 시간적 단위가 없는 수치로 표현된다.
위험도의 해석을 위해서는 위험 시간(risk period)에 대해서 같이 표현하여야 한다. 예를 들어 '60세 여성이 심혈관질환으로 사망할 확률이 2%이다'라는 표현은 어떤 의미인지 불분명하다. 왜냐하면 사망할 확률이 24시간 내인지 1년 혹은 10년 동안의 위험도인지에 따라 해석이 달라지기 때문이다.
누적 위험도(cumulative risk)는 사망이나 질병발생에 대한 특정 기간 동안의 누적된 위험을 말한다. 이처럼 시간에 따라 변화하는 위험도를 누적해서 산출하는 것을 생존분석이라고 한다. 이를 위해 시간의 흐름에 따른 질병 발생으로 분모가 감소하는 것을 고려해서 파악하는 것이 필요하다.
위험도 산출 시 추적 중 보고자 하는 질환이 아닌 다른 질환으로 사망하게 되는 경우를 경쟁위험도(competing risk)라고 하며 이로 인해 위험도 산출의 분자와 분모 값이 변할 수 있다. 건강 영향이 치명적일수록 이 요인은 최소화할 수 있지만 덜 치명적인 질환일수록 영향을 많이 줄 수 있고, 추적 기간이 짧은 기간일 때 보다 긴 기간일 경우 더욱 중요하게 고려해야 한다. 경쟁위험도가 고려될 필요가 없는 상황은 총사망인 경우이며, 사망 외의 다른 건강 영향 주제들은 다른 사망이라는 경쟁위험도가 존재한다.
오즈(odds)는 분자와 분모로 계산된 확률을 나눈 비(ratio)를 의미한다. 즉 질병 혹은 노출이 발생할 확률(p)과 발생하지 않을 확률(1-p)을 나눈값이다(p/[1-p]). 오즈는 확률을 통해 산출하는 지표이므로 확률 크기에 따라서 오즈와 확률이 비슷할 수도 있고 차이 날 수도 있다. 예를 들어 방사선에 노출되어 1,000명 중 1명이 암에 걸린다면 발생확률은 1/1,000, 발생하지 않을 확률은 999/1,000이며 방사선 노출로 암에 걸릴 오즈는 1/999 [(1/1,000)/(999/1,000)]로서 확률값 1/1,000과 거의 같게 산출된다. 반면 흔히 발생하거나 유병이 높은 질병의 경우 오즈는 발생(유병)분율을 과대평가할 수 있다.
오즈는 확률 혹은 위험도 값보다 자료처리 과정에서 유리한 특성이 있다. 표 2.5.1과 같이 확률이라는 값은 0-1 사이에 국한된 지표이지만, 확률을 오즈 변환하게 되면 값이 0과 무한대로 펼쳐지게 할 수 있다. 그런데 오즈는 음수를 포괄하지 못하고 비대칭이라는 제한점이 있다. 따라서 오즈에 자연로그를 취하면(이를 로짓[logit]이라고 한다) 음의 무한대에서 양의 무한대 범위를 갖는 대칭형 분포를 하게 되어 자료를 활용하는데 유리하다. 확률 혹은 위험도를 로짓으로 전환하는 과정을 로지스틱 변환(logistic transformation)이라 하며 로지스틱 분석에 활용한다. 이처럼 자료 분석 시 관찰된 자료를 그대로 사용하는 것이 아니라 전환해야 할 필요가 있거나 전환하는 것이 유용한 경우들이 있다.
또한 오즈로 표현할 때 쉽게 이해되는 경우들이 있다. 예를 들어 내가 이길 확률이 75%이고 그렇지 않을 확률이 25%라는 표현보다는 내가 이길 오즈가 3:1이라고 하는 표현할 수 있다 (수리적으로 표현하면 0.75/1-0.75 = 3 이 된다). 반대로 질 확률이 75%인 경우 대칭적으로 1:3이 되면 이해하기 쉽다.
표 2.5.1 확률(probability), 오즈(odds), 로짓(logit)의 관계
상대위험도(relative risk)는 두 집단의 위험도(혹은 발생률)의 상대적인 비(ratio)로서 두 지표를 조합한 지표이다. 상대위험도의 종류에는 율(rate)을 비교한 율비(rate ratio), 위험도(risk)를 비교한 위험도비(risk ratio), 오즈를 비교한 오즈비(odds ratio)가 있다. 상대위험도는 단위를 갖고 있지 않으며 로그 단위를 취해 대칭성을 갖는다. 같은 상황에서도 어떤 지표로 상대위험도를 구했는지에 따라 값이 다르게 산출된다. 예를 들어 표 2.6.1과 같이 발생률을 기준으로 하면 2.0의 상대위험도, 발생분율을 비교할 경우에는 1.9, 오즈를 비교한 오즈비는 2.11의 값이 산출된다. 일반적으로 산출된 값의 크기는 분율비, 발생률비, 오즈비 순으로 크다.
표 2.6.1 10년간 20,000명을 추적한 가상자료에서의 상대위험도 값 비교
상대위험도는 위험요인에 노출될 때 질병 발생의 위험이 얼마나 증가하는지를 알려주는 연관성의 강도(strength of the association)를 나타낸다. 상대위험도는 1.0을 중심으로 보호 요인이면 0-1까지의 범위, 유해 요인이면 1에서 무한대의 범위 값을 갖는다. 즉 상대위험도가 1이라는 것은 노출된 집단과 노출되지 않은 집단의 질병 발생 위험이 같다는 것을 의미하며 1보다 크다는 것은 특정요인에 노출된 집단의 질병 발생위험이 노출되지 않은 집단에 비해 증가한다는 의미이며, 1보다 작다는 것은 특정 요인에 노출되는 경우 질병 발생 위험이 줄어든다는 의미이다. 예를 들어 방사선 노출자들이 비노출 집단보다 암발생이 2배 높다면 상대위험도는 2가 된다.
오즈비 혹은 교차비는 비노출집단에서 환자의 오즈(즉 확률의 분율)와 노출집단에서 환자의 오즈의 비로 정의된다. 오즈값 자체는 질병의 절대위험도를 파악할 수 없지만 오즈비(odds ratio)를 사용하면 상대위험도를 파악해 연관성 지표로 활용할 수 있다. 따라서 발생률을 산출하지 못하는 단면연구 및 환자-대조군 연구에서 발생률 비의 대리지표로서 사용된다. 이때 오즈비가 발생률 비를 반영하는 정도는 질병의 크기에 영향을 받아, 만약 드문 질병의 경우라면 거의 비슷하지만 흔한 질병의 경우라면 두 지표간 차이가 크게 나타난다. 예를 들어 노출군과 비노출의 발생률이 각각 60%와 30%일때 위험도(발생률) 비는 2.0이지만 오즈비는 3.5가 된다(0.60/[1-0.60])/(0.30/[1-0.30]). 어느 정도의 확률일 때 오즈비가 발생률 비 대신 사용해도 되는지에 대해 정해진 답은 없으나 흔히 10% 미만을 제안한다. 발생확률이 높아질수록 발생률과 오즈의 차이가 커지므로 오즈비 해석에 주의를 기울여야 한다.
관찰된 상대위험도 값(연관성의 크기)은 인구집단의 특성과 시점에 따라 변할 수 있다. 예를 들어 폐암은 흡연과 높은 연관성(높은 상대위험도)을 보이지만 라돈과는 상대적으로 낮은 상대위험도를 보인다. 그런데 만약 인구집단 전체가 금연을 한다면(즉 해당 인구집단의 흡연율이 변하면), 폐암 환자의 대부분은 라돈에 의해 발생하여 라돈의 상대위험도 값은 커질 수 있다(마치 호랑이가 없어지면 늑대가 상위 포식자로 등장하는 것과 유사하다). 즉 상대위험도에 의한 강도(strength)는 비노출집단에서의 질병 발생에 대한 기저위험률에 따라 달라지기 때문에 절대적인 값이 아니며, 같은 노출량에 의해서도 인구집단에 따라 그리고 같은 인구집단이라고 하더라도 조사된 시기에 따라 다른 값이 나올 수 있다.
(가) 기여위험도
기여위험도(attributable risk) 혹은 기여위험분율(attributable fraction)는 노출군과 비노출군에서의 발생률의 차이로 노출이 질병 발생에 얼마나 기여하였는지를 수량적으로 보여주는 지표이다(예를 들어 방사선으로 인한 추가적인 암발생의 크기가 얼마인지 등). 즉 특정 위험요인을 제거했을 경우 질병 발생을 얼마나 예방할 수 있는지를 의미한다. 이 지표는 두 집단의 위험도 차이를 비가 아닌 절대값의 차이(risk difference)를 통해 산출한다. 즉 노출로 인한 단위 인구집단 내 추가로 발생한 질병자의 절대적 크기(노출군의 발생률-비노출군의 발생률)를 의미한다. 율(rate)과 위험도(risk)지표 모두에 적용할 수 있어 초과율(excess rate) 혹은 초과위험도(excess risk)라고 표현하기도 한다.
기여위험분율은 노출군과 비노출군에서의 발생률의 차이를 노출군에서의 발생률로 나눈 값으로 노출군에서의 상대적 기여분율을 의미한다. 즉 [(노출군의 발생률-비노출군의 발생률)/노출군의 발생률] × 100으로 산출한다. 이때 만약 발생률을 직접 파악할 수 없는 경우라면 노출군에서의 상대위험도를 활용하여 산출하기도 한다. 즉 기여위험도는 (노출군의 상대위험도-1)/노출군의 상대위험도가 되며, 기여위험분율은 [(노출군의 상대위험도-1)/노출군의 상대위험도] × 100으로 산출한다. 산출된 값은 노출자에서 발생한 질병자중에서 얼마나 (%) 노출에 의해 기여된 것인지를 의미한다.
예를 들어 표 2.7.1과 같이 일본 원폭 생존자 코호트 연구에서 전체 고형암으로 17,448명이 사망하였고 기저 사망자가 16,595명으로 853명은 방사선 노출로 인한 초과 사망자였다(이 경우 기저사망자와 초과사망자는 직접 관찰된 것이 아니라 모델에 의한 추정값이다). 이를 5mGy 이상 노출자들로만 국한하여 초과사망자(fitted excess)를 실제 관찰된 사망자(cases)로 나누면 10.7%의 값이 산출되며, 이 값은 해당 인구집단의 사망자 중 방사선 노출로 추가적인 고형암 사망이 발생한 분율(기여위험도)로 해석한다. 이러한 기여위험도 분율은 선량별로 차이가 있어, 낮은 노출선량의 경우 1.8%이며 2Gy 이상인 경우는 61%으로 노출량이 많을수록 증가하였다.
표 2.7.1 일본 원폭 생존자 연구에서 선량 구간별 고형암 사망에 대한 기여분율
기여위험분율을 분모로 하여 1을 나누면(1/기여위험분율), 질병자 한 명이 발생하는 데 필요한 노출인원수(number needed to harm)가 된다. 예를 들어 방사선 노출에 의한 기여위험분율이 10%라고 하면 그 역수는(1/0.1) 방사선 노출로 인해 암환자 1명 이 발생되기 위해서는 10명의 방사선 노출자가 필요하다는 의미이다. 만약 질병을 예방하는 인자 혹은 치료법의 경우에 적용하면 효과가 나타나는 데 필요한 인원수(number needed to treat)를 의미한다. 이러한 지표는 상대위험도나 오즈비보다 직접적인 의미를 전달해 주는 장점이 있다.
기여위험도는 서로 다른 원인 인자들 각각의 입장에서 산출된 값으로, 각 요인들 간의 상호작용을 고려하면 상한선이 없어 100%를 넘을 수 있다. 예를 들어 35명의 암 발생자중에서 방사선 고노출로 4명, 흡연으로 9명, 방사선과 흡연에 동시에 노출된 경우 21명, 두 요인에 모두 노출되지 않는 경우 1명의 암이 발생한 경우에, 방사선 고노출에 의한 기여위험도는 71%(4/35 + 21/35)이며 흡연에 의한 기여위험도는 86%(9/35 + 21/35)로 산출된다. 즉, 각 위험 노출 요인은 자체의 독립된 효과뿐 아니라 공동 노출에 의한 효과를 함께 갖고 있다. 따라서 해당 요인을 없애면 그 자체의 요인에 의한 영향뿐 아니라 공동 노출로 발생한 질병도 함께 예방할 수 있다. 방사선과 흡연에 함께 노출되어 발생한 21건의 암은 반드시 두 요인이 함께 노출되어야만 발생하는 경우들이기 때문이다.
(나) 인구집단기여위험도
기여위험도를 노출군과 비노출군 모두 포함한 전체 인구집단으로 확대하였을 때를 인구집단기여도(population attributable risk)라고 한다. 즉 인구집단기여위험도는 위험요인이 전체 인구집단의 질병자중에서 노출에 의해 기여하는 부분을 의미하는 것으로, 만약 해당 위험요인이 없다면 전체 인구집단에서 질병을 예방할 수 있는 정도를 나타낸다.
인구집단기여위험도를 산출하는 방식은 기여위험도에서와 마찬가지로 전체 인구집단에서의 질병 발생률에서 특정 위험요인에 노출된 군에서의 발생률을 빼는 방식을 적용한다. 이때 기여위험도 산출방식과 달리 노출군의 발생률 대신 비노출군까지 포함된 전체 집단에서의 발생률과 비노출군의 발생률과의 차이를 산출한다. 즉 인구집단기여위험분율은 [(전체 인구집단의 발생률-비노출군의 발생률)/전체 인구집단의 발생률]×100로 산출한다. 이때 노출 분율이 1이면 (모든 사람이 노출되면) 인구집단기여위험도는 결국 기여위험도와 같다.
집단 내 발생률을 알기 어려운 경우에는 해당 위험요인의 상대위험도(relative risk)와 그 요인의 노출 분율(exposure proportion)을 근거로 산출한다. 즉 인구집단 기여위험도는 [노출분율×(상대위험도-1)]/[노출분율×(상대위험도-1)+1]로, 인구집단기여위험분율은 [노출분율×(상대위험도-1)]/[노출분율×(상대위험 도-1)+1]×100으로 산출한다. 따라서 인구집단기여위험도 값은 위험요인의 상대위험도가 높거나 지역사회 내 노출 분율이 높으면 증가한다. 만약 높은 상대위험도이지만 노출 인원수가 적으면 인구집단기여위험도는 낮을 수 있으며 반대로 낮은 상대위험도를 갖지만 노출 인원수가 많은 경우 인구집단기여위험도가 클 수 있다. 만약 어떤 위험요인이 발암성은 높지만, 매우 적은 사람들에게만 노출되었다면 그 물질에 직접 노출된 집단(특수 직종 종사자)에서의 암 위험도는 커서 기여위험도는 큰 값을 보이지만, 전체인구에서의 노출 분율은 작아 인구집단기여위험도 값은 상대적으로 작은 값을 보이게 된다.
진단방사선 사용에 의한 방사선 노출이 암 위험에 기여하는 정도를 15개 나라들에 대해 산출한 바 있다. 표 2.7.2에서와 같이 전체 암 발생에서 방사선에 의한 기여위험도는 0.6-3.2% 수준이었으며 조사된 나라들 중 영국이 가장 적었고 일본이 가장 높았다. 즉 영국의 경우 전체 암의 0.6%, 일본의 경우 전체 암의 3.2%가 진단용 방사선 노출에 의해 발생한다고 해석되었다(이 값을 해당 국가의 기저 암발생률에 적용하면 영국의 경우 매년 700명, 일본은 7,587명의 암이 진단방사선 때문에 추가적으로 발생하는 것으로 산출되었다). 한편 영국에서 자연방사선을 포함한 전체 전리방사선으로 확대하면 인구집단기여위험도는 2010년도에 1.8%로 추산된 바 있다(남성 1.7%, 여성 2.0%). 이때 방사선의 기여 정도는 암종별로 차이가 있어 남성에서는 폐암이 4.2% 여성에서는 백혈병이 10.4%로 가장 높았다.
표 2.7.2 진단방사선 노출에 의한 75세까지의 누적 암위험도에 대한 국가별 비교
인구집단기여위험도는 특정 노출로 인한 질병 기여 정도의 국제 간 비교, 각 나라 내에서의 위험요인별 질병 위험의 비교, 개별 위험요인에 대한 인구집단 및 장기별 위험의 비교에 대한 근거를 제공함으로써, 보건사업의 우선순위 결정에 유용하게 활용되는 지표 중 하나이다. 그런데 인구집단기여위험도를 산출할 때 상대위험도가 같더라도 노출 정도에 따라 각 나라 및 인종별로 다른 값을 보일 수 있으며, 같은 위해 요인이라고 하더라도 질병 발생에 대한 상대위험도는 기저율 차이로 인해 각 나라별로 다를 수 있다. 따라서 특정 인구 집단에서 산출된 기여위험도는 다른 인구집단에 일반화시킬 수 없으며, 나라별 특이적인 노출분율과 위험도에 근거한 산출 작업이 필요하다.
한편 인구집단기여위험도 지표가 특정 요인에 의한 질병 기여 정도를 저평가할 수 있다. 왜냐하면 아직 연관성이 확인되지 않은 발암물질, 혼합물질의 상호작용, 낮은 농도의 발암물질에 광범위하게 노출된 인구집단 등을 포괄하지 못할 수 있기 때문이다. 따라서 인구집단기여위험도 값을 올바로 해석하기 위해서는 산출과정에서의 각 단계별 제한점 및 불확실성을 이해할 필요가 있다.
(다) 인구집단기여위험도의 불확실성
인구집단기여위험도 산출과정에서의 불확실성(uncertainty)들을 직업성 질환에 의한 악성종양 사례로 살펴보면 다음과 같다. 첫째는 발암물질의 선정 과정에서의 불확실성이다. 인구집단기여분율 산출의 첫 단계는 발암물질로서 어떤 물질을 포함할 것인지이며 이때 포함되는 물질이 무엇이냐에 따라서 결과가 크게 달라진다. 확인된 발암 물질들은 수많은 화학물질 중 매우 일부임을 고려할 때 이 물질들만으로 국한하여 산출할 경우 과소평가할 수 있다. 따라서 직업성 암 규모 산출 시 확인된 발암물질(Group 1)과 함께 발암성이 추정된 물질(Group 2A)도 포함하기도 한다. 확인된 물질만을 대상으로 한 경우와 발암성이 추정된 물질까지 포함한 경우를 비교 분석하는 것도 유용하다. 그러나 발암성이 확인된 물질이라도 노출 정보가 없으면 기여분율을 산출하는 데 포함할 수 없다. 따라서 각 나라별 산출에 포함시킬 수 있는 발암물질의 종류가 달라질 수 있다.
둘째는 악성종양의 종류 선정 과정에서 불확실성이 존재한다. 인구집단기여분율 산출 시 어떤 암종을 연구에 포함할 것인가에 따라 값이 다를 수 있다. 즉 발암 물질 선정 단계에서 확인된 발암물질이라고 하더라도 각 신체부위에 따라 인과성이 확인된 암종이 있고 그렇지 않은 암종이 있다. 일반적으로 각 발암물질에 직접적인 인과성이 있는 악성종양들만 선정할 경우 기여분율이 과소 평가될 수 있어 인과성이 의심되는 부위의 악성종양의 포함도 고려할 필요가 있다. 또한 암 진단 기술이 발달되어 조기진단이 된다면 기존 위험인자로 알려진 발암물질이 암 발생에 같은 크기의 위험인자로 작용했을 것인지는 확실하지 않다. 왜냐하면 초기의 작은 암종은 노출인자에 기인하여 생기지 않을 수도 있기 때문이다. 이러한 문제는 조기진단이 잘 되는 암종(갑상선암, 전립선암 등)에서 특히 크게 나타날 수 있다. 따라서 조기 진단된 암은 1) 직업성 발암물질과 관련 없는 암이 추가로 포함됨으로써 인구집단기여분율 값을 증가시킬 수 있으며, 2) 발암물질과는 관련성이 적어 비교위험도 값을 감소시킴으로써 인구집단기여분율을 감소시킬 수도 있다. 따라서 암의 검진 시기, 검사 방법, 병기 정도에 따라 나누어 발암물질의 기여분율을 살펴 보는 것도 중요하다.
셋째는 발암물질에 노출된 인구를 추정하는 단계에서 불확실성이 존재한다. 노출인구 산출은 잠복기를 고려하여 수십 년 이전의 상황을 추론하는 과정이므로 불확실성과 오류를 내재하고 있다. 예를 들어 20년의 기간을 설정한다면 2020년의 암 발생을 위해서 2000년도의 노출인구를 평가하게 되며, 30년의 잠복기를 설정할 경우에는 1990년도의 노출인구를 대상으로 기여분율을 평가하게 된다. 그리고 산업구조의 변화에 따라 1990년보다 2000년의 노출인구가 많아질 수도 혹은 적어질 수도 있으며 상대위험도에 영향을 주는 노출의 강도도 변할 수 있다. 그런데 과거 수십 년간의 노출이 지속적으로 감소하였다면 그 전 노출 정도를 기준으로 한 상대위험도에 기초한 기여분율은 과대평가될 수 있다. 따라서 현재 암발생 및 사망에 영향을 주었을 것으로 판단된 직업성 발암물질의 위험노출기간을 충분히 길게 설정하면 노출 인구가 늘어나며 짧게 설정하면 노출 인구가 감소하게 된다. 또한 발암물질 노출인구 산정에서 한 사람이 평생 하나의 직종에만 근무하는 것이 아닐 수 있으며 직종을 변경할 경우에는 이직율(turnover rate)을 고려하는 것이 필요하다. 한편 발암물질에 얼마나 많은 인구가 노출되는가를 추정하는 것은 어떤 노출 자료원을 사용하는가에 따라 다를 수 있다. 기존 자료원들은 노출 인구를 정확히 평가하기 위해 만들어진 자료라기보다는 행정적 목적으로 구축되었기 때문에 과소 혹은 과대 평가될 가능성이 있다. 따라서 단일한 정답이 얻어지기 어렵고 여러 자료들을 확보하고 경험적 자문을 통해 최대한 합리적으로 추론하는 것이 중요하다.
넷째로 인구집단기여분율을 산출할 때 사용되는 상대위험도 선정 시 불확실성이 존재한다. 일반적으로 상대위험도 값은 체계적 문헌 고찰 및 메타 연구를 통해 얻은 대표값을 적용하는 방법 혹은 가장 질 좋은 연구에서의 단일값을 적용한다. 그러나 암 발생에 대한 상대위험도는 같은 발암물질이라고 하더라도 나라별 노출 정도, 성별 인종별 기저 위험도의 차이로 서로 다른 값을 가질 수 있다. 따라서 다른 연구에서의 상대위험도 값을 그대로 적용하는 것은 이상적이지 못하며, 인구집단별 잠재적인 상대위험도의 차이는 기여분율 값의 차이를 산출한다. 이처럼 기존에 산출된 각 암종별 상대위험도 값들을 특정 연구에 적용하기에는 노출 연도, 인종, 상황, 연령 등이 다르기 때문에 하나의 상대위험도 값보다는 여러 상황을 가정하여 범위를 설정하는 것도 필요하다. 또한 만약 노출 정도별 상대위험도가 구분되어 파악할 수 있다면 노출 정도를 인구 분율로 나누어서 각각의 상대위험도(예를 들어 발암물질의 노출 정도를 저노출 및 고노출 군으로 나눈 후 각 노출집단 별로 다른 상대위험도 값을 할당)를 적용하는 것이 바람직하다.
종합적으로 인구집단기여분율의 값은 유용한 역학지표이지만 사용된 자료들과 적용 방식의 차이에 따라 다르게 추정될 수 있다. 각 연구마다 다소 상이한 수치는 어느 것이 맞고 틀리는 문제라기보다는 기여분율 산출 각 단계에 서로 다른 방법을 적용한 차이인 경우가 많다. 따라서 인구집단기여분율 산출과 관련된 자료 및 방법에 대한 지속적인 보완 및 개선을 통해 가능한 범위에서 가장 합리적인 접근을 해 나가는 것이 중요하다.
초과위험도는 초과상대위험도(Excess Relative Risk, ERR)와 초과절대위험도(Excess Absolute Risk, EAR)로 표현한다. 초과상대위험도는 상대위험도에서 1.0을 뺀 값으로 노출요인으로 초과된 상대위험도 값을 의미한다. 이 지표는 노출로 인해 몇 배 초과되는 질병 위험도를 갖는지를 나타낸다. 초과절대위험도는 노출군의 절대위험도와 비노출군의 절대위험도의 차이로서 추적 인년당 노출로 인해 질병 발생이 얼마나 되는지를 나타내는 지표이다. 즉 기저 위험도와는 독립적으로 노출에 따른 절대적인 질병 발생의 증가를 의미한다.
초과절대위험도는 [(노출군환자수-비노출군환자수)/관찰인년 X 평균 선량]으로 초과상대위험도는 [(노출군질병률/비노출군질병률)-1/ 평균 선량]으로 표현되는 개념이다. 즉 일반적인 기여위험분율 및 상대위험도 산출과정과 유사하나 분모에 선량을 포함하여 단위 선량당 초과절대환자수 혹은 초과상대위험도로 나타낸다. 이것이 식으로 구현되면서 초과절대위험도 모델은 덧셈(addictive) 위험도를, 초과상대위험도 모델은 곱셈(multiplicative) 위험도를 제공한다.
만약 초과상대위험도가 0.5라면 노출량당 기저 위험도(율)보다 50% 증가된 위험도를 의미하며, 초과절대위험도가 10만 명당 10이라면 노출로 인해 추가적으로 10명의 질병 발생이 생긴다는 것을 의미한다. 초과절대위험도는 초과상대위험도에 기저위험도를 곱한값(EAR = ERR × baseline risk)으로 표현된다. 즉, 기저위험도가 10만 명당 20명인 집단에서 노출로 질병 발생이 50% 증가되면(ERR=0.5) 초과절대위험도는 0.5 × 20/10만 명(EAR=10명/10만 명)으로 산출된다. 초과상대위험도는 위험도의 비(ratio)를 나타내며 노출과의 연관성 크기를 의미하고, 초과절대위험도는 위험도의 절대적 차이(difference)로서 인구집단에서의 노출로 인한 질병의 크기에 대한 정보를 제공한다.
초과상대위험도와 초과절대위험도는 각각 서로 다른 측면에서 상호 보완적으로 초과위험도를 표현한 것으로, 상대위험도 지표가 크다는 것이 반드시 절대위험도가 크다는 의미는 아니다. 예를 들어 방사선 노출에 의한 백혈병의 상대위험도는 전체 고형암보다 크지만, 백혈병의 발생률은 전체 고형암보다 적기 때문에 절대위험도는 고형암에서 크게 산출된다. 어떤 지표를 사용하느냐에 따라 다른 해석을 할 수 있어, 한 가지 지표만을 제시하는 것보다 두 가지 모두를 사용하는 것이 더욱 많은 정보를 제공해준다. 따라서 각 연구에서 상대위험도만을 보고할 때도 비노출군의 기저 위험도(절대값)를 함께 제시하는 것이 바람직하다.
초과상대위험도와 초과절대위험도의 관계를 도식화하면 그림 2.8.1과 같다. 예를 들어 방사선 노출에 의한 추가적인 초과절대위험도(EAR)가 일정하다면 초과상대위험도(ERR) 값은 연령에 따라 감소한다(그림 2.8.1의 a). 왜냐하면 기저위험도의 사망은 연령에 따라 증가하기 때문이다. 반대로 초과상대위험도가 0.5로 일정하다면 초과절대위험도는 연령증가에 따라 급격히 증가한다. 왜냐하면 기저율보다 50%의 증가된 값을 유지하기 위해서는 연령증가에 따른 초과 사망자 숫자가 증가해야 하기 때문이다(그림 2.8.1의 b).
그림 2.8.1 초과상대위험도와 초과절대위험도의 관계
a) 일정한 초과절대위험도와 감소하는 초과상대위험도
b) 일정한 초과상대위험도와 증가하는 초과절대위험도
초과상대위험도와 초과절대위험도는 기저 위험도에 추가적인 위험이 곱해지거나 더해진 형태로 선형(linear) 선량-반응 모델로 제시하면 각각 λ0(a,s)[1+ρ(d)] 와 λ0(a,s) + ρ(d)으로 표현된다. 이때 a는 연령, s는 성별, λ0은 기저 발생률, d는 노출량, ρ는 노출단위당 초과상대위험도(즉 ρ(d)는 선량-반응 함수)를 의미한다). 즉 초과위험도 산출을 위해서는 기저위험 λ0(a,s) 모델(background model)을 먼저 구축하고 여기에 노출로 인한 추가적인 위험도를 곱하기 혹은 더하기 형태로 산출한다. 기저 위험에 성별과 연령외에 다른 변수들(지역, 시기, 직업 등)을 포함할 수도 있다.
방사선 노출에 의한 초과상대위험도 모델은 간단히 RR(d)=1 + βd로 기술될 수 있으며, 여기서 RR(d)는 선량 d에서 상대위험도, βd는 단위 선량당 초과상대위험도를 의미한다(예를 들어 100 mGy 당 ERR). 초과상대위험도의 함수는 λ(선량) = eβ1(1 + β2 × 선량)의 형태로서 방사선에 의한 건강 영향이 선량에 선형함수를 갖는다는 가정에 근거한다. 일반적인 상대위험도 모델이 위험요인들과 위험도 간에 로그-선형모델을 취하는 것에 비해, 초과상대위험도는 선량에 의한 위험도를 선형모델을 가정하여 선량-반응 분석 시 선량의 효과를 직접적으로 설명한다. 선형모델이 방사선 건강영향에 대한 역학연구에서 기본적으로 사용되고 있는 이유는 방사선생물학적 모델에 의해 지지가 되고 있으며 대부분의 역학연구에서도 실제로 관찰되기 때문이다.
방사선 노출에 의한 선량당 초과절대위험도 함수는 λ(선량)=eβ1 + β2 × 선량으로 표현될 수 있으며 기저율(baseline rate)과 상관없이 절대위험도가 추가로 더해지는 개념이다. 이처럼 초과절대위험도는 선량에 의한 추가적인 위험도가 더해지는 형태로 기저율과 독립적이지만, 초과상대위험도는 선량에 의한 초과위험도가 곱해지는(기저율에 비례하여 증가하는) 형태로 기저율의 크기에 영향을 받는다. 반대로 집단간 질병의 기저율이 비슷하거나 집단내에서 각 요인별로 비슷하다면 초과상대위험도와 초과절대위험도 값의 차이는 적다.
일본 원폭 생존자 코호트 연구에서 방사선 노출에 의한 건강영향을 산출하기 위해 Epicure라는 자료분석 프로그램을 만들어 사용하고 있다. 현재 이 프로그램은 방사선 역학연구에서 선량당 초과위험도 산출하는 기본 도구로로 활용되고 있다. 특히 포아송 회귀분석에 사용하기 위한 인년(person-year) 표를 고차원적으로 생성할 수 있다는 장점이 있어 방사선 역학 자료뿐 아니라 다양한 대규모 코호트 자료 분석에 널리 활용되고 있다. 또한 이 프로그램은 선량-반응 모델링과 위험요인 간의 효과변경 작용(effect modification)을 평가하는 데도 유용하다. 국내 의료방사선 종사자 코호트에서도 직업적 방사선 노출에 의한 암발생의 초과상대위험도를 Epicure로 산출한 바 있으며 부록에 산출과정을 사례로서 제시하였다.
Berrington de González A, Darby S. “Risk of cancer from diagnostic X-rays: estimates for the UK and 14 other countries.” Lancet. 2004;363(9406):345–51.
Cléro E, Vaillant L, Hamada N, Zhang W, Preston D, Laurier D, et al. “History of radiation detriment and its calculation methodology used in ICRP Publication 103.” J Radiol Prot. 2019;39:19–35.
International Commission on Radiological Protection(ICRP). “The 2007 Recommendations of the International Commission on Radiological Protection.” ICRP Publication 103. Ann. ICRP 37 (2-4). 2007.
National Research Council (NRC). Assessment of the Scientific Information for the Radiation Exposure Screening and Education Program. Washington D.C. National Academies Press. 2005.
Pearce N. “Classification of epidemiological study designs.” Int J Epidemiol. 2012;41(2):393-7.
Porta M. A dictionary of epidemiology. 6th edition. Oxford University Press. 2014.
Preston DL, Ron E, Tokuoka S, Funamoto S, Nishi N, Soda M, et al. “Solid cancer incidence in atomic bomb survivors: 1958-1998.” Radiat Res. 2007;168(1):1-64.
Rothman KJ. Epidemiology: An introduction. 2nd edition. Oxford University Press. 2012.
Westreich D. Epidemiology by Design: A Causal Approach to the Health Sciences. Oxford University Press. 2020.