코호트 연구(cohort study)는 동일한 특성을 가진 인구집단을 추적 관찰하는 연구 방법이다. 코호트라는 용어는 로마 시대에 같은 명령을 수행하는 부대의 단위에서 유래된 것으로 구성원 간 동일한 특성을 갖는 것을 의미한다. 즉 같은 해에 태어난 사람들, 같은 사업장에 근무하고 있는 종사자들, 혹은 같은 질환이 있는 환자들을 코호트라고 표현할 수 있으며, 특성에 따라 다양한 코호트들이 정의될 수 있다. 방사선 역학 연구 분야에서 코호트 사례들로는 원폭 당시 방사선에 노출된 사람들, 원전 작업 종사자들, 방사선 작업을 수행하는 의료인들, CT 촬영을 받은 아이들, 방사선 치료를 받은 환자들, 체르노빌 사고 시 노출된 주민들, 혹은 생활 주변의 방사성 물질에 노출 가능성이 의심된 인구집단들 등 다양한 인구집단이 포함된다.
코호트 연구는 동일한 특성을 가진 인구집단을 선정하여 추적 관찰한 후에 노출 정도에 따라 질병 발생의 차이를 조사하는 방식으로 진행한다. 코호트 연구는 대규모 인구집단을 대상으로 오랜 기간 추적관찰 기간이 필요하므로 많은 시간과 비용이 소요되므로 코호트 연구를 장기간 안정적으로 진행하기 위해서는 코호트 특성이 분명하고 코호트 연구가 필요한지에 대한 학문적 배경이나 근거가 분명해야 한다. 또한 연구자만이 아니라 연구 참여자들 및 이해관계에 관련될 수 있는 기관들의 참여가 중요하며, 이를 위해서 모든 과정과 결과를 최대한 투명하게 하고 자료 활용도 공유되어야 한다.
코호트는 질병이 없는 대상자를 포함하는 것이 원칙이다. 그러나 병력이나 간단한 검사만으로는 주요 건강 영향들의 초기 단계 환자를 확인하지 못하는 경우가 있다. 따라서 등록 조건을 강화하거나 초반기 질병 발생자에 대해 잠복기를 고려하여 분석에서 제외하는 방법을 사용하기도 한다. 코호트 대상자에서 질병이 없다는 것은 연구하고자 하는 질환이 없다는 것을 의미하며 다른 질병이 있는 사람은 포함될 수 있다. 그러나 질병 유병자라 하더라도 평생 직업군 또는 오랜 기간 같은 지역에 거주하고 있는 주민들인 경우, 코호트 등록 시작 때부터 특정 요인에 노출이 시작된 것이 아니라, 이미 수십 년간 노출되어 왔기 때문에 단순히 질병 유병자로 간주하여 제외하는 것은 바람직하지 않을 수 있다.
코호트 규모는 클수록 노출과 질병과의 연관성을 분명히 밝히는 데 유리하다. 그러나 특이한 노출의 경우 비록 적은 인구집단이라 하더라도 코호트로서 추적되는 것은 충분한 의미가 있다. 코호트 연구에서의 모집 기간은 각 연구 상황에 따라 수년 단위로 다양하지만, 되도록 단축해 처음 입적된 대상자와 나중에 코호트에 모집된 대상자가 서로 다른 특성을 갖지 않도록 하는 것이 바람직하다. 질병의 확인은 설문 혹은 인터뷰, 임상검사, 건강검진 자료, 병원 기록과 사망 진단서 등을 통해서 파악한다. 노출 평가에서는 노출 농도만이 아니라 노출 기간, 횟수, 첫 노출 시기 등의 항목들도 파악하는 것이 중요하다. 또한 노출-반응 관련성을 효율적으로 파악하기 위해서는 노출 수준의 분포를 다양하게 확보하는 것이 필요하다. 코호트 연구에서는 전체집단에 자세한 검사를 모두 하기 어려우므로 전체집단은 간단한 검사를 시행하고 전체 중 일부 소규모 집단에 대해서는 자세한 검사를 통해 효율을 높이기도 한다(2-stage design).
코호트 연구는 1) 시간에 따른 질병 및 노출 상황의 변화를 파악할 수 있고 2) 다양한 질병 및 건강상태에 대한 정보를 확보할 수 있으며 3) 질병의 발생률을 직접 측정할 수 있다는 장점이 있다. 이러한 특성으로 코호트 연구에서는 다양한 역학 지표들(상대위험도, 기여위험도, 인구집단 기여위험도, 덧셈 및 곱셈상호작용 등)을 산출할 수 있다. 따라서 코호트 연구는 관찰 연구로서 인과성 추론에 가장 유용한 방법이지만 코호트 입적부터 추적까지 연구에 걸리는 시간이 길고, 비용이 많이 들기 때문에, 발생이 희소한 질병에 적용하기에는 효율성이 떨어진다. 코호트 연구에서 충분한 검정력을 갖는 합리적 결과를 산출하기 위해서는 1) 다양한 노출범위를 가진 2) 대규모 인구집단을 3) 장기간 추적 관찰하는 것이 핵심이다.
코호트 연구는 조사 시점을 기준으로 전향적 코호트 연구(prospective cohort study)와 후향적 코호트 연구(retrospective cohort study)로 나눈다. 모두 시점만 다를 뿐 시간적 방향성은 항상 전향적으로 노출부터 시작해서 건강 영향을 조사한다. 전향적 코호트 연구는 코호트를 구축한 시점에서부터 새롭게 추적 관찰하는 것으로 여러 정보를 주기적으로 확보할 수 있는 장점이 있으나 시간과 노력이 많이 소요된다. 후향적 코호트 연구는 기존에 수집된 자료를 통해 과거 노출 시점부터 현재까지의 추적을 수행하는 것으로 자료가 잘 갖추어진 경우에 사용된다. 그러나 후향적 코호트에서는 비치명적인 질병에 대해서는 자료가 수집되어 있지 못한 경우가 많아 주로 사망 및 암 발생 등 일부 건강 영향에 국한된다. 또한 과거 기록의 정확성과 상세함이 부족하다는 단점이 있어 연구목적과 부합되기는 쉽지 않다. 따라서 연구하고자 하는 질환의 잠복기가 짧으면서 흔한 질환이면 전향적 코호트 연구 설계가 유리하고, 잠복기가 매우 길거나 드문 질환인 경우에는 후향적 코호트의 적용이 유리하다. 그러나 최근 만성질환 발생률과 대규모 연구의 증가를 통해 질병별 연구 방법 선정에 대한 구별의 의미는 상대적으로 적어졌다.
후향적 코호트는 단지 시간과 비용을 줄일 수 있는 효율적인 접근만이 아니라 연구의 의미에서도 중요하다. 왜냐하면 과거의 유해물질 노출이 대체로 현재보다 높았기(high exposure) 때문에 전향적 코호트 집단보다 고노출에 의한 건강 영향을 파악할 수 있다는 장점이 있다. 또한 특정 노출이 유해하다고 생각되면 전향적인 연구를 시행해서 수십 년을 기다린다는 것은 비윤리적(unethical)이다.
노출이 과거부터 지속해서 발생하고 있는 경우 후향적 및 전향적 연구 모두를 결합된 형태로 수행하기도 한다. 예를 들어 유럽의 대규모 CT 코호트 연구(EPI-CT)에서는 연구 시작 시점을 기준으로 의무 기록자료를 통해 과거에 CT 촬영한 어린이들을 현재까지 후향적으로 추적하고, 동시에 향후 CT를 촬영하는 어린이들은 전향적으로 모집 및 추적하고 있다.
한편 단면연구에서 과거의 노출 및 건강 상태를 파악하는 것이 후향적 코호트와 유사해 보일 수 있지만, 후향적 코호트 연구에서는 1) 노출과 건강 상태가 다른 시간대에 조사되며(즉 노출이 먼저 파악되고 건강상태가 나중에 평가된다) 2) 특정 노출 모집단을 설정하며 3) 건강영향의 평가가 유병이 아닌 발생에 기초하며 4) 인년(person year)을 산출할 수 있다는 점이 단면조사와는 근본적으로 다르다.
코호트 연구를 대상자 모집을 기준으로 닫힌 코호트(closed cohort)와 열린 코호트(open cohort)로 나누기도 한다. 닫힌 코호트는 처음에 고정된 구성원을 코호트로 정의하고 추가로 참여시키지 않는 것으로 시간이 지남에 따라 인원수는 감소한다. 예를 들어 일본 원폭 생존자 코호트에는 더 이상 새롭게 코호트에 포함되는 사람들은 없으며 원폭 시 노출된 사람들이 사망하면서 점차 규모가 줄어든다. 반면 열린 코호트는 코호트 진행 과정에서 새로운 대상자가 언제든 참여 가능한 형태이다. 예를 들어 지역사회 코호트를 열린 코호트로 진행할 경우 새롭게 이주하는 사람들을 포함하고 지역을 벗어나면 제외할 수 있어 코호트 인원수는 증가 혹은 감소할 수 있다.
일반적으로 코호트가 하나의 동일한 특성을 가진 집단을 추적하는 것인데 반해 노출 수준에 따라 둘 이상의 다른 인구집단을 선정하여 추적 조사하는 다중 코호트(multiple cohort)가 적용되기도 하였다. 예를 들어 미국에서 전공별 의사 집단의 자료를 비교하여 영상의학과 의사들의 높은 사망률(특히 혈액 종양)이 방사선 노출에 의한 것일 것이라는 가설을 제공한 바 있으며, 우라늄 광부에서의 폐암 발생을 센서스나 등록자료를 통해 같은 지역에 거주하는 같은 성별과 인종에서의 폐암 발생과 비교함으로써 증가된 위험도를 보고하기도 하였다. 그러나 다중코호트는 주로 과거에 적용되었던 연구 형태로서 노출 수준에 따라 집단을 선정함으로써 교란변수의 차이가 발생할 수 있으며 집단별 교란변수의 차이가 발생할 수 있어 활용이 제한적이다.
코호트 연구에서도 선택바이어스(selection bias)가 가능하다. 첫째는 코호트 모집 과정에서 전체 인구집단이 아니라 특정 집단을 모집할 때 발생할 수 있는 의도적(intentional) 선정과 선정된 인구집단에서 참여율이 낮을 때 발생할 수 있는 비의도적(unintentional) 선정에 따른 선택바이어스가 가능하다. 코호트 집단을 전체로 확대하여 의도적 선택바이어스를 줄이면 추적의 완전성이 감소하여 비의도적 선정에 따른 바이어스가 증가할 수 있어, 이 둘 사이의 균형 있는 판단이 필요하다. 둘째는 코호트를 추적하는 과정에서 만약 질병 혹은 노출 상태에 따라 대상자들이 다르게 추전된다면 선택바이어스가 발생할 수 있다. 왜냐하면 결국 추적된 사람들만이 최종적으로 코호트 분석에 포함되기 때문이다.
직업코호트의 경우 단기종사자들이 일반종사자들보다 사망률이 높거나 다른 생활 방식을 갖는 것으로 알려졌다. 또한 사업장에서 단기종사자들에 대한 자료는 장기종사자들보다 잘 보관되어 있지 않는 경우가 많다. 따라서 직업코호트에서는 선택바이어스를 줄이기 위해서 6개월 혹은 1년 이상 종사자들만을 목표집단(target population)으로 정의하는 경우가 많다.
코호트 연구에서는 질병 발생 이전에 정보를 확보하기 때문에, 회상 바이어스는 줄어들 수 있다. 그러나 긴 추적기간으로 인해 질병 및 노출을 확인하는 방식이 달라지면 정보바이어스(information bias)가 발생할 수 있다. 그 외에 교란 작용의 경우는 코호트 연구에서도 다른 연구 방법에서처럼 발생할 수 있다.
코호트 연구가 다른 연구와 구별되는 가장 큰 특성 중의 하나는 연구대상자들에 대한 추적(follow up)이다. 코호트 연구 진행 중 참가자들이 중도에 포기하거나 이주 또는 사망 등으로 이탈할 수 있다. 만약 추적률이 너무 낮으면 선택바이어스로 인해 결과를 왜곡시킬 수 있으므로 최대한 높은 추적률을 유지하는 것이 중요하다. 따라서 코호트 연구에 있어서 추적관찰 손실을 최소화하는 것이 중요하며, 이를 위해서 추적관찰이 가능한 집단을 코호트로써 구축할 필요가 있다. 국내에서 진행된 중재시술자 코호트 구축에서도 국가선량자료에 등록된 의료인만을 대상으로 국한한 바 있다. 비록 선량 시스템에 등록되지 않고 중재 시술을 담당하는 의료인들이 있지만, 선량 자료가 연계되어 있지 않으면 노출값을 추적하기가 불가능하기 때문이다. 미국 농업인 코호트(agricultural health study)에서도 노출이 높은 이민자 농업 종사자들이 제외되고 대부분 농약 교육을 정기적으로 받는 농업인들로 국한되었는데 그 주된 이유도 이민자 농업 종사자의 경우 추적 가능성이 낮기 때문이었다.
코호트에 남아있는 사람들과 추적관찰이 손실된 사람들 간의 질병 발생 상태의 차이가 생길 경우(differential loss to follow-up) 노출-질병 간의 관련성이 왜곡 될 수 있다. 따라서 추적관찰 손실이 발생한 경우 추적된 연구 참여자와 추적되지 못한 사람들의 특성을 비교함으로써 궁극적으로 연관성에 어떻게 영향을 주었을지를 판단하여 결과를 해석하는 것이 필요하다. 이러한 특성 비교는 향후 코호트 결과의 일반화에 중요한 근거가 된다. 또한 질병 발생보다 사망이 오랜 추적을 요구하므로 만약 추적기간이 충분하지 않으면 사망위험도는 상대적으로 과소평가될 수 있다.
코호트 집단에서 추적손실이 어떻게 발생하였느냐에 따라 추적된 집단에서의 역학 지표들의 값이 전체 인구집단과 달라진다(그림 3.6.1). 즉 코호트 연구의 추적과정에서 1) 노출 혹은 질병 상태와 관련 없이 무작위로 추적 손실이 발생하는 경우 발생률 및 기여위험도를 포함한 모든 역학 지표는 전체 코호트 집단의 값과 같게 유지된다(단 표본수 감소에 따라 정밀도는 감소한다). 2) 추적이 노출 상태에만 차이가 나고 질병 상태에는 영향을 받지 않을 경우에는 유병률만 달라지고 연관성 지표와 기여위험도는 전체 집단 값과 같게 된다. 3) 추적이 질병 상태에 대해서만 차이가 나고 노출 상태에는 영향을 받지 않을 경우에는 오즈비만 같게 유지된다. 4) 추적률이 노출과 질병 상태 모두에서 차이가 날 때는(즉 두 요인이 독립적이지 못할 때), 모든 역학 지표가 원래 집단과 달라진다. 따라서 코호트 연구에서 추적률 자체를 높이는 것도 중요하지만 노출과 질병 상태에 따라 치우치지 않게 추적하는 것이 중요하다. 즉 입적된 사람 중 누가 추적되느냐에 따라서 산출된 역학 지표들이 전체를 올바로 반영할 수도 있고 아닐 수도 있다.
그림 3.6.1 모집단에서 연구집단 선정에 따른 역학 지표의 변화 (출처: Miller et al. 2014)
코호트 연구에서의 추적 주기는 노출 및 건강 영향에 대한 변화의 양상을 고려하여 설정한다. 만약, 추적 주기가 너무 짧으면 노출 및 건강 영향에 변화가 없거나 적어 효율적이지 못하고, 추적 기간이 너무 길면 실제 변화가 있었음에도 그러한 변화를 파악하지 못할 수도 있다. 전향적 코호트 연구에서의 추적 주기는 각 코호트마다 다양하지만, 일반적으로 2-5년을 적용하는 경우가 많다.
추적 방법은 전향적 연구에서는 설문조사, 전화 또는 컴퓨터를 이용한 조사, 임상검사 등 능동적 방법을, 후향적 연구는 사망 및 암 발생 자료 연계와 같은 수동적 방법을 사용한다. 등록자료를 통한 수동적 방법의 경우 치명적인 질환이 아니면 파악할 수 있는 건강 영향이 제한적이어서, 질병 이전 단계의 건강 영향을 파악하기 위해서는 능동적 추적 방법이 유용하다.
자료 연계(record linkage)란 같은 연구 참여자들에 대한 2개 이상의 자료를 연계하는 것을 말한다. 역학 연구에서 하나의 자료원에서 연구에 필요한 충분한 정보가 제한되었을 때 가능한 여러 자료를 연계하는 것이 필요하다. 특히 코호트 연구에서는 대상자의 정의를 위해서 그리고 노출 및 건강 영향 정보를 효율적이고 객관적으로 확보하기 위해서 자료 연계를 진행하는 경우가 많다. 코호트 연구에서 일반적으로 연계되는 자료의 종류로는 건강 영향 정보로서 사망원인통계자료, 암 등록통계자료, 건강보험자료 등이며 그 외에도 다양한 자료들이 있다. 또한 코호트 대상자들의 노출 관련 정보들도 자료 연계를 통해 확보할 수 있다. 이처럼 자료 연계는 연구정보를 효율적으로 확대하는 방법이므로 사회에서 수용할 수 있는 범위 내에서 최대한 활성화되는 것이 바람직하다.
자료 연계는 결정론적(deterministic) 혹은 확률론적(probabilistic) 방법을 통해 이루어진다. 결정론적 방법은 연계하고자 하는 변수들의 일치에 근거하는 것으로 자료를 연계하기 위해서는 개인별로 부여된 고유한 식별자가 서로 다른 자료원에 공통으로 존재해야 한다 (예를 들어 이름과 생년월일이 같은 경우에 연계한다는 규칙을 설정). 국내 주민등록번호와 같은 식별자들은 개인을 정확하게 식별할 수 있어 결정론적 방법을 통한 연계에 큰 장점이 된다. 확률론적 방법은 연계 변수들이 일치하는 정도의 확률에 기반을 두어 자료를 연계하는 것이다. 이 경우 각 개인을 완벽히 식별할 수 있는 것이 아니므로 결정론적 방법보다 연계율은 제한적이다.
일반적으로 연계된 자료를 검증 없이 사용하고 있다. 그러나 자료연계에서 잠재적인 오류들(연계가 누락되던지[missed match] 잘못 연계되는 경우[false match])이 가능하며 이는 결과값의 대표성 및 연관성을 왜곡시킬 수 있다. 한편 자료연계 과정은 개인보호 차원에서 대체로 연구자가 아닌 제3자에 의해 이루어져 연구자가 과정과 오류를 직접 확인하기 어려운 상황이다. 따라서 연계자(linker)와 연구자(researcher)간의 긴밀한 소통이 중요하며 1) 참값을 알 수 있는 일부집단을 파악하던지, 2) 연계된 경우와 연계되지 않은 경우를 비교하던지, 3) 연계상태에 따라 민감도 분석을 실시하는 것이 권장된다.
코호트 연구에서 자료 분석 시 분모는 질병에 걸릴 가능성 즉 위험에 노출된 인구집단(population at risk)만 포함된다. 예를 들어 방사선에 노출된 집단을 분모로 하고 그중에서 암 발생이 된 사람들을 분자로 할 수 있다. 이처럼 인구수를 기반으로 하는 분석은 일반적으로 추적 기간이 길지 않은 코호트의 경우에 적용한다. 그러나 장기간 추적하는 코호트 연구의 경우 각 개인에 대한 추적 기간이 개인마다 다를 수 있어 인원수보다 각 개인의 관찰 기간이 고려된 인년(person-years)을 분모로 사용하는 것이 바람직하다. 인년을 산출하기 위해서는 입적일자, 추적 종료 일자를 파악하고 암 발생 및 사망 시기에 대한 정보가 필요하다.
코호트 연구에서 만약 노출과 질병의 유도기(induction time, 원인적 노출 후 실제 질병이 시작되는 데 걸리는 기간)가 3년인 경우 노출군에서는 이 기간이 질병 발생과 관련 없는 기간이므로 제외한다. 반면 비노출군에서는 원래부터 노출이 안 되었으므로 유도 기간이란 것이 성립되지 않으므로 분석에 포함한다. 여기에 추가로 노출군의 3년 유도기간은 결국 실제 질병 발생과 관련이 없는 노출이므로(현재 노출군으로 분류되어 있었던 기간이지만) 비노출 기간으로도 볼 수 있다. 따라서 이 기간을 비노출군의 인년에 포함할 수 있다. 그러나 일반적으로 노출과 질병 발생 간의 간격이 불분명하므로 대부분의 코호트 분석에서는 노출 후 일정 기간을 유도기와 잠재기를 합한 것으로 하여 노출 및 비노출 집단 모두에서 제외하는 방법을 적용한다.
코호트 연구에서는 시간에 따른 인구집단의 기저 위험도가 변화하고 노출도 변화한다. 따라서 코호트 자료는 시간에 따라 특정 개체로부터 반복적으로 얻어낸 관측 자료로서 시간의존변수(time-dependent variable)들을 갖는다. 이는 시간에 따라 변수의 값이 변하는 것을 말하는 것으로 노출 선량값, 흡연 여부, 근무 기간 등이 있다. 이러한 변화를 분석에 적용하려면 한 사람의 자료를 여러 시간대별로 나누어 분석하는 방법이 적용된다. 시간의존변수들을 도표로 만든 것을 랙시스 그림(Lexis diagram)이라고 하며 대표적으로 연령(attained age)과 시간대(calendar time)를 설정한다. 이 외에도 다양한 변수들에 대한 인년표(person-year table)을 통해 다른 연구 방법과는 구별되는 보다 정교한 코호트 분석이 이루어진다(부록 참고).
건강 영향을 산출할 때 어떤 집단과 비교하느냐에 따라 결과가 달라질 수 있으므로 코호트 연구에서도 비교군(reference group) 선정은 중요하다. 이상적인 비교군은 다른 특성은 비슷하고 단지 조사하고자 하는 요인에 노출되지 않는 집단이다. 그러나 현실에서 거의 모든 사람이 일반 환경에서 어느 정도의 요인에 노출되어 있으므로 이상적인 비노출 비교군은 확보하기가 어렵다. 따라서 일반적으로 노출군과 일반적 특성이 비슷한 내부 비교군을 설정하는 데 비교성(comparability)을 최대화하기 위해 저노출군을 비교군으로 하는 경우가 많다. 그러나 이때 비교성은 좋아지지만 비노출군을 비교군으로 할 때에 비해서 표본 수가 줄어들 수 있다. 반대로 비노출군을 비교군으로 하면 표본 수를 증가시킬 수 있지만 비교성이 감소할 수 있다. 따라서 우선 비노출군과 저노출군 간의 일반적 특성을 비교한 후 군간 유의한 차이가 있으면 저노출군을, 그렇지 않으면 비노출군을 비교군으로 설정한다. 그러나 만약 연구집단의 노출 정도가 비슷하다면 원인적 연관성을 보기 어려우므로 외부 비교군이 필요할 수도 있다.
미국 방사선사 코호트 연구(U.S. Radiologic Technologists Study)는 방사선사들을 대상으로 미국국립암센터와 미네소타 대학교가 공동으로 진행하고 있는 전향적 코호트 연구이다. 직업적 방사선 노출과 악성종양 및 건강에 미치는 영향을 규명하는 것을 목적으로 1982년도에 시작되었다. 입적 대상자는 1926년부터 1982년까지 면허 발급 후 최소한 2년 이상 방사선사로 종사한 경험이 있거나 종사하고 있는 146,022명을 대상으로 하였다. 이후 이들을 대상으로 1983년부터 4차에 걸쳐 능동적 추적조사 및 사망자료와의 연계를 수행하고 있다. 일부 참여자들에 대해서는 혈액 및 구강세포를 수집하여 방사선-유전 상호작용을 연구하고 있다.
기반조사로서 1983-1989년 동안 133,298명의 방사선사를 대상으로 우편 설문 조사를 실시하여 90,305명(응답률 68%)을 모집하였다. 1차 추적조사는 1994-1998년에 약 9만 명(응답률 72%)에 대해 실시하였고, 2번째와 3번째 추적조사는 각각 2004-2006년과 2012년-2014년에 진행되었으며 약 73,000명과 약 58,000명에 대해 추적을 하여 응답률은 약 72% 이상이다.
조사 내용으로는 인적특성, 직업력, 직업적 방사선 노출, 개인적 의료이용에 의한 방사선노출, 출산력, 개인 치료 및 진단목적의 방사선 시술 경험, 여성력, 가족력, 질병력, 기타 암 위험인자 등을 포함하였다. 자가 보고된 암 발생 정보에 대해서는 의무기록을 확인하는 작업도 진행하였다.
투시 및 방사성 동위원소 취급자 등 방사선 고노출군을 대상으로 별도의 설문 조사를 수행하였다. 또한 일부 대상자로부터 수집된 배지 노출선량을 활용하여 전체 대상자의 과거선량 재구축 및 장기선량 산출 방법론을 구축하였다. 이러한 자료들을 바탕으로 방사선 및 기타 위험요인에 의한 전체 사망 및 암 발생률 연구, 유전자형에 따른 유방암 및 갑상선 암과 방사선 노출과의 연관성 연구, 설문의 타 당도 및 생물학적 선량 연구 등을 진행하고 있다(의료방사선 종사자 참고).
표 3.6.1 미국 방사선사 코호트 연구의 진행 과정
코호트에서 대조군을 선정하는 방식에 따라 연구 방법이 다른 형태로 정의된다(그 림 3.6.2). 첫째, 코호트를 추적하여 연구종료 시점에서 질병이 없는 사람들중에서 대조군을 선정하는 것으로 전형적인 환자-대조군 형태이다(A). 둘째, 코호트 연구 중 추적과정에서 환자 군이 발생하는 시점에 맞추어 짝짓기 된 대조군을 선정하는 형태는 코호트 내 환자-대조군 연구이다(B). 셋째, 코호트 시작 시점에서 전체 인구집단을 대표하는 소 규모 집단을 선정한다면 환자-코호트 연구이다(C).
그림 3.6.2 코호트 연구에서의 대조군 선정 방식
(가) 정의 및 특성
코호트 내 환자-대조군 연구(nested case-control study)는 코호트 연구 중 추적과정에서 환자군이 발생하는 시점에 맞추어 대조군을 짝짓기하여 선정하는 형태이다. 환자군과 대조군 모두 같은 코호트 집단에서 선정하므로 코호트 기반(nested)이란 표현을 사용한다. 이 경우 특정 시점에서 대조군으로 선정했다고 하더라도 추적이 끝난 시점에서는 질병자가 될 수도 있다. 코호트 내 환자-대조군 연구는 일반적인 환자-대조군 연구와 같은 설계이나 질병 발생 이전에 대상자들로부터 노출 정보를 확보했다는 점에서 회상 바이어스를 줄일 수 있는 장점이 있다. 또한 연구대상자들에게 추가적인 정보를 확보해야 하거나 수집된 생물학적 시료를 사용하는 경우 모든 코호트 대상자가 아닌 선정된 대상자들에 대해서만 분석하므로 효율적인 연구를 진행할 수 있다.
코호트 내 환자-대조군 연구에서는 환자군이 발생한 싯점에 맞추어 대조군을 선정한다. 즉 코호트 시작 혹은 끝이 아니라 코호트 추적기간중 각 환자 발생 시간에 짝짓기된 대조군을 선정하며 발생밀도 선정 (incidence density 혹은 risk-set sampling)이라고 표현한다. 이 연구방법은 같은 집단에서 환자발생시 위험도를 같이 갖고 있는 대조군을 선정하므로 환자가 발생하는 인구집단이 변하는 경우 (dynamic population, 병원 혹은 지역사회 환자-대조군 연구 등 코호트 시작과 끝에서 정확한 인구집단을 설정하기 어려운 경우) 특히 유용하다. 이 연구방법에서는 환자군과 대조군에 이미 인년이 반영되었기 때문에 연관성 지표로 산출된 오즈비가 코호트 분석에서의 율비(rate ratio)와 같은 의미로 해석될 수 있다.
(나) 연구 사례
유방암에 걸린 여성들에서 방사선 치료로 인한 반대측 유방암 발생위험도를 살펴보고자 WECARE(Women’s Environmental Cancer and Radiation Epidemiology)연구가 진행되었다. 이 연구는 약 5만 2천 명의 여성 유방암 환자 코호트에서 반대측 유방암 발생 환자와 반대측 유방암이 발생되지 않은 환자를 1:2로 짝짓기해서 선정한 코호트 내 환자-대조군 연구로 진행하였다. 이때 출생연도, 진단연도, 지역, 인종을 개별 짝짓기하였다. 자료원은 인터뷰 조사와 의무기록을 활용하였으며 분석은 조건부 로지스틱 회귀모델을 적용하였다. 연구 결과 특정 유전인자 (ATM)를 가진 여성에서 방사선 치료를 받는 경우 반대측 유방암 발생위험도가 유의하게 증가하였다. 이처럼 방사선과 유전자의 상호작용으로 유방암 발생 위험이 증가하는 현상은 방사선 치료를 받은 호지킨 림프종 환자-대조군 연구에서도 보고된 바 있다. 이러한 연구들은 방사선에 민감한 유전인자를 가진 사람들은 치료 방법 선택 시 방사선 치료 대신 다른 방법을 고려할 필요가 있다는 근거를 제시함으로써 방사선으로 인한 질병의 예방대책을 세우는 데 기여하였다.
일본 원폭 생존자 코호트 연구 내에서 유방암에 대한 환자-대조군 연구가 시행된 바 있다. 유방암 발생 환자 171명 중 분석에 필요한 여성력 정보 혹은 혈액 표본이 없는 경우를 제외하고 57명의 환자를 선정하였으며, 대조군은 연령, 혈액 수집 연도, 거주 지역을 짝짓기하여 109명을 선정하였다(52쌍은 1:2, 5쌍은 1:1로 짝짓기). 코호트 연구에서의 자세한 설문 및 임상 정보(여성력 등)와 유방 장기선량이 분석에 활용되었다. 연구 결과 방사선 노출이 폐경 후 혈중 에스트라디올(estradiol)의 농도를 증가시키고 이는 유방암 위험도의 증가에 기여하였다. 이러한 결과는 방사선 노출이 단지 염색체 손상만이 아닌 다른 기전을 통해서도 암 발생 위험도를 증가시킬 수 있다는 것을 의미한다.
한편 코호트 추적종료후 대조군을 선정하는 전형적인 환자-대조군 연구 (cumulative sampling, 그림에서 A)에서는, 연관성 지표로 노출군에서의 발생오즈를 비노출군에서의 발생오즈로 나눈 오즈비를 사용한다. 이때 노출 집단의 질병 발생률이 비노출 집단보다 높기 때문에서 내재된 바이어스(built-in bias)에 의해 오즈비는 발생률비를 과대평가한다. 그러나 연구 대상 질환이 드물다면 내재된 바이어스의 크기가 작아져 오즈비와 발생 률비 값은 비슷해진다. 따라서 오즈비가 발생비를 대치하려면 드문 질환 가정(rare disease assumption)이 필요하다.
(가) 정의 및 특성
환자-코호트 연구(case-cohort study)는 전체 코호트 집단에서 일부 대상자를 무작위 추출한 서브 코호트(subcohort)를 전체 코호트 집단에서 발생한 환자들과 비교하는 연구 형태이다. 즉 질병이 없는 전체 코호트 집단을 대조군으로 하고 이후에 진단된 경우를 환자군으로 설정한다. 따라서 나중에 환자로 진단된 사람이 대조군으로 선정될 수도 있으며 이 경우 대조군과 환자군으로서 모두 포함된다(이러한 상황은 발생률 산출시 환자가 분자와 분모에 모두 포함되는 것과 같다).
전체 코호트를 대조군으로 설정하는 것은 1) 현실적으로 간편하고 효율적이며(특히 환자군을 대조군과 구별하기 위해 많은 검사와 시간이 필요한 경우), 2) 대조군이 하나의 특정 질환에만 적용하는 것이 아니라 여러 다른 연구 질환에 관한 연구에도 공통 대조군으로 활용할 수 있다는 장점이 있다(즉 전체를 대표한 표본 대상자인 서브 코호트를 코호트처럼 적용). 3) 또한 기여분율 산출시 필요한 집단 전체를 대표하는 노출분율을 제공할 수 있다. 4) 그리고 환자-코호트 연구에서 산출된 오즈비가 실제로 코호트에서의 발생비와 같은 의미가 되므로 드문 질환 가정이 필요 없다. 그 이유는 표 3.6.2와 같이 전체 집단 중 서브 코호트를 대조군으로 선정한 환자-코호트 연구의 경우 오즈비는 Ag(C + D)/g(A + B)C가 되는데(g는 서브 코호트로 뽑힐 확률), 이는 전체 코호트 집단에서의 발생률비와 같다[A(C + D)/(A + B)C]. 따라서 환자-코호트 연구에서의 오즈비는 곧 발생률 산출 지표가 되기 때문에 드문 질환 가정이 필요 없다. 즉 코호트 내 환자- 대조군에서는 연관성 지표로서 오즈비를 산출하지만, 환자-코호트 연구에서는 코호트처럼 비례위험모델에 근거한 위험비(hazard ratio)를 산출한다.
그러나 일부 서브 코호트를 추출하므로 추출률에 따른 가중치를 고려한 분석이 적용되어야 하며, 경쟁 사건에 의한 추적 손실을 고려하여 분석하는 것이 쉽지 않다. 또한 환자-코호트 연구는(고정된 코호트와 같이) 환자군이 유래된 분명한 인구집단이 설정된 경우에 유리하며 만약 열린 코호트(open cohort)인 경우에는 환자가 발생하는 집단이 변할 수 있으므로 모집단을 대표한다는 가정이 필요하다.
표 3.6.2 환자-코호트 연구에서의 위험도 산출
(나) 연구 사례
유방암 환자 코호트에서 방사선 치료 후 발생한 심혈관 질환의 위험도가 환자-코호트 연구 형태로 평가된 바 있다. 즉 2002-2012년 사이에 이스라엘에서 유방암으로 진단된 2,165명을 대상으로 20%의 무작위 서브 코호트를 선정하여 방사선 치료 여부에 따른 심혈관 질환의 위험도를 평가하였다. 전체 코호트 중 466명의 심혈관 질환자가 발생하였으며(평균 추적 기간 5.7년), 방사선 치료는 심혈관 질환의 위험도를 약 3배 유의하게 증가시킨 것으로 관찰되었다.