방향성 비순환 그래프(DAG)란 노출과 질병과의 인과성을 그림을 통해 설명하는 인과적 도식(causal diagram)이다. 사이클을 그리지 않는 ‘방향을 갖는 그래프’라는 뜻으로 연관성에 방향성(directionality)을 설정한다는 특성이 있다(만약 변수간 사이클을 가지면 특정 변수 자체가 스스로 원인이 될 수 있어 인과성을 검증할 수 없다). 즉 수식을 통해 표현되는 통계적 모델이 아니라 변수 간의 연관성을 설명하는 인과적 모델이다. 예를 들어 의료 방사선 노출로 인한 악성질환 위험도 증가 시 기저질환에 의한 교란작용을 설명한 도식은 그림 5.3.1과 같다.
그림 5.3.1 의료방사선 노출과 암위험도 연구 시 적응증에 의한 교란작용
DAG는 인과성 추론에 있어서 각 변수 간의 연관성에 대해서 더욱 분명하게 사고할 수 있게 하는 도구이다. 인과적 도식을 작성하면서 질병 발생에 있어서 어떤 변수가 어떤 형태로 정의되고 각각 어느 방향성일 것인지를 보여줌으로써 연구가설을 보다 분명하게 설정 할 수 있다. 또한 DAG는 연구수행에서 바이어스를 최소화하고 가장 효과적인 최소한의 교란변수 세트(confounder set)를 구축하는 데 도움을 준다. 교란변수 파악을 위해 단순히 모델에 변수를 추가해 결과값의 변화정도를 기준으로 삼는 것은 권장되지 않는다. DAG를 구축하는 구체적인 내용은 DAGitty(www.dagity.net)을 참고할 수 있다.
DAG에서 흔히 사용하는 뒷길(backdoor path)이란 비인과적 연관성을 의미하며 이러한 경로를 차단하는 것이 인과성 파악의 접근방법이다. 즉 노출변수에 영향을 주는 변수를 조건화(conditioning)시키던지 노출변수와의 경로를 없앰으로서 비인과적 경로를 차단시킬 수 있다. 노출과 결과변수간의 경로가 콜라이더 변수를 통해서 혹은 교란변수를 보정시켜 차단하는 것을 d-separation이라고 한다. 인과성 파악을 위해서는 인과적 경로만을 남기고 나머지 경로들은 모두 d-separation시켜야 한다.
그러나 인과적 도식에서 변수간 방향성이 항상 잘 알려져 있는 것은 아니다. 따라서 잘못된 가설에 근거하여 지나치게 단순화시킬 수 있는 위험성도 있다. 그럼에도 불구하고 인과적 도식은 각 변수들 간의 구조적 관련성을 파악하는데 (즉 교란작용, 선택 및 정보바이어스 등으로 왜곡될 수 있는 바이어스의 소스를 이해) 큰 도움을 준다. 즉 DAG는 변수들간의 질적(qualitative) 평가를 통해 바이어스의 구조와 이를 제거하기 위한 전략을 이해하고 소통하고 토의하는데 유용하다.
DAG는 그 자체로서 바이어스를 제거하는 것은 아니며, 이를 위해서는 연구디자인(무작위화, 짝짓기) 혹은 분석방법(층화분석, 가중치 등)들이 적용된다. 또한 DAG는 표본수와 관련된 정밀도(precision)를 증가시키는 것은 아니며, 내적 타당도를 증가시키는데 도움을 주는 것으로 외적 타당도와 직접 관련되지는 않는다.
인과적 도식은 컴퓨터 프로그램에서 산출되는 것이 아니라 연구자가 노출과 질병과의 인과성을 생각해서 만들어 내는 사고의 산물이다. DAG에서 어떤 변수들을 어떻게 포함할 것인가는 관련 주제에 대한 사전 지식과 연구자의 창의성에 의존된다. 즉 어떤 계산이나 프로그램을 통해 정해지는 것이 아니라 연구자가 지식과 가설에 기반을 두어 설정한다. 이를 위해서는 1) 연구가설과 관련된 변수들이 무엇인지를 선정해야 하고 2) 각 변수가 서로 어떤 연관성이 있는 것인지를 설명할 수 있어야 한다.
DAG를 이해하는 것은 Table 2 fallacy라고 불리는 상호보정 오류(mutual adjustment fallacy)를 예방하는데도 중요하다 (교란작용 참고). 논문에서 일반적으로 표 1에서 제시된 주요 공변수들을 다중 단변량 분석으로 보정한 표 2를 제시하면서 서로간에 상호 보정된 위험도 혹은 계수값으로 해석한다. 그러나 DAG상 노출변수의 위험도값은 다른 변수들을 보정한 전체 영향(total effect)의 크기임에 반해 다른 공변수들의 위험도는 노출 및 다른 공변수들이 서로 보정된 직접효과(direct effect)만의 크기를 의미한다. 왜냐하면 노출과 결과변수는 DAG상 직접 연결되지만 다른 변수들은 노출변수를 거쳐서 결과변수에 영향을 주는 기전을 가지기 때문이다. 따라서 각 변수의 위험도 값을 서로 직접 비교하는 것은 올바르지 않으며 이러한 오류를 예방하기 위해서는 가설에 기반하여 선정한 노출 요인을 기준으로 분석하는 것이 바람직하다.
연구에서 파악하고자 하는 개념을 구체화한 지표를 변수(variable)라고 한다. 모든 정보 중 역학적으로 활용 가능한 유용한 변수가 되기 위해서는 1) 건강 상태에 영향을 줄 수 있는 변수여야 하며 2) 정확히 측정될 수 있어야 하며 3) 인구집단을 반영하는 변수여야 한다. 예를 들어 지문(fingerprint)은 중요한 개인 차원의 정보이지만 건강에 영향을 주거나 집단적으로 활용하는 데는 의미가 적다. 또한 역학에서 사용되는 변수는 개인적 정보들을 모아서 집단의 특성으로 활용하기 때문에 해당 인구집단을 대표하여야 한다. 아무리 정확한 측정 방법을 동원한다고 하더라도 조사되는 사람들이 치우쳐있다면 인과성을 올바로 평가할 수 없다. 모든 정보가 유용한 것이 아니라 수많은 정보로부터 그 유용함을 가려내는 것이 중요하다.
관찰된 변수들이 연구하고자 하는 개념을 100% 반영하는 경우는 거의 없다. 변수 중 직접 건강 상태를 반영하는 지표들도 있지만(혈압, 키, 몸무게, 사망 여부 등), 쉽게 측정될 수 없는 복잡한 내용을 의미하는 지표도 있다. 예를 들어 성별이라는 변수도 생물학적 차이뿐 아니라 사회적 요인이 반영되어 남녀별 사회경제적 요인들의 차이가 내포되어 있다. 따라서 성별에 따른 질병률 차이를 단순히 생물학적 차이로만 해석하면 오류를 범할 수 있으며 그 변수가 내포하고 있는 개념들을 해석하는 것이 중요하다. 사회계층이라는 변수도 직업, 소득수준, 교육 등의 요인들을 동시에 반영하는 간접지표이다. 따라서 가능한 세부 변수별로(수입, 교육수준 등) 분리하여 파악하는 것이 노출의 개념을 더 잘 반영시켜 준다.
변수에는 여러 종류가 있으며 결과변수(outcome variables), 노출변수(exposure variables), 교란변수(confounder), 효과변경변수(modifier, moderator), 중재변수(mediator) 등으로 구별한다. 인과성 파악을 위해서는 각 지표가 어떤 변수로서 작용하는지를 구분하여 접근하는 것이 필요하다. 이때 한 가지 변수가 배타적으로 한 가지 변수의 종류로 정해진 것은 아니며 동시에 다른 변수의 역할을 할 수도 있다. 예를 들어 CT 촬영과 암발생 연구 시 기저질환이라는 변수는 효과변경인자로 작용하면서 동시에 교란변수로도 작용할 수 있다.
특정 정보가 하나의 변수로 국한된 것은 아니며 연구목적에 따라 다른 형태의 변수가 될 수 있다. 예를 들어 방사선 노출이란 변수는 1) 방사선이 암발생을 증가시키느냐는 연구에서는 노출 변수이다. 2) 의료이용이 어린이 방사선 노출을 증가시키느냐는 연구에서는 결과변수이다. 3) 흡연과 폐암 연구에서 흡연하는 사람들이 방사선에 더 많이 노출되면, 이때 방사선 노출 변수는 교란변수이다. 4) 흡연과 폐암의 연구에서 방사선 노출 상태에 따라 폐암의 위험도가 영향을 받느냐는 연구에서는 효과변경인자로 작용한다(흡연과 폐암 발생 사이에 방사선은 기전적으로 관여하기보다는 단지 두 관계의 크기를 바꾸어주는 변수이다). 5) 거주지역과 암발생과의 연구에서 저소득 지역 아이들이 고소득 지역 아이들보다 암 질환으로 병원 입원을 많이 하는데, 이것이 거주지역의 라돈 노출 때문인가를 파악한다면 라돈은 중재변수가 된다(이 경우 라돈은 소득이 낮아짐에 따라 암 위험성이 왜 증가하는지에 대한 기전을 설명하는 변수이다).