농약 연구에서 자료 분석 및 결과 값에 대한 해석을 올바로 하기 위해서 이해해야 할 보건학적 주제들이 있다. 이러한 내용들은 농약 연구뿐 아니라 환경역학 및 보건학 연구를 수행하고 이해하는 데 적용될 수 있으며 연구 결과를 뒷받침해 줄 수 있는 중요한 방법론적 근거가 될 수 있다. 많은 주제들 중 흔히 부딪히는 일부 내용들을 살펴보면 다음과 같다.
교란변수(confounder)란 보고자 하는 질병과 관련되어 있으면서 그 질병의 원인변수와도 연관되어 있어 질병과 특정 원인과의 연관성을 왜곡시키는 변수를 말한다. 예를 들어 농약 살포와 폐암과의 연관성 연구를 할 때 농약 살포자가 비살포자에 비해 커피를 많이 마신다면 실제로 농약에 의한 위험도 증가가 마치 커피와 폐암이 관련되어 있는 것처럼 보일 수 있다. 농업인들은 한 종류의 농약만 사용하는 경우보다는 여러 농약을 같이 사용하는 경우가 많기 때문에 교란효과는 농약연구에서 흔히 제기된다. 즉 다중노출(multiple exposure)인 경우 어떻게 한 가지 농약의 건강영향을 다른 농약들로 인한 건강영향으로부터 따로 떼어놓고 파악할 수 있을까하는 의문점은 보건학을 전공하지 않는 사람들이 역학연구를 쉽게 신뢰하지 못하는 부분이기도 한다. 이를 위해 보건학에서 가장 많이 사용하는 방법은 자료 분석 시 특정 농약과 높은 상관성을 보인 개별 농약들을 선정하여 통계적 모델에 보정변수로 추가한다. 이 때 개별 농약별로 보정할 수도 있고 전체 농약 사용 일수를 농촌 환경의 대리지표로서 보정하는 방식을 적용하기도 한다.
또한 농업인들은 작업 시 많은 유해요인들에 동시에 노출되고 있어 농약 이외의 다른 요인들(농기계의 배출가스, 토양의 실리카 등)에 의해 영향을 받을 수 있다. 따라서 이들 요인에 대한 영향을 보정하는 것도 필요하며 만약 연구 질환과 잘 알려진 유해요인이 있다면 모델에 넣어 같이 보정하는 것이 중요하다. 그러나 미국농업인건강연구에서는 이러한 농약 이외의 요인들 그리고 동시 노출된 개별 농약들의 교란효과가 유의하게 크지 않았다고 보고한 바 있다.
교란효과를 보정하기 위해서 통계적 모델을 적용하는 방법 외에 층화분석을 실시하기도 한다. 예를 들어 chlorpyrifos라는 농약과 폐암과의 연구 시 흡연에 대한 교란효과를 보정하기 위해서 일차적으로 흡연력에 따라 흡연자, 과거 흡연자, 비흡연자로 층을 나누고 동시에 모델에는 흡연력을 보정하는 2가지 방법을 같이 진행하였다. 즉 흡연력을 층화(stratification)하는 것은 층간의(between-stratum) 교란변수에 의한 영향을 보정할 수는 있다. 그러나 각 층 내의(within-stratum) 영향, 즉 현재 흡연자라 하더라도 흡연을 적게 하는 사람과 많이 하는 사람 간의 차이가 발생할 수 있으며 이들이 만약 현재흡연자로 같이 묶여질 때 발생되는 영향을 잠재교란영향이라고 한다. 이를 줄이기 위해서는 통계적 모델에 흡연량(pack-year) 변수를 넣어 보정하였다. 그러나 모델에 총 흡연량을 넣는다고 교란변수에 대한 충분한 보정이 이루어지는 것은 아니다. 왜냐하면 현재 흡연자와 과거흡연자가 동일한 총 흡연량을 갖는다고 하더라도 그것이 의미하는 바는 다르기 때문이다. 따라서 흡연 여부에 따라 대상자를 비흡연자, 과거흡연자, 현재흡연자로 구분하여 층화분석을 실시하였고 각 집단 내에서 총 흡연량을 보정하여 잔류효과를 줄일 수 있었다. 이처럼 잔류교란변수 영향을 최소화시키기 위해서는 층화 및 모델을 통한 보정이 동시에 적용되는 것이 필요하다.
한편 기존 연구들에 의하면 교란변수로 인해 결과에 큰 변화를 초래하지는 않는 것으로 보고되기도 하였다. 교란변수로 잘 알려진 흡연과 음주도 직업 및 환경성 암 역학연구에서 20% 이상의 결과값 차이를 보이지는 않았던 것으로 보고된 바 있다. 개별 연구들마다 차이가 있겠지만 대체로 농약의 직업적 노출과 건강영향을 살펴보는 데 있어서 농약 외 교란변수에 의한 우려는 크지 않은 것으로 판단된다. 이처럼 보건학에서는 비록 완벽하지는 못하지만 농약 연구에서 흔히 질문되는 교란변수의 영향을 여러 역학적 방식을 통해 합리적으로 해석하고 있다.
다중비교(multiple comparison)란 가설에 근거하지 않고 무작정 많은 비교를 하다보면 실제 연관성이 없음에도 불구하고 우연에 의해 연관성이 있는 것처럼 나올 수 있는 문제점을 말한다. 예를 들어 10개의 질환과 10개의 노출요인들 간의 가능한 관련성을 보기 위해 2×2표를 만들었다면, 이론적으로 노출요인과 질환이 관련이 없다고 하더라도 100개의 노출-질환 조합 중에서 우연(chance)에 의해서 5개는 통계적으로 5% 유의수준에서 유의한 관련성을 보일 수 있다. 이러한 문제점을 극복하기 위해서 여러 통계적인 방법들이 동원되고 있으며 그중 본페로니(Bonferroni) 검정이 가장 많이 알려졌다. 이 방식은 간단하고 실용적이나 지나치게 보수적인 기준을 요구하게 되어 실제 연관성이 있음에도 불구하고 무시될 수도 있다. 즉 이러한 보정방법을 통해 1종오류(type I 에러)1를 줄일 수는 있지만 반대로 2종오류(type II 에러)2는 증가시킬 수 있다. 따라서 이 방식을 기계적으로 적용하는 것은 바람직하지 못하며 다른 한편에서는 다중비교 시 굳이 보정이 필요하지 않다고 주장하기도 한다.
이러한 문제점은 농약연구에서와 같이 여러 농약들을 특정 건강영향과 동시에 비교하거나 한 가지 농약이라 하더라도 여러 건강영향들과 비교하는 경우 흔히 지적되는 주제이다. 미국농업인건강연구에서 대장암과 50개의 개별 농약에 대한 연관성을 보고하였을 때 사독자에 의해 다중비교가 지적된 바 있다. 즉 수십 개의 개별 농약과 대장암과의 연관성을 비교하는 것을 다중비교로 판단하고 이를 보완하기 위해 본페로니 검정을 시행할 것을 권고하기도 하였다. 그러나 비록 다중비교와 같아 보일지라도 각 개별 농약들이 무작위로 비교된 것이 아니라 개별 농약들이 대장암과 연관성에 대한 가설에 근거한 것이므로 사실 정확한 지적은 아니다. 설령 다중비교가 문제가 된다고 하더라도 통계적 방법 대신 역학적인 원인적 연관성 평가에 더 근거를 두는 것이 바람직하다. 즉 다중비교 시 나타나는 1종 오류는 통계적인 방법을 사용하기 보다는 각 특성별(거주 지역, 농작물 종류 등) 층화분석을 통한 일관성, 연관성의 강도, 양-반응관계 등 원인적 연관성의 기준들을 평가함으로써 결과를 다시 강조하였다.
가설에 근거하지 않고 수많은 자료들의 비교과정에서 우연히 관찰되는 발견은 다중비교의 문제점을 갖고 있으므로 매우 조심스럽게 해석해야 한다. 그러나 많은 비교가 동시에 이루어졌다고 하더라도 그것이 연구자의 가설 속에서 이루어진 것이라면 다중비교의 울타리에 국한시킬 필요는 없다. 실제 많은 과학적 발견은 우연에 의해 밝혀지기도 한다. 그런 의미에서 다중비교를 다루는데 있어서 통계적 방법의 기계적 적용이 아닌 역학적 사고에 근거한 합리적 판단이 더욱 중요하다.
많은 역학연구들은 질병의 원인을 밝혀내는 데 그 목적이 있으며 분석 역학연구에서 산출된 연관성(association)이 인과성(causality)을 갖는지 평가하는 것은 중요한 과정이다. 이를 판단하기 위한 기준으로 힐의 기준(Bradford-Hill’s criteria)이 가장 많이 인용되고 있으며, 보건학에서 역학적 인과성을 위한 사고의 체계 및 검정을 위한 기본적 도구로 활용되고 있다(표 4-6).
<표 4-6> 힐(Hill)의 인과성 기준과 문제점
출처:Rothman KJ. Epidemiology:An Introduction. Oxford University Press. 2002.
그러나 각 기준항목들이 절대적인 것이 아니어서 인과적인 연관성을 비인과적인 연관성과 명확히 구분해내는 것이 어려운 과정이다. 예를 들어 연관성을 나타내는 위험도 값이 크면(strength) 더 인과성이 있다고 생각하지만 질병을 발생시키는 것에 있어서 모든 원인요소가 항상 강한 연관성을 갖는 것은 아니다. 흡연은 심장질환에 대해 인과성이 있음에도 불구하고 그 연관성의 크기는 폐암에 비해 크지 않다. 또한 연관성의 크기는 다른 요인들의 분포상태에 따라 달라질 수 있다. 더 나아가 인과성이 없지만 교란요인에 의해서 강한 연관성이 관찰될 수도 있어 단순히 강도만으로 판단하는 것은 바람직하지 않을 수 있다. 특이성(specificity)의 경우도 흡연이 한 가지 특이한 질병에만 관련된 것이 아니라 수많은 질병과 연관되어 있기 때문에 인과성이 있음에도 불구하고 이 기준을 충족시키지 못할 수 있다. 농약 노출에 있어서도 다양한 종류의 건강영향들과 연관성이 보고되고 있어 어느 하나의 특이성만을 강조하는 것은 적절하지 않다.
이러한 한계에도 불구하고 힐(Hill)의 기준은 보건학에서 고전적인 원인적 인과성의 기준으로 받아들여지고 있다. 석면과 악성중피종, 흡연과 폐암 등의 연관성 평가에 있어서 이러한 기준들을 적용하면서 원인적 연관성이 분명히 검증되기도 하였다. 환경적 농약 노출과 소아 악성종양과의 연관성을 평가하는데 있어서도 기존의 역학적 연구들을 종합할 때 연관성의 강도, 일관성, 특이성, 시간적 선후관계, 생물학적 개연성 등의 기준을 만족하는 것으로 정리된 바 있다. 이와 같이 농약과 건강 연구에서 어떤 항목들이 인과관계를 증명하기 위해서 활용되고 있는지 살펴보는 것은 농약과 건강에 대한 체계적인 이해를 위해서 필요한 연구 주제가 될 수 있다.
농약 노출군의 건강영향을 산출할 때 어떤 집단과 비교하느냐에 따라 결과가 달라질 수 있기 때문에 비교군(reference group) 선정은 매우 중요하다. 이상적인 비교군은 다른 특성은 비슷하고 단지 조사하고자 하는 농약에 노출되지 않는 집단이라고 할 수 있다. 그러나 현실에서 거의 모든 사람들이 일반 환경에서 어느 정도의 농약에 노출이 되어 있으므로 정확한 의미에서의 비노출 비교군은 확보하기가 어렵다. 따라서 일반적으로 노출군과 일반적 특성이 비슷한 내부 비교군을 설정하여 결과를 비교하는 것이 우선적으로 권장된다. 그러나 만약 연구 집단의 노출 정도가 일정하다면 원인적 연관성을 보기 어렵기 때문에 외부 비교군이 필요할 수도 있다. 또한 여러 비교군을 활용하여 다각도로 비교하는 것도 결과값을 의미 있게 만들기 위해 좋은 전략이 될 수 있다.
비교군 설정에 있어서 가장 중요한 것은 비교성(comparability)을 최대화시키는 것이므로 농약 저노출군을 비교군으로 하는 경우가 많다. 그러나 이때 비교성은 좋아지지만 비노출군을 비교군으로 할때에 비해서 표본수가 작아질 수 있는 단점이 있고, 반대로 비노출군을 비교군으로 하면 표본수를 증가시킬 수 있지만 비교성이 감소된다. 따라서 우선 비노출군과 저노출군 간의 일반적 특성을 비교한 후 군간 유의한 차이가 나면 저노출군을, 그렇지 않으면 비노출군을 비교군으로 설정하게 된다.
미국농업인건강연구에서 alachlor라는 제초제와 혈액종양 발생과의 연구에서 이러한 내용이 논쟁이 되어 비노출군 및 저노출군 각각에 대한 결과를 추가로 제시하기도 하였다(표 4-7). Alachlor(상품명:Lasso)는 우리나라를 포함하여 세계적으로 광범위하게 사용되고 있는 제초제로서, 일부 동물실험에서 비강암, 갑상샘암, 위암 등과의 연관성이 보고되었으며, alachlor 농약 제조 회사(몬산토) 근로자들에 대한 코호트 연구에서 대장암과 백혈병 발생률이 증가된 바 있다. 따라서 미국농업인건강연구 내 농약 살포자들에서 alachlor 농약에 대한 암 발생률을 조사하여 전체 혈액종양의 발생률이 alachlor 노출과 양-반응관계가 있고, 고노출군에서 약 2배 증가된 위험도를 보고하였다. 그런데 이 결과가 발표된 이후 alachlor 농약 제조 회사가 주관이 되어 분석과정에서의 방법론적 이슈들, 즉 비교군의 설정 및 전체 혈액종양의 이질성에 대해 문제 제기를 하였다. 따라서 제안된 내용들을 수용하여 비교군을 저노출군에서 비노출군으로 바꾸고 전체 혈액종양을 각 세부 암별로 재분석하여 alachlor 노출과 백혈병과의 연관성에서 보다 더 증가된 3배 이상의 위험도 값을 보고하였다. 몬산토 입장에서는 alachlor 농약과 악성종양과의 결과를 희석시키려다 오히려 더 유의한 연관성을 알리게 된 셈이다.
<표 4-7> 비교군에 따른 alachlor 농약의 직업적 노출과 백혈병에 대한 위험도
출처:Lee WJ et al. Letters to the editor. The authors reply. American Journal of Epidemiology. 2005.
건강근로자효과(healthy worker effect)는 일반인구와 비교할 때, 직업을 가지는 인구집단의 사망 및 질병수준이 더 낮게 나타나는 것을 말하며 농업인에게 나타났을 때는 건강농업인효과(healthy farmer effect)라고도 부른다. 처음에는 주로 사망률을 비교하는 연구에서 언급되기 시작하였으나 사망률뿐만 아니라 질병의 발생 및 유병에도 적용되었다. 일반적으로 이 효과의 정도는 질병의 종류에 따라 달라 심혈관계 질환은 크고 암은 비교적 작게 나타나며 채용된 기간이 길어지면 효과도 작아진다.
이러한 현상은 건강고용효과(healthy hire effect)와 건강근로자 생존효과(healthy worker survivor effect)의 종합적인 결과로 볼 수 있다. 건강고용효과는 고용단계에서 장애나 질병이 있는 사람보다 건강한 사람들이 뽑힐 확률이 더 높은 것에 기인하며, 건강근로자 생존효과는 계속적으로 건강한 사람들이 근로자로 남게 되고 건강하지 못한 사람은 일을 그만두게 되는 현상에 의해 발생한다. 즉 건강근로자효과는 건강한 근로자가 선택되는 과정이 고용되는 시점뿐만 아니라 고용된 이후에도 계속적으로 일어나게 된다. 건강근로자효과는 자료분석 시 선택 바이어스 또는 교란효과로 작용할 수 있어 분석 자료를 심도 있게 파악하고 결과를 해석하는 것이 중요하다.
건강근로자효과를 보정할 필요가 있을 경우에는 여러 방법들이 적용된다. 즉 적절한 외부 비교군 및 내부 비교군 선택, 퇴사한 근로자 추적, 통계학적 보정방법 적용(상대적 표준화사망비를 통한 보정, 최소 추적기간을 설정, 시차를 두고 분석하는 방법, 고용상태 변수를 모델에 포함, G-알고리즘 적용) 등이 사용될 수 있다. 미국농업인건강연구에서 관찰된 건강근로자효과는 상대적 표준화사망비 방식을 적용하여 보정한 바 있다. 일반적인 표준화사망비에 의하면 농업인이 일반인보다 낮은 암 위험도를 보여 주지만 건강근로자효과를 보정하게 되면 많은 암들에서 일반 주민들보다 높은 위험도 값을 관찰할 수 있었다(표 4-8). 반면 우리나라를 비롯한 프랑스 농업인의 경우 일반인과 비교해서 전체 암 사망률이 높게 보고되어, 건강근로자효과는 각 농업인들이 차지하고 있는 사회경제적인 위치에 따라 다르게 나타날 수 있다.
<표 4-8> 미국농업인건강연구에서의 건강근로자효과 보정전후의 표준화암사망비, 1993-2007
출처:Waggoner JK et al. Mortality in the Agricultural Health Study, 1993-2007. American Journal of Epidemiology. 2011.
표준화(standardization)는 질병에 영향을 미칠 수 있는 요인, 대표적으로 연령과 성별의 구성이 다른 인구집단에서의 질병 양상을 보다 객관적으로 비교하기 위해 사용되는 방법이다. 예를 들어 연령표준화율을 산출함으로서 비교하고자 하는 인구집단의 연령 차이로 인한 영향을 배제할 수 있다. 일반적으로 연령이나 성별에 대한 표준화율을 주로 산출하지만 연구특성에 따라서 중요하게 생각되는 다른 변수도 표준화할 수 있다. 만약 표준화를 하지 않으면 집단 간 객관적인 비교가 가능하지 않아 자료를 잘못 해석할 수 있다.
연령표준화의 원리는 비교하고자 하는 인구집단의 연령군별 율을 표준인구집단의 연령별 인구구조에 적용했을 때 기대되는 가상적인 사망자수(발생자수, 유병자수)를 산출하는 것이다. 표준인구 구조를 적용하여 산출된 연령별 사망자수를 모두 합산한 값을 분자로, 표준인구집단의 전체인구수를 분모로 하여 표준화율을 산출한다. 국내 자료를 통한 농약 중독 사망에 대한 연령표준화율 산출 예시는 <표 4-9>와 <표 4-10>과 같다.
<표 4-9> 2010년과 1996년의 농약 중독 연령별 사망률
a10만 명당 연령별 사망률
<표 4-10> 표준인구집단의 연령별 인구수 적용 시 기대되는 사망자수
a10만 명당 연령별 사망률
각 연도의 기대사망자수를 표준인구 전체 인구수로 나누어 표준화율을 산출하면 다음과 같다. 여기서는 2개 연도의 인구를 합산한 것을 표준인구로 사용하였다.
즉 2010년과 1996년의 농약 중독 사망의 조율은 각각 10만 명당 6.35명, 4.11명이며 각 연도의 인구구조를 살펴보면 1996년도에 비해서 2010년도의 60세 이상 인구비율이 약 2배 증가한 것을 확인할 수 있다(표 4-9). 농약 중독 사망이 주로 고령에서 많이 발생하는 것을 고려해 볼 때 고령층이 많이 포함된 인구집단에서 농약 중독 사망자가 많이 발생했을 것이라고 예측할 수 있다. 따라서 2개 연도의 자료를 연령표준화 방법을 통해 동일한 연령구조를 적용하여 표준화율을 산출해 보면 2010년도는 5.24명, 1996년도는 4.68명이 산출된다(표 4-10). 연령표준화를 통해 2010년도에 고령층이 많이 포함되어 있는 효과를 제거했음에도 불구하고 1996년에 비해서 2010년도의 농약 중독사망률이 높다고 할 수 있다.
한편 일반 인구집단을 비교군으로 하여 관심 인구집단에서의 사망(이환)률을 비교하고자 할 때 표준화사망(이환)비(standardized mortality or morbidity ratio)라는 지표를 사용한다. 표준화사망비는 관심 인구집단에서 실제 관찰된 사망자 수를 가상적인 기대사망자 수로 나누어 줌으로서 산출한다. 이때 가상적인 기대사망자 수를 계산하는 방식은 일반 인구집단에서의 연령별 율이 관심 집단에 적용되었을 때 산출되는 사망자 수를 의미한다. 국내 일반 인구집단에 비해서 농업인 집단의 표준화사망비를 산출하는 예시는 <표 4-11>과 같다.
<표 4-11> 일반 인구집단과 농업인구의 연령별 연평균 사망자 수, 1996-2010
즉 농업 인구집단에서의 사망은 일반 인구집단에 비해서 20% 높다고 해석할 수 있다. 앞서 농약 중독 시 산출했던 연령표준화율은 동일한 표준인구수를 기준으로 중독자 수를 산출하였기 때문에 1996년과 2010년의 농약 중독률은 직접 비교가 가능한 지표이다. 그러나 농업 인구집단이 아니라 다른 직업군의 표준화사망비를 산출했다면 이 때 산출된 표준화사망비와 농업인구집단의 표준화사망비를 서로 직접 비교하는 것은 적절치 않다. 왜냐하면 산출된 표준화사망비 값은 비교하려는 집단들의 연령구조에 영향을 받기 때문이다. 그러므로 표준화사망비는 표준인구와의 비교를 위한 목적으로만 사용되는 것이 적절하며 연령표준화율과 같이 다른 군과 비교하는 것은 적합하지 않다.
신뢰도(reliability)란 동일한 내용을 반복적으로 측정할 때 동일한 측정결과를 가져올 수 있는 정도를 의미한다. 만약 어떤 측정도구를 동일한 현상에 반복 적용하였을 때 항상 같은 결과를 얻게 된다면 이 측정도구는 신뢰성이 높다고 볼 수 있다. 보건학에서는 설문 문항에 대해서 신뢰도 검사를 많이 실시하고 있으며 설문 문항의 신뢰도가 높아야만 연구에 활용할 수 있다. 특히 농약 노출에 의한 건강영향을 평가하기 위해서는 설문조사를 많이 실시하고 있어 각 설문 항목들이 역학 연구에 활용될 수 있는 신뢰도를 갖고 있는지 검증하는 것은 우선적으로 중요하다.
신뢰도를 측정하는 방법으로 가장 많이 사용되고 있는 것은 동일한 대상에게 시간적 간격을 두고 동일한 문항을 반복적으로 측정하는 재검사법이다. 이때 같은 설문문항을 기억에 의존하지 않고 답할 수 있는 잊어버리기에 충분한 기간이면서, 동시에 묻는 문항의 내용이 변하지 않는 기간 설정이 중요하다. 즉 너무 짧으면 첫 번째 응답했던 내용을 기억에 의존해 그대로 답할 가능성이 있으며, 너무 길면 실제 내용이 변화될(예, 농약 살포자가 유기농으로 전환) 가능성이 있다. 일반적으로 1개월 정도가 단순한 회상을 피할 수 있도록 충분히 길고, 생활 양상의 일관성을 유지하기에 충분히 짧은 기간으로 판단하고 있으나 조사하는 항목에 따라 조사 간격이 조절될 수 있다.
미국농업인건강연구에서는 농약 사용 여부에 대한 설문 항목의 신뢰도 지수(카파)가 0.7-0.9로서 흡연과 음주 항목과 비슷한 정도의 신뢰도를 보였고, 육체 활동이나 식이항목보다는 높은 신뢰도를 보여 역학연구에서 유용하게 사용될 수 있다는 것을 보고 하였다. 한편 미국 과수 농민들을 대상으로 한 연구에서도 설문을 통한 농약 사용 항목에 대한 신뢰도가 역학적으로 사용될 충분한 수준이며 연령에 따라서 크게 변화하지는 않았다고 보고하였다. 스페인에서는 작물형태, 농약사용 시점, 개인보호구 착용 등의 항목에 대해서는 높은 신뢰도를 보였으나 개별 농약 및 농약사용 기간 등에 대해서는 낮은 신뢰도를 보고한 바 있다. 또한 미국에서 실시된 유방암 환자-대조군 연구, 캐나다에서 실시된 파킨슨병 환자-대조군 연구, 이탈리아의 흑색종 환자-대조군 연구에서는 농약 사용 여부에 대해 각각 0.63, 0.47, 0.37 등의 카파 통계량을 보고한 바 있다.
비록 외국에서 일부 문항들이 신뢰도와 타당도가 검증되었다고 하더라도 연구 대상자들의 일반적 특징 즉 교육수준, 연령, 문화적 배경 및 생활양식이 다른 한국인에서는 같은 타당도나 신뢰도를 유지할 수 있다고 보기 어렵다. 또한 농약 노출 평가에 있어서 생물학적 지표 사용이 지극히 제한된 상황에서 농약 노출 평가를 위해 설문에 많이 의존하고 있으며 따라서 우리나라에 맞는 설문 문항 개발 그리고 개발된 설문 항목들에 대한 타당도와 신뢰도 평가는 중요하다. 농약 노출 문항의 신뢰도 산출 시 기존 역학 연구에서 흔히 사용되는 흡연, 음주, 운동, 식이력 등의 생활습관 항목들과 비교해서 어떠한 수준인지를 파악하여 활용 가능성을 판단하는 것이 필요하다.
우리나라에서도 2010년도에 처음으로 일부 농업인을 대상으로 농약 노출 평가에 활용되는 설문 항목들에 대한 신뢰도 결과가 보고되었다. 이 연구에 의하면 농약 사용 여부 및 기간에 대한 문항들은 전체적으로 높은 신뢰도 값을 나타내었으며 흡연, 음주, 운동 항목과는 비슷하고 식이 습관보다는 다소 높은 수준의 신뢰도를 나타내었다. 따라서 총 농약 살포 문항들에 대한 자가보고 정보들은 생활습관 항목들과 같이 역학연구에서 활용될 수 있을 것으로 판단된다. 그러나 개인 보호 장비와 위생행위 항목들은 비교적 낮은 신뢰도를 보였고, 특히 개방형으로 질문한 개별 농약 사용 항목 및 농약 살포 방식에 대한 응답률은 매우 낮았으며, 신뢰도 수준도 각 농약별로 큰 차이를 보여 주었다. 한편 농약 살포 연수에 비해 살포 일수에 대한 문항의 신뢰도가 상대적으로 낮은 것으로 나타났다. 이는 농약 살포 작업이 연중 일정하게 이루어지기보다는 농번기에 집중적으로 이루어지고, 날씨에 영향을 많이 받기 때문에 살포 일수가 살포 연수보다 가변적이기 때문인 것으로 판단된다. 그리고 농업인들이 개인 보호구의 형태나 종류를 정확하게 구분하지 못했을 가능성도 배제할 수 없기 때문에 설문에 해당 보호구에 대한 그림이나 사진 등을 첨부하여 이해를 돕는 것도 신뢰도를 높이기 위해 중요하다.
타당도(validity)란 적용된 검사방법이 참값을 얼마나 정확히 표시하느냐를 평가하는 것이다. 농약 노출에 대한 정보가 거의 전적으로 개인의 응답에 의존하기 때문에 각 문항들의 타당도 검정이 중요하다. 농사 경력과 전체 농약 사용여부에 대한 정보는 상대적으로 용이하게 파악될 수 있으나 개별 농약 사용에 대한 정보는 특히 파악하기 어렵다. 농약에 대한 연구가 전체 농약 사용여부 보다는 개별 농약에 의한 건강영향을 파악하는 방향으로 나아가고 있어 개별 농약 사용에 대한 파악은 매우 중요하다. 그러나 타당도에 대한 연구는 참값(gold standard)을 설정하는 것이 어렵기 때문에 국내외적으로 제한적으로 실시되었다.
농약 연구에서 타당도를 검사한 방법으로는 농약의 등록시점을 이용하여 농업인들이 자가 보고한 농약의 처음 사용 시기를 검증하거나, 기존의 자세한 보고를 참 값으로 설정하여 최근 보고 자료와 비교한 연구들이 진행된 바 있다. 또한 설문 정보를 사용해 만든 노출 지수와 소변 중 농약 대사산물 농도와의 비교를 통해 타당도를 검사하기도 한다. 이러한 타당도 평가는 설문을 통해 산출된 농약 노출 정도가 역학적으로 유용하다는 것을 과학적으로 뒷받침해 주는 중요한 역할을 담당하고 있다.
국내에서도 연구 대상자들이 지난 1년간 실제 구입한 농약 목록을 농협을 통해 확보하여 참값으로 설정한 후 개별 농약에 대한 타당도 검사를 수행한 바 있다. 즉 농업인들이 지난 한 해 동안 주로 사용하였다고 보고한 개별 농약 상품명을 연구 대상자들이 농협에서 실제 구입한 농약 목록과 비교한 결과, 농협에서 구입한 농약의 개수는 일인당 평균 16.9개였으나, 면접조사 시 사용하였다고 보고한 농약 개수는 평균 3.8개였다. 그리고 연구 대상자가 농협에서 실제 구입한 농약 중에서 면접조사 시 보고된 농약의 분율은 평균 9.2%(0- 22.7%)로 매우 낮았으며, 보고한 농약 중에서도 실제로 농협에서 구입한 목록에 포함되어 있는 농약의 분율은 36%에 불과하였다.
이러한 결과는 설문을 통해 개별 농약 사용력을 파악하고 있는 미국 연구들과 대비되는 것으로 향후 우리나라에서 농약 연구를 실시하는 방향성 설정에 의미하는 바가 크다고 할 수 있다. 우리나라 농업인이 상대적으로 고령이고 사회경제적 수준이 낮아 개별적으로 심층 인터뷰를 하지 않는 한 일반적인 설문조사로서 개별 농약에 대한 정확한 정보를 얻기가 어려울 수 있다. 그 대신 신뢰도와 타당도가 높은 가능한 다른 정보들을 토대로 추론하는 방식이 더 적합할 수 있다. 즉 구체적인 개별 농약 정보 대신에 타당도가 높은 작목형태 및 경지 면적에 대한 정보를 통해 개별 농약 사용을 추정하는 방법을 고려하는 것도 유용할 것으로 판단된다. 프랑스의 농업인 코호트에서도 이와 유사하게 농약 노출을 개인별 조사가 아닌 직업-노출 매트릭스를 통해 평가하고 있다.
대규모 역학 조사에서는 모든 대상자에게 자세한 정보를 얻기가 현실적으로 어렵기 때문에 전체에 대해서는 대략적인 정보를 얻고 일부 집단에서는 자세한 조사를 통해 보완하는 방식을 취할 수 있다. 이러한 과정을 2단계 연구(two-stage design)라고 하며 이때 대략적인 정보와 자세한 정보 결과들 간의 타당도와 신뢰도를 비교하는 것은 일부 집단의 결과를 전체 대상자에게 적용할 수 있는지를 판단하기 위해 매우 필요하다. 즉 타당도, 신뢰도, 2단계 연구는 서로 연결되는 개념들이며 농약을 비롯한 환경역학 연구에서 자주 적용되는 방식들이다. 국내 농약 연구에서도 대규모 농업인을 대상으로 농작업에 대한 개략적인 1단계 조사를 한 후, 일부 대상자에 대해서 자세한 정밀설문 및 생체시료 조사를 진행하면서 정확도와 신뢰도를 효율적으로 파악하는 것이 필요하다.
1 노출과 건강영향 간에 실제 연관성이 없는데도 불구하고 연관성이 있다고 판정하는 오류(α-error).
2 노출과 건강영향 간에 실제 연관성이 있음에도 불구하고 연관성이 없다고 판정하는 오류(β-error).