보건학에서는 인구집단을 대상으로 노출 평가를 수행하기 때문에 실험적 연구와 같은 정확성을 갖기 어렵다. 따라서 노출 평가의 부정확성으로 연구결과에 부정적인 영향을 줄 수 있으며 이때 어떤 방식으로 얼마나 영향을 줄 것인지를 이해하는 것은 매우 중요하다. 비록 오류를 수정할 수 없다고 하더라도 오류의 방향성과 정도를 파악하는 것은 결과의 해석과 활용에 큰 의미를 준다.
가장 중요한 오류 중 하나는 노출에 대한 오분류(misclassification)이다. 노출자를 비노출군으로 혹은 비노출자를 노출군으로 분류하게 된다면 잘못된 연구 결과가 나타날 수 있다. 환경 유해물질과 폐암에 대한 연구에서도 흡연을 보정하지 못하는 것보다 노출에 대한 오분류가 실제로 결과를 더욱 크게 왜곡시킨다고 보고되기도 하였다. 따라서 오분류에 의한 영향을 최소화하는 것이 보건학에서 무엇보다도 중요하다.
노출 측정과 관련되어 발생할 수 있는 오류는 차별적(differential) 또는 비차별적(non-differential) 오분류로 분류할 수 있다. 차별적 오분류는 연구하고자 하는 건강상태에 따라 측정 오류가 달리 발생하는 것을 말하며 비차별적 오류는 건강상태와 무관하게 오류가 발생하는 것을 뜻한다. 만약 농약 노출을 이분형(노출/비노출)으로 진행한 연구에서 비차별 오분류가 발생하게 되면 거의 모든 경우 결과의 관련성이 작아지는 방향으로 작용한다. 그러나 만약 농약 노출의 분류를 다범주 변수(분류가 3개 이상인 집단)로 한다면 비차별적 오분류가 발생되더라도 위험도가 작아질 수도 있고 커질 수도 있다. 이 경우 단지 위험도의 크기만이 문제가 아니라 경향성도 뒤바뀔 수 있어 해석 시 주의를 요한다. 또한 생태학적 연구에서 발생하는 비차별적 오분류는 개인 수준에서의 오류의 방향성과는 다르게 나타나게 될 수 있다.
만약 농약 노출 지수와 같이 연속변수에서 측정오류가 발생하게 되면 고전적 오류(classic error)와 버크손 오류(Berkson error)를 구별해서 해석하는 것이 필요하다. 고전적 오류는 예를 들어, 각 개인이 무작위로 측정된 소변 중 3-PBA(피레스로이드계 농약의 대사물질) 농도를 갖고 있다고 가정했을 때 진짜 노출값과 측정값 간에 발생되는 차이를 말한다. 버크손 오류는 만약 거주 지역을 농약 살포 경작지 거리에 따라 가까운 곳, 중간, 먼 곳으로 나누고 각 군별 같은 평균값이 전체 개인들에게 할당된다면 진짜 노출값과 할당된 평균값 간에 차이가 있게 되는 것을 말한다. 어떤 개인의 실제 노출농도는 평균보다 클 수 있고 다른 개인은 작을 수 있어 전체적으로 오류에 대한 평균은 영(zero)이 된다. 즉 버크손 오류의 경우 연속변수에서 측정된 값들이 오차가 있어도 결국 집단으로 평균된 값을 보이므로 관련성을 왜곡시키지는 않게 된다. 따라서 연구에서 만약 바이어스가 우려된다면 집단별 평균값을 사용하여 버크손 오류 형태로 진행시키는 것이 바람직하다.
미국농업인건강연구에서는 설문을 근거로 만들어진 농약 노출 강도와 소변 중 농약 대사산물과의 상관성이 완전히 일치하지 않는 것을 근거로 농약 노출 시 어느 정도의 오분류가 발생하였을 것이라고 인정하면서도, 이러한 분류오차가 비차별적 오분류로서 연구결과를 감소시키는 방향으로 영향을 주었으며, 기존 결과들이 오류가 없었다면 더 유의한 결과를 보여 주었을 것으로 설명한 바 있다. 이러한 방법론적 논문은 미국농업인건강연구에서 보고되는 위험도 값의 정당성 또는 방향성을 설명하는 데 중요하게 인용되고 있다.
노출에 대한 오류는 관심변수(농약 노출), 교란변수(흡연 등), 효과변경인자(연령, 성 등)에서 각각 발생될 수 있다. 주된 관심은 노출 평가에서의 오류가 관심변수에서 발생하였을 때 연구 대상자들의 노출 상태를 잘못 분류시키게 되어 결과적으로 관련성을 왜곡시키는 것이다. 예를 들어 농약 노출의 대리지표로 흔히 사용되는 농작업 여부라는 정보는 농약 노출이라는 관심변수를 평가하는 데 오류를 발생시킬 수 있다. 전문가 판단에 의하면 많은 농업 관련 직업들이 실제로는 농약에 노출되지 않는다고 보고된 바 있다. 따라서 만약 모든 농작업을 농약에 노출되었다고 분류한다면 노출군에 비노출자들이 포함될 수 있어 농약의 효과를 과소평가할 수 있다. 따라서 단순히 직업만이 아니라 작목 형태와 작업 기간 등에 대한 고려가 보다 정확한 농약 노출 분류를 위해 필요하다. 그러나 비농작업이라고 응답한 경우에는 농약에 노출되는 경우가는 매우 적어 오분류의 영향은 적다.
노출 오류는 교란변수 및 효과변경인자에서 발생되어도 결과해석에 잘못된 정보를 제공해 줄 수 있어 이에 대한 이해도 필요하다. 측정오류가 교란변수에서 발생한다면 그 효과는 잔류 교란변수(residual confounding)로서 나타나게 되어, 결과값이 조율(crude rate)과 보정된 값(adjusted rate) 사이로 존재하게 된다. 또한 만약 측정오류가 효과변경인자에서 발생하게 된다면 상호작용을 감소시켜 취약 집단이 누구인지 파악하기 어렵게 만들 수 있다.
결과변수를 판정하는 데 있어서도 오분류가 발생할 수 있다. 즉 질병 여부와 같은 명목변수 형태로 또는 부정확한 폐기능 값과 같은 연속변수에서도 발생할 수 있다. 그러나 일반적으로 결과변수는 객관적인 등록 자료 또는 임상 검사 자료를 사용하기 때문에 오분류되는 경우가 적고 오분류가 발생되더라도 노출에서보다는 크기가 상대적으로 작다. 한편 주관적인 증상에 의해 질병이 정의되는 경우에는 이러한 오류는 더욱 크게 나타날 수 있다. 농약 중독 여부를 단지 임상 증상여부로 판단하게 되면 개인의 기억 또는 판단에 의해 중독자가 비중독자로 혹은 비중독자가 중독자로 분류될 가능성도 있다. 따라서 증상에 의한 중독정의는 노출 여부 및 시간적 관련성 그리고 중독 증상과 농약과의 특이성 등을 보완적으로 판단하여 최대한 오분류를 줄이도록 하는 것이 중요하다.
노출에 대한 측정오류가 있다면 이에 대한 보정(correction)이 필요하며 이를 위해서는 신뢰도 및 정확도 검사를 통한 정보가 필요하다. 그러나 이러한 검사가 항상 가능하지 않으며 보정을 위해서는 여러 불확실성을 고려하여 계산해야 한다. 이때 잘못된 정보 또는 가정을 통한 보정은 더 큰 바이어스를 초래할 수 있다. 따라서 비록 보정된 효과측정(effect measure)이 이루어졌다고 하더라도 민감도 분석1을 통해 여러 가지 가정하에 보정에 대한 계산이 이루어지는 것이 바람직하며 보정되지 않은 효과측정 값도 함께 제시되는 것이 바람직하다.
1 민감도 분석(sensitivity analysis)은 변수, 모델, 분석방법, 대상자들의 변동이 결과에 미치는 정도를 평가하는 것을 말하며 이러한 분석을 통해 산출 결과를 보다 확고하게 제시할 수 있음.