오류(error)는 참값과 측정값의 차이로서 주로 잘못된 측정이나 방법에 의해서 발생하지만, 개인 간 고유한 이질성에 근거한 다양성(variability)에 의해서도 발생할 수 있다. 오류의 종류에는 오류 값이 개인별로 독립적이냐에 따라 공유 오류(shared error)와 비공유 오류(unshared error)로 구분한다. 공유 오류는 오류가 연구 대상자별로 독립적이지 못한 경우이며, 체계적 오류(systematic error) 혹은 바이어스(bias)라고 한다. 바이어스는 자료를 수집하고 분석하고 결과를 해석하는 모든 과정에 참값과 다른 값을 발생시키는 경향성으로 단순히 참값과의 차이는 그중 하나의 현상이다. 예를 들어 몸무게 측정 시 계측기의 잘못으로 전체적으로 과다측정되는 경우처럼 오류가 집단에 다 같이 공유되는 경우이다. 반면 비공유 오류는 오류가 개인별로 독립적으로 발생하는 것으로 무작위 오류(random error)라고도 한다. 예를 들어 몸무게 측정 시 개인별로 식사 여부나 탈의 여부에 따라 차이나는 것처럼 오류의 발생 양상이 개인별로 서로 독립적으로 발생한다.
체계적(공유) 오류, 즉 바이어스는 측정한 값이 정확하지 못한 것(lack of validity)을, 무작위(비공유) 오류는 정밀하지 못한 것(lack of precision)을 의미한다. 바이어스는 오류의 한 종류로서 오류와 유사한 의미로 사용되지만, 연구의 내용적 측면과 관련된 보다 역학적 개념인 반면, 무작위 오류는 정량적 접근을 다루는 보다 통계적 내용이다.
국내 방사선 종사자들은 방사선 노출량을 측정하기 위해 배지를 착용하는데, 만약 방사선 작업량이 분기별 혹은 연도별로 변동이 크다면 한번 측정된 배지값은 실제 평균 노출량(참값)과 차이를 보이며 이는 개인별로 서로 독립적으로 발생하여 무작위 오류에 해당한다. 한편 측정값의 검출한계가 방사선관계종사자들의 경우 0.01mSv이며 작업 종사자의 경우는 0.1mSv로 설정되어 왔으며(최근엔 0.1의 기준을 설정하는 대신 측정한계치를 직접 기록하도록 한다), 따라서 검출한계 미만값을 0으로 처리 할 경우 방사선관계종사자 중 선량값이 0.1-0.01mSv인 경우 실제 측정값이 반영되는 반면, 과거 작업 종사자들은 이 범위에 노출된 경우들이 모두 0으로 처리된다. 따라서 방사선관계종사자들의 선량이 방사선 작업 종사자 집단보다 체계적으로 높게 평가될 수 있으며 이는 체계적 오류에 해당한다.
바이어스는 연구의 시작 단계에서부터(주제 설정) 결과를 요약하고 발표하는 전 과정에 걸쳐 발생 될 수 있으므로 많은 종류가 있다. 일반적으로 선택바이어스 (selection bias), 정보바이어스(information bias), 교란 바이어스(confounding)로 대분류할 수 있으며 각 분류 내에 많은 이름의 개별 바이어스들이 보고되고 있다.
바이어스는 참값과 관찰값의 차이 자체보다는 관찰된 값이 참값과 다른 연구 과정에서의 경향성(tendency)을 의미한다. 즉 연구디자인과 과정이 잘 수행된다면 이 연구의 결과는 평균적으로 타당하다고 판단되며, 잘못된 연구는 평균적으로 잘못된 결과를 산출한다. 그러나 잘못된 연구도 표본의 변동(variability)으로 인해 참값을 보고할 수도 있으며, 잘된 연구도 표본 변동으로 잘못된 값을 보일 수도 있어 단순한 차이 자체만으로 바이어스를 규정하기엔 불충분하다.
무작위 오류는 오류값이 참값 혹은 관찰된 값에 독립적이냐에 따라 고전적 오류(Classical error)와 버크슨 오류(Berkson error)로 구분한다. 고전적 오류는 개별적으로 측정 혹은 추정된 값과 참값의 차이를(관찰값 = 참값 + 오류) 의미하며, 버크슨 오류는 특정 집단의 할당된 값이 개인의 참값과의 차이를(참값 = 할당값 + 오류) 의미한다. 각 오류를 표현하는 식은 무엇과 독립성을 갖는지를 구분하기 위해서 다르게 표현한 것으로, 고전적 오류는 참값과 버크슨 오류는 할당값과 독립적이다. (Berkson error는 1950년 Joseph Berkson에 의해 제안된 것으로 알려졌다).
고전적 오류는 측정오류(measurement error)라고도 한다. 예를 들어 개인별로 한 번 측정된 방사선량을 각 개인의 노출값으로 설정하는 경우와 반복 측정하여 얻어진 더 정확한 노출값(반복 측정값을 참값으로 설정)과의 차이가 해당된다. 이 경우 각 개인에게서 측정된 선량값은 평균적으로 노출된 참값과는 다를 수 있으며, 이때 발생하는 참값과 한번 측정된 값과의 개별적 차이는 참값과는 상관없이 독립적으로 발생하므로 고전적 오류에 속한다.
버크슨 오류는 특정 집단의 할당된 값이 개인의 참값과의 차이를 의미하며 할당 오류(assignment error) 혹은 평균 오류(averaging error)라고도 한다. 예를 들어 광부들에게 각 작업 형태별로 라돈 농도를 측정하고 개인별로 할당한다면, 실제 개인이 받았을 참값의 라돈 노출값과 차이가 있을 수 있다(집단 평균값이 각 개인이 받았을 실제값을 정확히 반영해 주는 것은 아니므로). 이 경우 같은 값이 집단으로 할당되긴 하지만 개인별로 오류가 함께 공유되지는 않기 때문에 공유 오류에 속하지는 않는다.
또한 핵산업시설과의 거리에 따라 가까운 곳과 먼 곳으로 나누고, 지역별로 측정된 농도를 기준으로 지역별 평균값을 할당하면 각 개인의 참값과는 차이가 생길 수 있다. 이처럼 집단으로 할당된 값과 개인별 참값과의 차이는 할당된 값과 독립적으로 발생하므로 버크슨 오류라고 한다. 특정 개인의 실제 노출 농도는 할당된 평균값보다 클 수도 있고 작을 수도 있지만, 전체적으로 오류에 대한 평균은 제로가 된다(올바른 평균 집단값이 적용되었을 경우). 따라서 만약 바이어스가 우려된다면 집단별 평균값을 사용하여 버크슨 오류 형태로 연구를 진행하는 것이 바람직하다. 그러나 만약 적용된 평균값이 잘못된 경우라면 버크슨 형태의 할당값을 사용한다고 하더라도 선량-반응 관련성을 왜곡시킬 수 있다.
역학에서 오류와 바이어스의 형태들을 구별하여 이해하는 것은 각 연구에서 어떤 오류의 영향이 크며 어떤 오류를 줄이는 것이 중요한지를 파악하는 데 도움이 된다. 그런데 각 바이어스들이 배타적으로 구별되는 것은 아니어서 의미하는 바가 서로 중복될 수도 있다. 경우에 따라 한 가지 바이어스가 선택 혹은 정보 바이어스 모두에 분류될 수도 있다. 예를 들어 건강근로자효과는 대체로 선택바이어스로 작용하지만, 교란작용을 할 수도 있다. 또한 무작위 오류에서도 고전적 오류와 버크슨 오류가 함께 존재할 수도 있다. 따라서 한 측면만을 보고 바이어스를 배타적으로 규정짓는 것은 적절하지 않다.
또한, 각 바이어스는 서로의 효과에 영향을 줄 수 있다. 예를 들어 선택바이어스가 있다고 하더라도 정보 바이어스로 인해 선택바이어스의 효과가 과소 혹은 과대평가될 수 있다. 여기에 만약 교란작용까지 더해지면 특정 바이어스의 영향이 다양한 형태로 변형될 수 있다. 따라서 바이어스의 영향을 파악할 때 한 가지 바이어스 측면에서만이 아니라 가능한 여러 바이어스를 종합적으로 해석하는 것이 필요하다.
빅데이터가 많아지면서 표본크기에 의한 무작위 오류(random error)는 줄어드는 장점이 있으나 바이어스는 표본 크기로 줄어들지 않는다. 따라서 점차 통계적 오류보다는 바이어스에 대한 이해와 파악 및 보정이 중요해진다고 할 수 있다.
바이어스와 오류를 예방하고 보정하기 위해서는 연구 설계 단계에서 연구 방법이 목적에 맞게 설정되어야 하며, 자료 수집 과정이 신뢰할 수 있도록 진행되어야 하며, 적절한 자료 분석법의 사용이 필요하다. 그러나 바이어스를 사전에 완전히 통제하는 것은 쉽지 않아 사용된 자료와 산출된 결과에 대한 주의 깊은 해석이 중요하다. 자료 해석 및 분석시 발생할 수 있는 바이어스(예를 들어 교란 작용)는 상대적으로 보정하기 쉬우나, 연구 대상자 선정 및 평가 방법에서 비롯되는 바이어스(선택바이어스 및 정보 바이어스 등)들은 보정하기가 쉽지 않다. 선택바이어스와 정보바이어스도 관련 정보가 있다면 일부 보정 가능하며 이를 바이어스 분석이라고 한다.
각 바이어스와 오류는 역학연구에서 서로 긴밀히 연관되어 있다. 예를 들어 대상자 수를 증가시켜 무작위 오류를 감소시키기 위한 간단한 노출 평가 방법을 적용하는 것은 정보 바이어스를 증가시킬 수 있다. 반면 정보 바이어스를 줄이기 위해 연구집단을 협조가 잘 되는 일부 집단으로만 국한시킬 경우 선택바이어스가 증가할 수 있다. 따라서 바이어스와 오류를 줄이려는 노력과 함께 각 바이어스가 서로 어떻게 연관되어 작용하는지에 대한 균형 잡힌 접근이 필요하다.
연구에서 비록 참값을 모른다고 하더라도 논리적 사고 과정을 통해 바이어스가 있는지 없는지, 있다면 어느 방향으로 얼마나 있을지는 파악할 수 있다. 이러한 과정에서 보정할 수 있는 부분이 있으면 보정하고 그렇지 못한다고 하더라도 결과를 어떻게 받아들여야 할지를 이해할 수 있다. 바이어스를 가능한 한 예방하는 것이 중요하지만, 그 영향을 합리적으로 잘 해석하는 것 또한 중요하다. 바이어스를 탐색하고 해결하려는 노력 자체가 역학이라는 학문의 한 속성으로서 지식을 확장하는 기능을 한다.
대체로 바이어스가 없는 연구가 올바른 결과를 산출한다. 그러나 바이어스의 존재 여부와 산출결과의 정확성은 별개로서 한가지 바이어스가 있음에도 불구하고 다른 바이어스에 따라 산출된 결과물이 틀리지 않을 수 있다. 반대로 결과값이 올바르다고 하더라도 그것이 바이어스가 없다는 것을 직접 의미하는 것은 아니다.
역학에서 바이어스와 오류를 자세히 다루고 진지하게 고민한다는 것은 역학이란 학문의 취약성을 이야기하는 것이 아니라 엄격성을 의미한다. 역학은 단순히 지표를 산출하는 학문이 아니라 결과값에 대한 해석을 합리적으로 끌어내는 사고의 학문이다. 즉 역학 지표로 산출된 값은 많은 요인이 복합된 결과로서 올바른 해석을 위해서는 산출된 값을 그대로 이해하기보다는 그 결과값에 영향을 줄 수 있는 여러 상황을 이해해야 한다. 바이어스와 오류는 질병과 건강에 대한 사고체계를 합리적으로 발전시켜 나가는 역학의 중요한 영역이다.