생태학적 연구란 사용하는 정보의 단위가 개인이 아니라 집단인 형태를 말하며, 상관성 연구(correlation study)라고도 한다. 집단적 정보를 활용하기 때문에 개인 단위가 있어야 하는 다른 연구에 비해서 상대적으로 쉽고 빠르게 진행할 수 있다. 이 방법은 집단적 정보를 산출하는 기술적 연구의 역활뿐 아니라 인과성 추론을 평가하는데도 적용된다. 그러나 집단화된 정보를 사용함으로써 개인별 정보에 근거한 연구보다 결과를 해석하는 데에는 한계를 가져, 생태학적 연구를 통해서는 연구가설을 생성(hypothesis generating)한다고 표현하며 생태학적 결과가 직접 가설을 검증하지는(hypothesis testing) 않는다. 이 연구 방법은 주로 요인과 질병과의 연관성이 잘 알려지지 않았을 때 연구 초반기에 의미 있는 가설을 생성하는 역할을 한다.
생태학적 연구 형태에는 여러 지역의 질병률을 동시에 비교하는 다집단 연구(multiple-group study), 같은 지역의 질병률을 다른 시간대에 비교하는 연구(time-trend study), 그리고 동시에 여러지역의 질병률을 비교하는 혼합연구(mixed design)로 구분된다. 예를 들어 자연방사선 노출과 뇌종양 발생연구는 여러 지역을 동시에 비교하는 형태로 진행되었으며, 방사능 낙진과 어린이 백혈병 발생 연구는 동일한 나라에서 백혈병 발생의 시간적 경향을 낙진 농도와 비교하는 형태로, 그리고 원전 주변 지역주민과 암위험도 연구는 여러 지역을 원전 가동 전후로 비교하여 원전 지역이 암위험도가 높은지를 비교하는 형태로 진행되었다.
생태학적 연구에서 활용되는 집단정보는 대체로 일차자료보다는 이차자료들이기 때문에 가설에 부합하지 않는 경우들이 있다. 또한 대체로 연구에서 보고자 하는 내용에 대한 직접 지표라기보다는 간접지표인 경우가 많다. 따라서 사용할 자료가 연구에 적합한가를 파악해서(각 지표가 의미하는 바가 무엇이고 각 지표의 한계가 무엇인지), 자료를 가설에 맞게 가공하던지 혹은 자료가 제시할 수 있는 내용에 근거한 가설을 세우는 것이 합리적이다. 그리고 생태학적 연구에서 표본의 크기는 특정 집단 내의 대상자 수가 아니라 집단정보의 개수이다. 예를 들어 1,000명 단위의 정보를 10개 얻었다면 표본수는 1만 명이 아니라 10인 것이므로, 100명 단위의 인구집단 정보를 100번 얻는 것이 같은 1만 명을 대상으로 했어도 더 많은 표본수를 갖는다.
생태학적 연구에서 사용하는 집단자료는 3가지 종류로 나뉜다. 첫째, 집합 척도(aggregate measures)는 개인별 값에서 유래된 혹은 종합한 형태의 변수로서 일반적으로 집단의 요약 값인 평균 혹은 분율값(흡연율, 가구 평균수입 등)을 의미한다. 이러한 변수는 개인의 정보로부터 유래되지만, 일단 집단적 정보가 되면 독립된 정보로서 개인에게 영향을 준다. 예를 들어 집단면역은 개인의 면역상태가 종합된 집단값이면서 동시에 그 집단의 면역률이 각 개인의 면역상태와 독립적으로 감염에 영향을 준다. 둘째, 환경 척도(environmental measures)는 지역이나 작업장의 물리적 특성을 의미하는 값으로 예를 들어 지역별 자연방사선 노출량 혹은 자외선 조사량 등이다. 이 척도는 개별값에서 합쳐진 값일 수도 있고 지역 수준에서 측정된 값일 수도 있다. 평균 대푯값은 존재하지만, 개인별 차이가 존재할 수 있다. 그러나 일반적으로 개인 수준의 변수와 유사성을 지니기 때문에(즉 지역 노출값과 개인의 노출값이 비례한다), 그룹 내 개인 수준의 값을 모르거나 측정하기 어려운 경우, 지역 수준의 값을 모두 같게 부여할 수 있다. 만약 개인 간 변이가 크다면 같은 값을 부여할 경우 오분류가 발생할 수 있다. 셋째, 국제 척도(global measures)는 위 두 지표와는 달리 개인 수준 차원의 정보와는 유사성이 없고 집단 혹은 지역 속성만을 의미하는 변수이다. 예를 들어 농약이나 방사선의 법적 규제 등은 개인에게 유래된 지표는 아니지만, 인구집단의 건강에 큰 영향을 주는 집단정보이다.
생태학적 연구를 수행하기 위해서는 설정된 주제에 대해 집단적 접근이 바람직한지, 집단적 관련성이 개인적 관련성을 설명할 수 있는지, 연구에 적합한 자료인지, 노출과 건강 영향 변수의 단위가 일치하는지, 분류 오차의 가능성이 얼마나 되며 교란 및 효과변경 인자들의 영향이 얼마나 되는지 등을 고려해야 한다.
생태학적 연구는 개인보다 집단별 관찰값의 변동(variation)이 클 때 적용하는 것이 적합하다. 예를 들어 특정 지역내 자연방사선 노출 수준이 비슷한 사람들을 대상으로 개인별 자연방사선 노출과 악성종양과의 관련성을 살펴본 결과는 분명하지 않을 수 있으나 토양이 다른 여러 지역 간 자연방사선 노출과 악성종양과의 관련성은 다양한 범위의 노출값을 가짐으로서 관련성이 더욱 분명히 관찰될 수 있다. 즉 분석 단위를 개인으로 했을 때 각 집단 내 변이가 적어 잘 나타나지 않지만, 분석 단위를 국가로 했을 때는 변이가 크게 두드러질 수 있어 인과성이 분명해 보일 수 있다. 반대로 지역 간 차이보다 개인별 차이가 큰 상황이라면 개인 단위의 정보를 활용한 연구가 바람직하다.
또한 연구의 관심 자체가 개별 효과보다는 집단 효과를 보고자 할 때(예를 들어 제도 변화가 인구집단의 건강에 미치는 영향 등)는 생태학적 접근 방법이 사용된다. 실제로 질병의 원인으로서 집단적 정보가 개인 차원의 정보보다 더 중요할 수가 있다. 예를 들어 출생아의 저체중은 영아사망률에 영향을 주는 중요한 인자 중 하나이다. 그러나 국가나 지역 간 영아사망률의 차이가 출생체중의 차이에 의한 것으로만 판단한다면 더 중요하게 작용했을 국가 간 영양상태나 의료체계의 차이 등은 간과 될 수 있다. 또한 연구의 관심 자체가 개별 효과보다는 집단 효과를 보고자 할 때(예를 들어 법령의 변화가 인구집단에 개입 효과 등)는 생태학적 접근 방법이 사용된다.
집단적 수준의 정보와 개인적 수준의 정보를 함께 활용하기 위해서 다수준 연구(multilevel studies)가 진행하기도 한다. 예를 들어 개인 수준의 소득정보와 그 집단차원의 소득수준(예를 들어 GDP, 등)을 함께 활용하여, 개인적 소득을 보정하고도 집단적 소득수준이 사망률과 관련 있다는 결과를 보여줄 수 있다. 이는 인구집단에서 위험요인의 맥락적 효과(contextual effects, 집단 그 자체의 특성 혹은 효과를 말하는 것으로 개인 효과가 아닌 그것을 보정하고도 나타나는 집단적 효과를 의미한다)를 살펴볼 때 유용하다. 즉 전체 효과를 개인 효과와 맥락적 효과로 분리해서 종합적으로 이해할 수 있는 장점이 있다. 예를 들어 미국에서 암등록 자료(SEER, 1973-2009년도)의 집단적 활용을 통해 지역별 방사선치료와 중피종과의 관련성을 조사한 바 있다. 지역별 중피종 발생률을 석면노출의 대리지표로 보정한 다수준분석을 통해 전립선암에 대한 개인별 방사선치료가 중피종 위험도를 유의하게 증가시켰다는 보고를 통해 방사선치료로 인한 이차암 발생에 대해 주의가 필요하다는 근거를 제공한 바 있다.
생태학적 연구는 인구집단의 건강 상태를 모니터링할 때(특히 드문 질병), 집단 수준의 노출과 질병의 관련성을 파악하거나, 개인 수준의 정보를 정확하게 확보하기 어려울 때(정보보호 등으로 제공 자체가 안될 때) 유용하다. 생태학적 연구가 연관성 평가에 적용되기 위한 이상적 조건들은 1) 집단 간 질병률의 차이가 크고 2) 집단 간 노출 수준의 범위가 넓지만 3) 집단 내 노출의 변이는 적으며 4) 노출 변수가 결과 변수를 설명하는데 중요한 위험인자이며 5) 다른 위험요인들의 분포는 집단 간 비슷한 상황이다.
생태학적 연구에서 많이 사용하는 분석은 두 변수와의 산점도(scatter plot)를 그리고 상관계수(correlation coefficient)를 산출하는 것이다. 이를 위해 지역 내 전체 노출 정보(위험인자)에 대한 대푯값을 파악하고, 각 인구집단을 대표하는 건강 영향 지표(사망률 혹은 발생률)를 파악한다. 이때 지역 간(혹은 연도별) 비교를 위해서 표준화사망(발생)률을 먼저 산출하는 것이 필요하다.
노출 이외의 다른 요인들을 보정하기 위해서는 회귀분석법(regression analysis)을 사용한다. 즉 지역 혹은 전체 인구집단의 표준화사망 혹은 발생비를 결과변수로 하고, 지역 내 전체 노출 정보(위험인자)에 대한 대푯값을 노출변수로 하며, 다른 요인들을 보정하는 모델을 구축한다. 예를 들어 각 지역별 폐암사망률(Y)와 지역별 라돈 농도(X1)와의 관련성 평가를 위해서 지역별 흡연율(X2) 및 지역별 박탈지수(X3)등의 변수를 보정하는 다중선형회귀모델식을 만들 수 있다. Y= β0 + β1X1 + β2X2 + β3X3. 이때 X는 독립변수 또는 노출변수라고 하며 암발생률에 영향을 줄 것으로 고려되는 요인들을 의미하고, Y는 종속변수 또는 결과변수라고 하며 추정된 직선상에 있는 값을 나타낸다. X2, X3는 라돈 농도와 및 결과변수인 폐암 사망률에 영향을 주었을 것으로 생각되는 교란 변수들이다. β0는 추정식의 절편으로서 X가 0일 때의 Y값을 의미하며 β1, β2, β3는 추정식의 기울기로서 회귀계수(regression coefficient)이다 위 수식에서 β1은 β2, β3가 보정된 상태에서의 X1이 한 단위 증가할 때, 예를 들어 라돈 농도가 100mSv 증가할 때의 암발생률의 평균적인 증가량을 나타낸다.
자료 분석 시 질병이 노출에 영향을 줄 수 있는 경우 언제부터의 노출이 질병과 관련이 있는지 모호한 경우들이 있으며 이를 위해 지연 기간(lag period)을 설정하는 것이 필요하다. 그러나 이 기간이 분명하지 않은 경우들이 많아 다양한 지연 기간에 대한 시나리오를 적용한다.
생태학적 오류(ecological bias)는 집단적 자료를 활용하여 산출한 결과와 개인적 결과가 일치하지 않아서 발생하는 바이어스를 말한다. 이것은 분석의 단위(unit of analysis)와 추론의 수준(level of inference)이 다름으로 인한 오류로서 집단정보를 사용하는 생태학적 연구로서 근본적인 한계이다. 생태학적 연구에서 생태학적 오류(이를 의미하는 단어들에는 ecologic fallacy, aggregation bias, cross-level bias 등이 있다)는 주요 결점이지만 모든 연구에서 발생하는 것은 아니며 집단 수준의 정보가 개인 수준의 정보와 일치한다면 발생하지 않는다.
스웨덴에서 라돈(radon) 노출과 폐암과의 연관성 연구를 개별자료와 집단자료를 통해 각각 산출하여 비교하였다. 표 3.3.1과 같이 집단 노출 자료를 통해 분석하였을 경우 환경중 라돈 노출량과 폐암 위험도는 음의 관련성(즉 라돈 노출이 폐암의 위험도 감소)을 보였으나, 개인별 자료로 분석하였을 때는 양의 관련성(라돈 노출이 폐암의 위험도 증가)을 보였다. 모두 유의한 수준은 아니었으나 집단정보를 활용 시 개인정보 사용 때와는 결과 해석이 다르게 된다.
표 3.3.1 라돈 노출과 폐암 위험도에 대한 개인 및 집단적 수준에서의 초과상대위험도 비교
생태학적 오류의 발생 기전은 집단 노출 변수와 개인노출 변수와의 차이(예를 들어 라돈이 높은 지역에 사는 것과 실제 개인이 라돈에 높게 노출되는 경우의 차이)가 존재하는 것뿐 아니라, 교란 변수와 효과변경인자가 집단별로 다르게 분포되어 있을 때도 발생할 수 있다. 즉 집단간 비노출군의 기저위험도에 차이가 있거나(교란작용), 집단간 비노출군의 기저위험도는 같으나 노출군의 위험도에 차이가 있으면(효과변경) 발생한다.
예를 들어 코언(Cohen)이라는 물리학자는 1995년에 미국 내 1,601개의 마을에서의 평균 라돈 농도와 폐암 위험도가 음의 관련성을 보인다는 생태학적 연구 결과를 보고하면서 저선량에 대한 문턱없는 선형모델(linear nonthreshold model)을 부정한 바 있다. 그러나 이 결과에 미국 환경청은 흡연이 교란변수로 작용하여 결과의 왜곡이 나타났다고 지적하였다. 즉 지역별 라돈 농도 증가에 따른 폐암 위험도의 감소는 흡연과 관련된 악성종양일수록(폐암, 구강암, 인후두암, 식도암 등) 강하게 나타났고, 흡연과 관련성이 없는(적은) 암종에서는 음의 관련성이 없거나 약했다. 따라서 폐암과 라돈이 역관련성을 보인 이유는 흡연이라는 교란변수가 집단별로 다르게 분포되어 발생한 생태학적 오류라고 설명되었다.
생태학적 연구에서는 집단정보만을 활용하므로 그 결과가 개인 차원에서도 합리적인지 살펴보아야 한다. 집단으로 뭉쳐진 값들의 상관성이 높다고 반드시 개인 간에도 두 변수의 상관성이 높지 않을 수 있기 때문이다. 예를 들어 방사선 고노출 사람들이 암에 걸렸다고 하더라도 이들이 전체 인구집단 중 소수라면, 집단으로 합쳐진 평균값에서는 암발생률과 방사선 노출량 간에는 관련이 없게 나올 수도 있다.
생태학적 오류의 가능성은 집단정보를 사용하는 한 항상 발생할 가능성이 있다. 이 오류를 줄이려는 방법으로 집단의 단위를 작게 함으로써(예를 들어 지역분류에서 시도 단위 대신 시군구 단위) 보다 동질적인 집단정보를 사용할 수 있다. 더 작은 지리적 집단의 사용은 완벽하게 동질적이지는 않지만, 노출과 다른 위험요인, 잠재적인 교란 요인에 관하여 더 동질적일 수 있기 때문이다. 그러나 단위가 작아질수록 집단 간 이주로 인한 오분류의 가능성이 커지는 단점이 있어 두 요인간의 장단점을 동시에 고려해야 한다.
생태학적 오류와 반대로 개인적 자료만으로는 인구집단의 전체적인 양상을 파악하는 데 제한점이 있을 수 있으며, 이를 개별주의적 오류(individualistic fallacy)라고 한다. 즉 개인별 자료에만 의존하여 산출된 결과는 숲을 보지 못하고 나무만 보는 데서 오는 오류가 발생할 수도 있다. 이를 최소화하기 위해서는 개인 또는 집단별 자료를 모두 통합적으로 살펴보는 것이 중요하며 이를 위해 집단자료만을 반영하는 전형적인 생태학적 연구에 개인별 자료를 반영하는 다수준분석을 적용하기도 한다.
생태학적 연구에서 교란변수는 개인 단위의 연구와 다르게 작용할 수 있다. 개인 수준에서는 교란변수가 아닌 것이 집단 수준의 자료에서는, 자료가 합쳐져서 평균값으로 표현되기 때문에 교란변수가 될 수 있다(ecologic confounder). 즉 개인 수준에서는 노출과 독립적인 변수라 하더라도 집단 수준에서는 상관성을 보일 수 있으며(cross level confounding), 반대로 개인 수준에서는 노출과 관련된 결과변수의 위험인자라고 하더라도 집단 수준에서는 노출과 관련성을 보이지 않을 수 있다. 예를 들어 성별은 질병 발생에 중요한 교란변수이지만 생태학적 연구에서는(대체로 큰 지역을 비교하는 경우가 많고) 두 지역의 집단적 성비가 대체로 비슷하기 때문에 교란변수가 되지 않는 경우들이 많다. 즉 성별이 비록 개인 차원 정보들에서는 중요한 교란 요인으로 작용할 수 있지만, 지역별로 뭉쳐진 집단자료에서는 반드시 교란변수가 되진 않을 수 있다. 따라서 생태학적 연구에서의 교란변수 선정을 위해서는 1) 기존에 알려진 개인적 차원의 근거와 함께 2) 집단자료 내에서의 변수간 관련성을 모두 살펴보고 판단해야 한다.
생태학적 연구에서는 교란변수가 단지 집단의 평균 혹은 분율값으로만 표현되어 있어 개별 변수들이 의미하는 바가 정확하게 표현되지 못할 수 있다. 집단 수준의 교란변수를 분석모델에 넣었다고 하더라도 교란 작용을 충분히 보정하기 어렵기 때문이다. 이를 극복하기 위해 만약 각 요인들이 결합한 정보를 알 수 있다면 노출과 교란변수의 공통 집단정보(joint distribution)을 활용할 수 있다. 예를 들어 성별과 인종을 보정하고자 할 때 단지 남성과 백인 분율값 지표를 사용하는 것보다는 백인남성, 백인여성, 비백인남성, 비백인여성의 분률값을 사용하는 것이 더 의미 있게 교란작용의 개념을 대변한다.
그 외에 집단자료의 평균값은 개별 자료에서보다 변수들의 상관성이 높게 나올 가능성이 있다. 따라서 각 변수 간의 효과를 분리해서 살펴보는 것이 어렵고 다중공선성(multicollinearity)으로 결과값이 바이어스될 수도 있다. 또한 노출 지역에 거주하였던 개인이 비노출지역으로 이주하였을 때 노출 오분류(migration bias)가 발생할 수 있다. 또한 개인적 차원의 연구와 달리 생태학적 연구에서는 비차별적 오류라 해도 항상 효과가 없는 방향으로(null) 가는 것이 아니며, 집단과 개인 간 정보 수준의 차이 때문에 경우에 따라 기준값에서 멀어지는(bias away from the null) 경우도 있다.
미국국립암연구소에서는 원전이 위치한 지역의 암 사망률과 발생률에 관한 생태학적 연구를 보고하였다. 원전에 인접한 지역에 거주하는 주민들의 표준화암사망(일부 지역은 사망)비를 그렇지 않은 지역에서 관찰된 비와 비교하였다. 원전 주변 거주 주민들이 더 높은 선량의 방사선을 받았을 것이라고 가정하였으며, 비노출 지역은 노출 지역과 인구학적 요인을 비슷하게 고려하여 3배로 선택하였다. 조사 항목들로는 지역별 인구학적 분율(인종별 25세 이상 인구, 고등학교 졸업, 생산직 종사자, 도시 농촌 거주), 평균 가정 수입, 평균 이주률, 영아사망률, 인구수 등의 집단정보를 확보하였다. 이러한 지역별 비교 외에도 노출 지역 내에서 원전 가동 전과 후의 표준화암사망비를 비교한 상대위험도를 산출하였다. 연구 결과 원전 주변 거주 주민들과 대조지역 주민들 사이에, 그리고 원전 가동 전후로 암 발생 및 사망의 유의한 차이는 관찰되지 않았다.
프랑스에서는 자연방사선 노출과 어린이 뇌종양 발생에 관한 생태학적 연구가 시행된 바 있다. 이 연구에서는 감마선과 라돈 농도가 지역별로 산출되었고 지역별 박탈 지수(deprivation index)를 보정하고 어린이 뇌종양 발생(2000-2012년도)과의 관련성을 분석하였다. 전체적으로 지역별 자연방사선 노출이 뇌종양 발생과 연관성이 없었으나 뇌종양의 한 종류(pilocytic astrocytoma)의 경우 감마선 노출로 증가된 위험도를 보였다.
핵무기 실험들이 국제적으로 많이 시행되었으며(특히 1950-60년대) 이로 인해 방사능이 대기 중에 방출되었다. 따라서 방사능 낙진에 의한 건강 영향, 특히 민감한 건강 영향인 어린이 백혈병 위험도에 대한 우려가 컸다. 이러한 질문에 대한 답을 찾기 위해 방사능 낙진 농도와 등록 체계가 갖추어진 일부 국가들의 어린이 백혈병 발생의 연도별 변화를 시기적으로 비교한 생태학적 연구가 진행되었다. 연구 결과 조사된 나라들의 백혈병 발생률이 방사능 낙진과 유의한 관련성을 보이지 않았다.