(가) 모델의 의미
모델(model)은 변수간의 연관성을 수리적 형태로 요약 설명한 것이다. 즉 모델이란 연구집단으로부터 발견된 결과를 일반화시키는 것을 말하며, 이를 통해 노출과 질병의 연관성을 단순화시키는 도구이다. 따라서 통계적 모델은 현상을 이해하는 데 유용하지만 실제의 연관성을 완벽하게 설명하기는 어렵다.
모델을 만드는 목적은 첫째는 노출 요인들과 질병 간의 인과적 추론(causal inference)을 위해 다른 노출 변수들의 효과를 통제한 상태에서 특정 노출 변수와 질병 간의 연관성을 평가하는 것이며, 둘째는 질병의 위험도를 각 변수들로 예측(prediction)하는 것이다. 실제로는 2가지 목적이 구별되지 않는 경우들이 있지만, 목적에 따라 모델에 포함되는 변수들이 달라질 수 있으므로 두 가지 목적 중 어디에 중점을 둘 것인지를 구별하는 것이 필요하다.
역학연구에서의 변수들은 다양한 분포를 한다. 인구집단 내에서 혈압이나 키와 몸무게는 정규분포에 가까운 모습을 보이지만 방사선을 비롯한 유해물질 노출은 오른쪽으로 치우친 분포를 보인다. 또한 결과변수로 사용되는 질병 발생 혹은 사망률의 경우 정규분포가 아닌 포아송 분포의 모습을 보이는 경우가 많다. 따라서 각 자료원의 분포와 특성을 고려한 모델들이 각각 적용되어야 한다. 모델 설정 과정은 실제 발생하는 여러 정보와 현상들을 잘 설명하기 위해서 그 값들에 적합한 분포를 찾고 이에 따른 수리적 틀을 만드는 것이라고 할 수 있다.
(나) 자료의 분포
우리가 관찰한 자료는 전체의 일부분으로서, 관찰된 자료를 통해 전체 자료의 모습을 추정하려면 자료의 분포를 가장 잘 반영하는 기존에 알려진 확률분포(probability distribution)를 찾아 적용하는 과정이 필요하다. 확률분포는 각 변수가 취할 수 있는 모든 가능한 값들의 확률을 의미하며 수학적으로 표현될 수 있는 이론적 분포이다. 기존 학자들에 의해 여러 자료들의 분포가 발견 혹은 만들어졌으며 이에 따라 다양한 형태의 확률분포들이 존재한다.
모델을 구축하기 전에 관찰된 자료의 분포를 먼저 파악하는 것이 필요하다. 즉 관찰값들이 어떤 형태로 존재하는지의 특성을 파악하고 자료원의 특성에 맞는 모델을 선택한다. 그런데 연구 수행 시 관찰되는 변수들의 값에 따른 각각의 확률분포가 존재할 수는 있으나 이러한 분포를 각각 파악하여 확률을 적용하는 것은 매우 어렵기 때문에 기존에 만들어져 있는 확률분포들을 활용한다. 즉 관찰된 자료가 특정 확률분포를 따른다면 분포에 따른 기존의 이론적인 지식을 활용해 관찰된 자료에 대한 수리적 접근을 할 수 있다. 예를 들어 신뢰구간은 표본에서 얻어진 통계량(인원수, 평균, 표준편차 등)을 이론적인 확률분포에 적용하여 산출한다. 만약 관찰된 자료가 기존에 알려진 확률분포에 맞지 않으면 수리적 산출을 위해 자료를 전환해 기존에 알려진 확률분포를 따르도록 변화시켜 주는 과정이 필요하다.
표준정규분포(normal distribution)는 통계모형의 가장 대표적인 분포로서 평균을 중심으로 좌우 대칭의 형태이다. 만약 관찰된 자료가 표준정규분포 곡선과 유사한 분포를 가지면(정규성을 만족한다) 이미 알려진 표준정규분포 함수를 이용하여 특정 지점 이하 또는 이상의 해당 면적을 구할 수 있다. 예를 들어 X축이 1.96이라면 여기에 해당하는 Y값을 알아낼 수 있으며, 표준정규분포 곡선에서 X축 1.96 이하에 해당하는 전체 면적을 구할 수 있다. 이때의 면적은 누적 확률이 되며 단측검정으로는 0.975, 양측검정은 0.95가 된다(-1.96 왼쪽과 1.96 오른쪽을 제외한 중간 면적). 양측검정의 경우 유의확률은 1-0.95 = 0.05가 된다. 이러한 계산은 얻어진 자료가 표준정규분포를 따라야 가능하며 만약 관찰된 자료가 표준정규분포를 따르지 않으면 자료를 변형하여 정규분포에서 벗어나지 않도록 한다.
이항분포(binomial distribution)는 자료의 분포가 오른쪽으로 치우친 형태이지만 시행 횟수가 많아질수록 정규분포의 모양을 나타낸다. 포아송 분포(Poisson distribution)는 이항분포의 특수한 형태로서 특정 시간 동안 발생한 사건의 빈도를 결과로 나타내며 음수가 아닌 정수 형태이다. 포아송 분포는 자료의 대부분이 낮은 빈도에 몰려 있으며 오른쪽으로 치우친 특징으로 표본수가 많아진다고 하더라도 여전히 정규분포화 되지 않기 때문에 이에 적합한 포아송 회귀모형을 사용한다.
통계적 모형화는 각 설명변수와 결과변수 간의 연관성을 설명하기 위해 만들어진 모형이다. 일반적으로 선형모형을 사용하며 이를 일반화선형모형(generalized linear model)이라고 한다. 이를 위해 두 변수가 선형 관계를 하도록 연결시켜 주는 연결함수(link function)를 사용한다. 예를 들어 결과변수가 이항분포를 하면 로짓 연결함수(logit link)를, 포아송 분포인 경우는 로그 연결함수(log link)를 사용한다. 즉 통계적 분석을 위해서는 알려진 분포의 적용이 필요하고, 이를 위해 자료의 분포를 먼저 확인하여 정규분포 형태로 변환하거나, 자료의 분포에 적합한 알려진 함수를 찾아서 사용한다.
가설검정(hypothesis test)은 산출된 파라미터(parameters)들과 통계량에 근거하여 가능도(likelihood) 값을 최대로 해주는 모델을 찾는 과정이다. 가능도(likelihood)는 자료가 모델을 설명하는 예측 가능성을 의미한다. 확률과 같은 개념이지만 확률은 모수가 어떤 값일 때 주어진 자료가 얻어지게 될 것인지의 모수 중심 개념인 반면, 가능도는 주어진 자료를 근거로 할 때 모수가 얼마가 되는지를 추론하는 자료 중심 개념이다. 즉 일반화선형모형에서 모형의 가능도란 각 회귀계수들을 통해 관찰된 값을 얻게 될 확률을 의미하며 각 변수들의 계수값들이 모델을 얼마나 설명하는지를 나타낸다.
가능도를 산출하기 위해 가장 많이 활용되는 것은 최대가능도방법(maximum likelihood method)이다. 이 방법은 개별 변수의 계수값이 모델을 설명할 가능도가 높은 것인지(유의한지) 알려주며 이 계수값들의 종합이 가능도를 최대화하는지를 파악한다. 변수의 종류가 달라질수록 혹은 변수의 형태가 변함에 따라 각 계수값이 달라지고, 이들의 종합이 설명하는 가능도의 변화를 초래하여 가능도 값은 각 모델이 구축될 때마다 달라진다. 따라서 비교하고자 하는 두 모델의 가능도를 구한 다음, 이들의 비를 통계량으로 계산하여(likelihood ratio test) 두 모델에 차이가 있는지를 볼 수 있다. 이때 가능도 비의 값이 높을수록 설명력이 높은 바람직한 모델이라고 할 수 있다. 즉 최대가능도 추정치는 가능도 비의 값을 최대로 해주는 계수값(즉 관찰된 결과를 얻을 수 있는 가장 그럴듯한 값)을 모형내 추정치로 선택한다. 가능도는 모델 비교를 위한 기본적인 통계량으로써 최적의 모델을 선택하는 것뿐 아니라 각 계수값의 신뢰구간 산출 그리고 모델의 선형성 유무를 검정하는 데도 활용된다.
실제 모델 검정에서는 가능도값 자체가 직접 활용되지는 않고 이탈도(deviance), AIC(Akaike Information Criterion), BIC(Bayesian Information Criterion)를 산출하여 적용한다. 이탈도는 일반화선형모델에서 적합된 모델의 예측값과 원시 자료에서 실제값이 얼마나 근접하게 일치하는지 측정되는 값을 비교하는 통계량으로 –2로그(가능도)로 산출되며, 가능도와 반대로 값이 적을수록 모델 적합성이 높아진다. AIC는 가능도 값이 설명변수가 추가될수록 커지게 되어 있는 단점을 보완하기 위해 개발된 지표이다(AIC = - 2ln(likelihood) + 2k 여기서 k는 후보 모델의 파라미터 수). 즉 첫 번째 항에서 최대가능도 추정치 방법을 사용하지만 두 번째 항을 통해 파라미터 수를 보정해 준다. BIC는 추가적으로 표본수의 크기에 영향을 받는 것을 보완하기 위해서 두 번째 항에서 파라미터 수와 표본수를 함께 보정해 준다(BIC = - 2ln(likelihood) + k·ln(n)).
최대가능도 추정을 통해 모델을 검정하는 방법들로는 가능도 비 검정, Wald 검정, Score 검정이 있다. 1) 가능도 비 검정(Likelihood Ratio Test, LRT)은 두 모형을 비교하는 경우에 사용하며, 하나 또는 그 이상의 설명변수를 모형에 넣음으로 인해 그렇지 않은 모형에 비해서 모형 적합도에 향상이 있는지를 검정한다. 두 모델의 차이는 –2로그(가능도)으로 계산된다. 즉 가능도 비 검정은 두 모델의 이탈도의 차이를 검정하는 것으로 이탈도가 작을수록(즉 가능도 값이 클수록) 더 적합한 모델이라고 판단한다. 이 방법에서 두 모델은 한 모델에 포함되어(nested) 있어야 한다. 2) Wald 검정은 LRT와 유사하지만 두 모델이 아닌 하나의 모델 내에서 해당 변수의 적합도를 계산한다. 귀무가설은 모델 내 특정 변수의 회귀계수(기울기)가 0이라고 가정한다. 만약 귀무가설이 기각되면 해당 변수들은 계수가 0이 아닌, 즉 모델 추정 가능도에 유의하게 기여하는 것으로 판단되어 모델에 포함시킨다. LRT에 비해서 Wald 검정은 동시에 여러 변수를 한 번의 검정을 통해 판단할 수 있다는 장점이 있다. 3) Score 검정은 Wald 검정과 반대로 현재 모델에는 없지만, 만약 특정 변수가 추가되었을 때 기대된 모델의 적합도 변화를 파악한다. Wald 검정과 마찬가지로 Score test는 하나의 모델 내에서 해당 변수들의 적합도를 계산할 수 있다.
기본적으로 세 가지 방법들은 동일한 결과를 보여주지만, 일반적으로는 LRT가 권장된다. 그러나 LRT는 계산과정이 복잡해서 간혹 수렴되지 않는 경우도 있다. 이때는 계수들의 범위를 제한하거나(–1/maximum dose 등) 매개변수화(parameterizing)하여 Wald 검정 기반 값을 산출하기도 한다. 한편 Score test는 모델에 영향을 줄 수 있는 변수들이 많을 때 제외된 변수들을 찾을 때 유리하다. 표본수가 충분히 큰 경우, 3가지 방법이 거의 같은 값을 갖지만 표본수가 제한적일 때는 결과값이 Wald ≥ LRT ≥ score 순의 크기를 보인다.
한편 모델로서 설명되지 않는 부분을 잔차(residual)라 하며 잔차 값에 대한 분석(residual analysis)을 통해 구축한 모델이 적합한지를 판단한다. 모델을 구축할 때 가장 적은 변수들로 가장 설명력이 높은 회귀모델식을 구축하는 것이 이상적이다. 왜냐하면 불필요하게 포함된 변수들은 단지 불필요함을 넘어서 결과에 대한 바이어스를 확대(bias amplification) 시킬 수도 있기 때문이다. 변수 추가에 의해 결과값의 변화 정도와 무관하게 노출에 의해 영향을 받지 않는 변수(good controls)는 보정하고 영향을 받는 변수(bad controls)는 보정하지 않는 것이 원칙이다. 따라서 가능한 한 간단하면서도(parsimonious) 관련성을 만족스럽게(reasonably well) 설명하는 모델이 바람직하다. 그러나 만약 모델을 통한 질병 예측(prediction)이 목적이라면 다소 복잡하더라도 예측력이 높은 모델을 구축할 수 있다.
역학연구에서 가장 많이 활용되는 모델은 일반화선형모형(generalized linear model)이며 g(Y) = b0 + b1 × X1 + b2 × X2 +…+ bk × Xk으로 표현한다. 여기서 Y는 종속(결과)변수의 예측값, 또는 기대값에 대한 추정치이다. 모델은 결과변수의 형태에 따라 일반적으로 4가지로(선형, 로지스틱, 비례위험, 포아송) 분류한다(표 4.2.1). 선형회귀모델은 단면연구나 패널 연구에서 연속변수의 결과변수를 가질 때 주로 사용하며, 로지스틱 모델은 이분형 결과변수(환자-대조군 연구 등)일 때 사용하고, 비례위험 모델은 생존분석(중도절단자료를 가진)시 기저위험 함수 없이 사용 가능하고, 포아송 회귀모델은 결과변수가 질병자 수 혹은 발생률인 경우 로그값을 취해 사용한다.
표 4.2.1 다중 회귀모델의 종류와 회귀계수의 해석(모델에 포함된 다른 변수들이 보정된 값)
(가) 선형회귀
선형회귀(linear regression) 분석은 결과변수가 연속형 변수인 경우 설명변수를 선형적인 관계로 설명하는 데 적용된다. 예를 들어 방사선 노출선량에 영향을 미치는 요인들이 어떤 것들이 있는가에 관한 질문과 관련하여 다음과 같은 선형회귀모델식을 적용할 수 있다. Y = b0 + b1 × X1 + b2 × X2 + b3 × X3 (Y=개인별 평균유효선량, X1=작업종류, X2=성별, X3=연령). 여기서 X는 독립변수, 예측변수, 또는 설명변수라고 하며 방사선량(Y)에 영향을 줄 것으로 고려되는 요인들을 의미한다. Y는 종속변수 또는 결과변수라고 하며 추정된 직선상에 있는 선량값을 나타낸다. X2, X3는 관심변수인 요인과 결과변수인 노출선량의 연관성에 영향을 주었을 것으로 생각되는 교란요인들로서 성별, 연령 등이 포함될 수 있다. 그리고 b1은 b2 과 b3을 보정(adjust)한 상태에서의 X1이 한 단위 증가할 때의 Y의 평균적인 증가량을 나타낸다. 예를 들어, X1의 회귀계수 b1이 0.7로 추정되었다면 성별과 연령이 보정된 상태에서 일반 진단용 X선 작업을 수행하지 않은 사람에 비해 해당 작업의 주당 작업빈도가 한 단위 증가할 때 방사선량이 평균적으로 0.7mSv 만큼 증가한다고 해석한다. 만약 각 요인들 간의 상호작용을 파악하려면 곱하기 항목(작업종류 × 성별)을 포함시킨다. 이러한 모델식을 통해 작업자들의 방사선량을 줄이기 위한 주요 요인들을 파악할 수 있으며 향후 방사선 방호에 근거자료로 활용될 수 있다. 단 회귀분석을 수행하기 위해서는 독립변수와 종속변수 간의 선형성, 관찰값들의 독립성, 정규분포 등의 가정을 만족해야 하고 이러한 가정이 위배될 경우에는 자료값들을 변환하여 가정을 만족시켜야 한다.
식에서 b0는 추정식의 절편(intercept)으로서 해당 독립변수들이 모두 0일때의 값을 의미한다. 독립변수가 키와 몸무게처럼 생물학적 특성을 나타내는 변수인 경우 절편은 의미가 없지만(예를 들어 키가 0이라는 것은 현실적이지 못함), 노출 요인인 경우에는(예를 들어 흡연이나 방사선 노출 등) 해당 노출 요인이 없을 때의 기저율을 의미한다. 예를 들어 Y = b0 + b1 × X1 의 경우 절편 b0는 방사선 작업을 하지 않을 때의(X1=0) 개인별 노출선량값을 나타낸다. 여기에서 b1는 추정식의 기울기로서 회귀계수 값(regression coefficient)이다. 이 값은 두 변수간의 연관성이 얼마나 되는지를 나타내는, 즉 연관성의 크기(strength of the association)를 의미한다. 따라서 회귀계수가 큰 경우는 작은 경우보다 방사선 작업에 의해 선량값이 더 많이 증가하는 것으로 해석한다.
(나) 로지스틱 회귀
로지스틱(logistic regression) 회귀는 결과변수가 이항변수인 경우(예를 들어 암발생 여부)에 적용된다. 이 모델은 log(p/1-p) = log(odds) = b0 + b1 × X 로 표현된다. 즉 선형모델과 같은 식이지만 단지 결과변수 Y가 로그오즈이며 b1은 독립변수 X 단위당 결과의 로그오즈를 의미한다. 따라서 로지스틱 분석에서는 선형식에서는 직접적인 값의 의미가 있었던 b1값을 지수변환(exponentiation) 해주어야 상대위험도 값으로 해석할 수 있다(즉 단순 선형모델이 아니라 지수모델이다).
질병의 발생률은 음수일 수 없으나 발생률 자체를 Y로 놓고 구축한 선형회귀식에서 X가 0일 때 음수가 될 수도 있으며, 이것은 합리적인 상황이 아니므로 로지스틱 회귀 분석을 적용한다. 즉 발생률을 로그 전환하면 항상 양수 값을 갖게 되며(위험도는 0과 1사이에 위치) 이를 오즈로 바꾸면 0에서 무한대로 값을 갖게 된다. 로지스틱 회귀에서 절편을 환산하면 해당 인구집단의 실제 발생률(조율)을 의미한다(부록 참고). 그리고 단순한 기저율 외에 회귀식에 포함되는 각 변수의 특성을 조합함으로써(예를 들어 남성 비흡연자) 해당 집단에서의 질병 발생률을 예측할 수도 있다.
선형모델에서의 회귀계수값이 노출군과 비노출군의 절대적 차이로 해석되는 반면 로지스틱에서는 상대적인 차이(예를 들어 2배)를 의미하게 된다. 즉 계수는 로그 전환되었기 때문에 단순한 차이가 아니라 비(ratio)를 의미한다. 이값을 환산하여 1보다 크면 위험이 증가한 것이고, 1보다 작으면 위험이 감소한 것이며, 1은 위험에 변화가 없다는 것을 의미한다.
로지스틱 회귀모델은 환자-대조군 연구를 비롯하여 질병이나 사망 여부를 결과변수로 하는 다양한 연구 방법에 적용된다. 또한 결과변수가 3개 이상의 명목형 변수이면 다항 로지스틱(multinomial logistic) 회귀분석을, 3개 이상의 순서형 변수일 경우는(예를 들어 질ㄹ병의 중증도 등) 순서형 로지스틱(ordinal logistic) 회귀분석을 적용한다. 로지스틱 회귀분석은 모든 대상자가 추적이 완전하다는 것과 질병 발생 시점까지의 시간(time to event)이 중요하지 않다는 것을 전제한다. 만약 추적이 모든 대상자에게 완전하지 못하고 발생 자체보다 발생까지의 시간이 중요하다면 비례 위험모델을 적용한다.
(다) 비례위험모델
비례위험모델(proprotional hazards model)은 로지스틱 회귀와 같으나 특정 시간 간격 중 질병에 걸릴 확률(로지스틱과 달리 시간 간격이란 개념이 추가된다)을 비교한 것으로 log(HR) = b0 + b1 × X의 식으로 표현된다. 즉 Y가 로즈 오즈가 아니라 두 집단의 확률을 나눈 로그값으로 로지스틱은 질병에 걸릴 혹은 걸리지 않을 오즈의 비인 데 반해서, 비례위험모델은 시간변화에 따라 질병에 걸릴 확률을 노출군과 비노출군간에 비교한 것이다. 이때 Y에 들어가는 노출군과 비노출군의 위험도 산출에 질병에 걸릴 시간정보가 분석에 고려되어 시간변화에 따라 질병자와 비질병자간 위험도가 얼마나 다른지를 비교한다.
비례(proportionality)는 두 양이 서로 일정 비율로 증가하거나 감소하는 관계를 말한다. 콕스(Cox) 비례위험모델에서는 위험도가 시간에 따라 일정하다는 가정을 하며, 기저위험도의 분포(함수)에 대해 구체적인 가정을 하지 않는다. 즉 질병의 기저율의 크기에 상관없이 노출군은 산출된 계수만큼씩 시간에 따라 일정하게 증가한다. 따라서 만약 질병에 걸릴 위험도가 시간에 따라 변한다면 추적 기간별로 층화해야 한다.
콕스 비례 위험모델에서 b1은 다른 변수들의 효과가 통제된 상태에서 질병 발생 위험이 상대적으로 얼마나 높은지를 알려주는 값이다. 결과값의 해석은 로지스틱과 같으나 결과변수가 질병 발생의 오즈가 아니라 특정 시간의 위험도를 의미하며, 총 시간을 종합한 위험도는 로지스틱 분석과 차이가 없다.
미국 방사선사 코호트 연구에서는 방사선사들의 암발생 및 사망이 작업력과 어떠한 연관성이 있는지 비례위험모델을 적용하여 위험도를 산출한 바 있다. 일련의 논문들을 통해 전체 방사선사, 핵의학 종사자, 그리고 중재 시술 종사자별로 개인별 작업력 정보를 통해 위험도(hazards ratio)를 산출하여 일부 작업 특성이 건강 영향에 연관성이 있다고 보고하였다. 이처럼 콕스 비례위험모델은 개인별로 추적 기간이 다른, 개인별 정보를 활용한 코호트 연구에서 흔히 활용된다.
(라) 포아송 회귀
포아송 회귀(Poisson regression)분석은 결과변수가 질병 발생률 혹은 사망률의 경우 주로 활용된다. 이러한 자료들이 정규분포가 아닌 포아송 분포를 하는 경우가 많기 때문이다. 포아송 분포는 음수가 없는 비대칭 분포이며 분산이 평균값 증가에 따라 같이 증가한다는 것을 전제한다. 따라서 포아송 분석에서는 비대칭성을 극복하기 위해서 자료값들을 로그전환(log-transformation)한다.
포아송 회귀식은 log(rate) = b0 + b1 × X1과 같이 표현되며 로그-선형 모델을 한다. 이때 관심 결과변수인 율(rate)은 events/person-time이므로 log(events) - log(person-time)으로 나누어지고 결국 log(events) = [log(person-time) + b0 + b1 × X1 = bo* + b1 × X1형태가 된다. 즉 절편 b0와 인년(person-year)이 합쳐진 새로운 절편 (bo*)이 만들어진다. 따라서 질병 발생 자체가 결과변수로 사용된 모델이 되며 인년은 절편을 만드는 데 활용된다. 산출된 값의 해석은 로지스틱 혹은 비례위험모델과 같다. 분석 단위가 집단화한 셀(cell)에서 전체 인년의 합과 질병 발생을 사용하므로 모든 독립변수는 범주화되어 사용한다. 즉 포아송 분석에서는 콕스 비례위험모델과 같이 개별자료를 사용한 분석이 적용될 수도 있지만, 일반적으로 개인별 자료가 아닌 집단자료의 정보를 사용한다.
국내 의료방사선종사자 코호트 연구에서는 직업적 요인들과 자살률과의 연관성을 평가하는 데 포아송 회귀분석을 적용하였다. 주요 변수별로 범주화하여 인년 표를 구축하고 직업특성별(직종, 근무기간, 작업 시작연도, 의료기관 유형 등) 자살 여부에 대한 위험도를 발생률 비(rate ratio) 형태로 산출하였다. 이처럼 포아송 회귀분석은 등록 자료들이 연계된 대규모 자료원(개인별 자세한 정보가 없는)의 범주화된 자료 분석에 유용하게 활용된다.
포아송 분포는 평균과 분산이 같다는 가정이 내포되어 있으므로 분산이 평균보다 큰 과대산포 시에는 적용된 함수가 적합하지 않을 수 있다. 이러한 경우에는 포아송회귀모형을 그대로 사용할 수 없으며 과대산포 포아송 회귀모형(overdispersion Poisson regression) 또는 음이항 회귀분석(negative binominal regression)을 사용한다.
(마) 비선형 모델(nonlinear model)
노출과 질병과의 연관성은 선형으로만 설명되지 않은 경우가 있다. 예를 들어 연령에 따른 질병 발생률은 선형이라기보다는 고령에서 기하급수적으로 증가하는 양상이며, 음주와 심혈관 질환 혹은 비만과 사망률처럼 J 혹은 U 모양의 연관성도 관찰된다. 어떤 모델이 실제의 모습을 가장 잘 반영해주는지 파악하는 것은 인과성 파악뿐 아니라 예방전략에도 중요하다. 선량-반응 연관성 형태에 따라 유해물질의 노출 기준을 다르게 적용(허용 혹은 금지)할 수 있기 때문이다.
비선형 연관성(nonlinear relationships)을 선형회귀 모델로 탐색하기 위해서 우선 노출 변수를 범주화하여 연관성을 살펴보는 것이 필요하다. 즉 연속변수를 여러 범주로 만들어 집단별 계수값을 통해 위험도를 살펴보면 각 군의 집단별 위험도 차이를 볼 수 있다. 이러한 범주화는 선형모델 식이지만 각 계수값이 음수인지 양수인지의 변화를 통해 비선형 연관성을 파악하는 데 도움을 준다. 한편 비선형 연관성을 설명하는 모델(예를 들어 이차항 등)은 노출과 질병과의 연관성을 더 정확히 설명해 줄 수 있으나 산출된 변수의 계수값 해석이 복잡해지는 단점이 있다.
방사선 노출과 갑상선 암의 연관성은어느 선량까지는 선형모델을 따르다가 고선량에서는 감소하는 비선형을 보이며, 백혈병의 경우 선형-이차(linear-quadratic) 연관성을 보이기도 한다. 또한 방사선 노출 시 연령과 유방암의 연관성은 소아나 성인에 비해 청소년기 노출 시 위험도가 높아지는 비선형성을 보인다. 이처럼 노출과 질병 위험도의 양상에서 비선형 연관성이 자주 관찰되고 있으므로, 이를 설명하기 위한 다양한 모델들의 적용이 필요하다.