개입연구는 시험연구 혹은 무작위 실험연구라고도 하며 코호트 연구와 유사한 방식이지만, 관찰만 하는 것이 아니라 개입(intervention)이 무작위로 할당(randomization)한 후 관찰한다는 점이 다르다. 개입의 내용이 환자에게 새로운 약물이나 수술법을 적용하는 것을 임상시험 연구(clinical trials)라고 하고, 지역사회를 대상으로 수도물에 불소를 투여하거나, 비타민을 제공하는 것 등은 예방 혹은 지역사회 시험연구(field trials)라고 한다. 임상시험은 병원에서 환자를 대상으로 이루어지며 지역사회 개입연구는 질병이 없는 지역주민을 대상으로 실시한다. 개입의 단위는 임상시험은 개별적인데 반해 지역사회 개입연구는 개인 혹은 지역단위로 이루어진다. 즉 실험연구, 임상시험, 지역사회 시험연구 등은 기본적으로 인구집단을 대상으로 인위적인 개입을 시도한다는 면에서 같은 방식이며 누구를 대상으로 어떠한 개입을 어떤 단위로 실시하는지에 따라 다르게 표현된다.
연구 진행은 가설을 설정하고 목표 집단을 선정하며 연구대상자를 모집한 후, 집단별로 무작위 할당 후 일정 기간 관찰하여 보고자 하는 결과물을 집단 간 비교한다. 시험연구에서는 관찰연구와 달리 사람들을 대상으로 인위적인 개입을 한다는 측면에서 기존에 근거가 축적되어 있어야 하고 연구 주제가 윤리적이어야 한다. 따라서 연구의 내용도 유해보다는 이익을 검증하는 연구들이 많다. 예를 들어 흡연 연구의 경우 금연이라는 개입을 할당할 수 있으며, 방사선 연구의 경우 저선량 방사선치료 방법을 개입하여 기존 치료 방법과 효과를 비교하는 주제들이 진행된다. 그런데 만약 개입의 내용을 할당하기보다는 대상자들이 스스로 선택하도록 하는 것이 더 바람직한 경우라면 개입연구보다는 관찰 연구가 더 적합하다.
시험연구에서 연구대상자 수는 관찰 연구와 달리 연구대상자가 많을수록 바람직한 것이 아니라 꼭 필요한 합리적 대상자만을 선정할 필요가 있다. 왜냐하면 가능한 부작용을 예방하고 불필요한 인원수로 시간과 비용을 늘리는 것은 바람직하지 않기 때문이다. 그러나 연구대상자가 너무 적으면 효과가 있는데도 차이를 검증하지 못하는 제2종 오류가 발생할 수 있다. 따라서 효과 차이를 의미 있게 볼 수 있으면서도 최소한의 인원수로 제한하는 균형 있는 접근이 필요하다.
시험연구는 잘 디자인되고 조절된 환경을 통해 높은 내적 타당도(internal validity)를 가질 수 있다. 그러나 엄격한 기준에 의해 연구대상자를 선정하므로 외적 타당도(external validity)가 적어질 수 있다. 즉 연구 대상자 선정 시 의미 있는 결과를 산출할 수 있는(질병 결과가 나올 수 있는 위험도가 높은 사람들) 고위험군, 그리고 부작용을 최소화할 것 같은 사람들을 중심으로, 가능한 적은 대상자 수를 모집한다. 따라서 실제 모집된 연구대상자는 연구 가설에서의 목표 집단(target population)과 다를 수 있어, 실험연구에서는 높은 내적 타당도는 확보할 수 있지만 외적 타당도 확보에는 불리하다.
시험연구의 또 다른 단점은 대체로 단기간의 효과에 국한된다. 코호트처럼 수십 년간의 효과를 보진 못하므로 다양한 장기간의 효과를 살펴보는 데 제한적이다. 지역사회 시험연구의 경우 임상시험보다 길지만, 시험연구인 이상 관찰 연구보다 상대적으로 추적 기간이 짧다. 반면 관찰 연구는 평생에 걸쳐, 더 나아가 다음 세대들에 대해서도 조사할 수 있다.
또한 연구 참여로 인해 그 자체가 개입의 효과와 상관없이 결과를 변경시킬 수도 있다. 즉 개인들이 자신의 행동이 관찰되고 있음을 인지하게 될 때 그에 대한 반응으로 자신들의 행동을 조정하는 호손 효과(Hawthorne effect, observer effect)가 실험연구 참여자들에게 나타날 수 있다. 따라서 시험연구는 관찰된 실제 상황과 다를 수 있으며, 관찰연구가 시험연구보다 실제 상황을 더 잘 반영한다고 할 수 있다.
그 외의 시험연구에서 고려해야 할 사항들로서 1) 연구 참여자들이 할당된 내용을 따르지 않을 수 있으나(noncompliance) 이를 인위적으로 막기는 어렵다(따라서 지역사회 시험연구의 경우 가능한 한 서로 먼 지역으로 설정한다). 2) 연구 도중에 참여를 중단하는 추적손실이 발생한다(예를 들어 연구를 더 이상 원하지 않는 경우 등). 3) 개입의 부작용이 발생할 가능성이 있어 심각한 경우 연구를 중지해야 할 수도 있다.
시험연구는 무작위 할당을 통해 선택바이어스와 교란 작용의 가능성을 줄여 관찰연구보다 연구의 내적 타당도가 우수하다. 따라서 시험연구는 연구 방법 중 인과성 규명에 가장 우수한 근거를 제시할 수 있다. 반면 관찰연구는 시험연구보다 더 많은 인원수를 확보하고, 더 오랜 기간을 연구할 수 있으며, 보다 사실적이어서(목표 인구집단을 더 잘 반영) 외적 타당도가 높다. 이러한 여러 차이들로 인해 시험연구의 결과가 관찰연구 결과와 항상 일치하진 않는다.
무작위 할당(randomization)은 연구자의 주관적 의도가 개입되지 않도록 실험군과 비교군에 연구대상자를 무작위로 배정하는 방법이다. 무작위 할당을 통해 1) 시험을 받는 군과 받지 않은 군간의 선택바이어스를 제거할 수 있으며 2) 잠재적인 교란변수를 감소시켜주어 군간 비교성을 높일 수 있고 3) 연구대상자가 어떤 개입(치료법 등)을 받을 것인지를 같은 확률로 선택하게 함으로써 윤리적으로 바람직하다. 이러한 장점으로 무작위 시험연구는 인과적 연관성을 가장 분명히 파악하는 연구방식이라고 할 수 있다.
무작위 할당이 반드시 집단 간 특성을 비슷하게 만드는 것을 보장하지는 않는다. 예를 들어 표본수가 작으면 무작위로 할당된 집단 간 성별과 연령 등의 분포가 다를 수 있다. 단지 연구집단이 크면 두 군간 특성이 확률적으로 비슷해질 수는 있다. 즉 각 집단 내 교란 변수들의 분포는 할당의 횟수를 증가시킴으로써 비슷해질 수 있다. 따라서 시험연구에서의 교란변수는 체계적 오류(systematic error)라고 하기보다는 우연(chance)으로 작용한다고 볼 수 있어 우연에 의한 교란 작용(chance confounding)이라고도 한다. 왜냐하면 교란 변수들의 분포가 무작위 할당을 얼마나 많이 하느냐에 따라(즉 우연과 같이 단지 표본수를 증가시킴으로) 달라질 수 있기 때문이다. 따라서 실험연구에서 반드시 보정해야 할 변수가 있다면 무작위 할당으로만 접근하기보다는 해당 변수(연령 혹은 성별 등)를 우선 층화하고 그 층화된 집단 내에서 무작위 할당을 시행함으로써 나머지 변수들을 통제하는 것이 효율적이다.
무작위 할당을 시행할 경우 연구대상자나 연구자가 배정된 내용을 알게 되면 효과 판정에 영향을 줄 수 있으므로 눈가림법(blinding)이 필요하다. 눈가림법은 연구대상자만 모르게 할 수도 있고(single blinding), 피험자와 접촉하는 의료인도 모르게 할 수 있으며 (double blinding), 더 나아가 자료 분석 및 해석하는 연구자 모두를 모르게 할 수도 있다 (triple blinding).
시험연구에서 연구 참여자들이 처음에 할당된 내용대로 따르지 않고 실제로는 다른 처치를 하는 경우(contamination)가 있다. 따라서 자료 분석은 처음에 할당받은 것에 기초하여 치료의 효과를 분석(intention-to-treat analysis)하는 것을 기본으로 한다. 만약 할당된 내용이 중간에 바뀐 경우를 기준으로 분석하게 되면 대상자 선정 및 정보 확보에 대한 바이어스가 발생할 수 있다. 따라서 처음 할당 내용과는 상관없이 실제로 처치 받은 내용에 기초한 분석(compliance-corrected analysis)은 일반적으로 부가적으로 활용된다.
프랑스에서는 방사성요오드 투여의 효과를 평가하기 위해 시험연구가 실시되었다. 이 연구에서는 18세 이상의 776명의 갑상선 절개술을 받은 저위험도 갑상선 환자(low-risk thyroid cancer)를 무작위 할당하여 방사성요오드를 투여한 군과 투여하지 않은 군으로 구분하였다. 각 환자들을 3년간 추적하여 생체 지표 및 신체 구조의 이상 여부를 군 간 비교한 결과 전체 환자 중 5% 미만에서 이상값이 발견되었으며 두 군 간 차이가 없었다. 이러한 결과는 저위험도를 갖는 갑상선암의 경우에는 수술 후 관행적으로 투여되는 방사성요오드의 이익과 위해에 대해 보다 합리적으로 접근할 필요가 있다는 것을 시사한다.
전립선암에 대한 방사선치료 선량을 표준 선량보다 높여서 치료하는 경우 생존율에 변화가 있는지에 대한 시험연구가 미국과 캐나다 공동으로 진행되었다. 전립선암 환자 1,532명을 무작위로 할당하여 769명에 대해서는 70.2Gy의 표준 선량으로 치료하고 763명의 환자에 대해서는 79.2Gy의 증가된 선량으로 치료한 결과 생존율의 차이는 없었다. 증가된 선량을 사용할 경우 전립선암 관련 일부 임상 지표들의 호전은 있었으나 소화기 및 비뇨기계에 독성 효과가 나타났다. 이 연구를 통해 치료 시 방사선량 증가에 대해서는 그 이익과 위해에 대해 종합적으로 판단해야 함을 강조하였다.