의학

작성자:Byron J. Hoogwerf, MD, Cleveland Clinic

검토/개정일 2021년 8월 17일

의사들은 어떻게 효과가 있는 치료를 알아내려 애쓰는가|

의사들은 수천 년간 사람들을 치료해 왔습니다. 의학적 치료에 대해 찾을 수 있는 가장 오래된 문헌의 설명은 고대 이집트의 것으로 3,500년 이상을 거슬러 올라갑니다. 그 이전에도, 치료사들과 주술사들이 병자들과 부상자들에게 약초 및 기타 치료를 제공했을 가능성이 있습니다. 몇몇 단순 골절이나 경미한 부상에 사용된 것들과 같은 몇 가지 치료들이 효과적이었습니다. 그러나, 최근까지도, 많은 의학적 치료는 효과를 발휘하지 못했고 어떤 것들은 실제로 유해했습니다.

200년 전, 광범위한 질병을 위한 보편적인 치료법에는 정맥을 열어 약 500ml 이상의 혈액을 제거하는 것과 다양한 독성 물질을 주입하여 구토나 설사를 유발하여 질병의 본질을 “정화”하는 것이 포함되었으며, 이는 모두 병자나 부상자에게 위험한 것이었습니다. 약 120년 전에 본 매뉴얼은 아스피린과 디기탈리스 등의 일부 유용하지만 잠재적으로 독성이 있는 약물에 대해 언급하면서 알코올 중독의 치료제로 코카인, 천식 치료제로 비소와 담배 연기, 그리고 감기의 치료로 황산 비강 분무기를 언급했습니다. 의사들은 자신들이 사람들을 돕고 있다고 생각했습니다. 물론, 과거의 의사들이 현재 우리가 알고 있는 것을 알았을 것으로 기대하는 것은 공정하지 못하지만, 의사들이 도대체 왜 천식 환자에게 흡연이 도움이 될 수 있을 것이라 생각했을까?

의사들이 효과가 없으며 때로는 해롭기까지 한 치료를 왜 권장했고 사람들은 그 치료를 왜 받아들였는지에 대해서는 많은 이유가 있었습니다.

일반적으로 효과적인 대체 치료법이 없었습니다.
의사와 아픈 사람들은 종종 아무 것도 하지 않기보다 어떤 것이라도 하는 것을 선호합니다.
사람들은 권위가 있는 인물에게 문제를 맡김으로써 위안을 얻습니다.
의사들은 종종 충분한 힘을 주고 안심의 말을 건넵니다.

그러나 가장 중요한 점은 의사들은 어떤 치료가 효과가 있는지 알지 못했다는 것입니다.

치료와 회복: 원인과 결과는?

한 사건의 직후 또 다른 사건이 발생한다면, 사람들은 자연적으로 전자가 후자의 원인이라 가정합니다. 예를 들어, 한 사람이 벽에서 표시가 되지 않은 버튼을 누르고 이어 근처의 엘리베이터 문이 열린다면, 그 사람은 자연적으로 그 버튼이 엘리베이터를 제어한다고 가정합니다. 사건 간에 그러한 연결을 할 수 있는 능력은 인간 지성의 중요한 일부이며, 우리가 세계를 이해하는 데 있어 많은 부분을 담당합니다. 그러나, 아무 관계가 없더라도 사람들은 종종 인과 관계를 찾습니다. 그렇기 때문에 운동선수들이 큰 경기에서 이겼을 때 신었던 "행운의" 양말을 계속 신으려 한다거나, 학생들이 시험을 볼 때 똑같은 "행운의" 연필을 계속 사용하려 할 수 있습니다.

이러한 사고 방식은 또한 왜 몇몇 비효과적인 의학적 치료가 효과가 있는 것으로 여겨졌는지를 설명합니다. 예를 들어, 의사가 한 환자에서 500ml의 혈액을 뽑아내거나 주술사가 특정한 주문을 외운 후 환자의 열병이 해결되었다면, 사람들은 자연적으로 그러한 조치가 열병을 치료한 원인이었음에 틀림없다고 가정했습니다. 간절히 회복을 바라는 사람에게는, 상태의 개선 외에 다른 증거가 필요하지 않았습니다. 불행히도, 초기 의료에서 관찰되었던 이러한 명백한 인과 관계는 거의 정확하지 않았지만, 이에 대한 믿음은 수세기 동안 비효과적인 치료법을 영속시키기에 충분했습니다. 어떻게 이러한 일이 일어날 수 있었을까?

사람들은 자연적으로 상태가 좋아집니다. 누군가가 고칠 때까지 손상된 상태로 유지되는 "아픈" 무생물 물체(부러진 도끼나 찢어진 셔츠 등)와는 달리, 신체가 스스로 치유되거나 질병이 자연적 경과를 따르는 경우 아픈 사람들은 종종 스스로의 힘으로(또는 의사의 치료에도 불구하고) 상태가 개선됩니다. 감기는 1주일이 지나면 사라지고, 편두통은 대개 하루 이틀 정도 지속되며, 식중독 증상은 12시간이면 없어질 수 있습니다. 많은 사람들은 심지어 심장마비나 폐렴과 같은 생명에 위험이 되는 질병으로부터도 치료 없이 회복하기도 합니다. 만성 질병(천식이나 겸상적혈구병 등)의 증상은 나타났다 사라졌다 합니다. 따라서, 많은 치료들이 충분한 시간을 두고 제공될 경우 효과적인 것처럼 보일 수 있으며, 자연적 회복 시점에 근접하여 제공된 어떠한 치료가 매우 효과적인 것처럼 보일 수도 있습니다.

위약 효과가 원인일 수 있습니다. 치료의 힘에 대한 믿음은 종종 사람들을 회복시킬 만큼 충분합니다. 믿음이 골절이나 당뇨병 등의 기저 질환이 사라지도록 만들 수는 없지만, 자신이 강력하고 효과적인 치료를 받고 있다고 믿는 사람들이 더 나아졌다고 느끼는 경우가 매우 자주 있습니다. 알약에 활성 성분이 없고 “설탕으로 된 알약”(위약이라 함)처럼 가능한 유익성이 전혀 없더라도 통증, 메스꺼움, 허약 및 다른 많은 증상이 완화될 수 있습니다. 중요한 것은 믿음입니다.

자신감 있는 의사가 그를 신뢰하는 희망적인 사람에게 처방한 비효과적인(또는 심지어 해로운) 치료는 종종 증상의 현저한 개선을 초래합니다. 이러한 개선을 위약 효과라고 합니다. 따라서, 사람들이 질병 자체에 대해 명백한 영향을 미치지 않은 치료법에서 실제적인(단순히 인지하기만 한 것이 아닌) 유익성을 경험할 수도 있습니다. 현재 연구에 따르면 위약 효과가 실제 질병을 대상으로 하지 않는다고 하더라도 일부 장애의 경우 위약 효과에 대한 생물학적 근거가 있습니다.

왜 문제일까? 어떤 이들은 유일하게 중요한 것은 치료가 사람들을 낫게 만드는지의 여부라고 주장합니다. 그 치료가 실제로 "효과가 있는지", 즉 기저 질환에 영향을 미치는지의 여부는 중요하지 않습니다. 많은 일상적인 아픔 및 통증이나, 일반적으로 저절로 없어지는 감기 같은 질병에서처럼, 증상이 문제일 때는 이러한 주장이 합리적일 수 있습니다. 이러한 경우, 의사는 때때로 질병에 거의 영향을 미치지 않는 치료법을 처방하고, 대신에 위약 효과로 인해 적어도 부분적으로는 증상을 완화시킬 수 있습니다. 그러나, 어떠한 위험하거나 잠재적으로 중대한 이상의 경우나, 치료 자체가 부작용을 야기할 수 있는 때에는, 의사들이 실제로 효과가 있는 치료를 처방하기만 하는 것이 중요합니다. 치료의 잠재적인 이점은 잠재적인 위험과 균형을 이루어야 합니다. 예를 들어, 부작용이 많은 약물은 암과 같은 생명을 위협하는 질병이 있는 사람이 복용할 만한 가치가 있을 수 있습니다. 일부 항암제는 신장 또는 심장에 중대한 손상을 유발할 수 있지만, 이러한 약물을 사용하지 않은 상황(치료하지 않은 암이 미치는 영향)이 약물의 부작용보다 더 나쁠 수 있으므로 이러한 위험은 종종 수용 가능합니다.

의사들은 어떻게 효과가 있는 치료를 알아내려 애쓰는가

어떤 의사들은 사람이 스스로 나아질 수 있다는 것을 오래 전에 깨달았으므로, 자연적으로 같은 질병이 있는 다른 사람이 치료를 받거나 받지 않았을 때 어떻게 반응하는지를 비교하고자 노력했습니다. 그러나, 19세기 중반까지는 이러한 비교를 하는 것이 아주 어려운 일이었습니다. 질병에 대한 이해가 너무 부족했기 때문에 증상이 비슷하다고 하더라도 두 명 이상의 사람에게 언제 같은 질병이 발생했는지 파악하는 것이 어려웠습니다.

특정한 용어를 사용하는 의사들이 전혀 다른 질병에 대해 이야기하는 경우도 자주 있었습니다. 예를 들어, 18세기 및 19세기에, "수종(부기)"이라는 진단은 다리에 부종이 있는 사람들에게 붙여졌습니다. 우리는 현재 부종이 심부전, 신부전 또는 중증 간질환 등 동일한 치료에 반응하지 않는 상당히 다른 질병으로 인해 초래될 수 있다는 것을 알고 있습니다. 마찬가지로, 열이 있고 구토도 하는 수많은 사람들은 "구토성 발열"이라는 진단이 내려졌습니다. 우리는 현재 장티푸스, 말라리아, 충수염, 간염 등 많은 다른 질병들이 발열과 구토를 야기할 수 있다는 것을 알고 있습니다.

20세기 초기쯤 정확하고 과학적 근거가 있는 진단이 보편화되었을 때에야 비로소 의사들은 효과적으로 치료를 평가하기 시작했습니다. 그러나 여전히 의사들은 치료를 가장 잘 평가할 수 있는 방법을 판단해야 했습니다.

표본 크기

우선, 의사들은 환자 2명 이상의 치료 반응을 조사해야 한다는 것을 깨달았습니다. 한두 명이 회복되는(또는 악화되는) 것은 우연의 일치일 수 있습니다. 많은 사람들에서 결과가 좋으면 우연일 가능성은 낮습니다. 치료받는 사람 수(표본 크기)가 클수록, 관찰된 유익성 또는 부작용이 진짜일 가능성도 커집니다.

대조군

사람 수가 많은 큰 집단에서 새로운 치료에 대한 반응이 좋은 것으로 확인되어도, 의사들은 같은 수나 더 많은 사람들이 저절로 나아졌는지, 또는 다른 치료를 했더라면 더 호전되었을지 여부는 알 수 없습니다. 따라서, 의사들은 일반적으로 시험 치료를 받는 한 집단의 사람들(치료군)과 다음의 치료를 받는 다른 집단(대조군)의 결과를 비교합니다.

이전 치료법 투여
가짜 치료(설탕 알약 등의 위약) 투여
치료를 일체 하지 않음

대조군이 포함된 연구를 대조 연구라 합니다.

기간

먼저, 의사들은 단순히 특정한 질병이 있는 모든 환자들에게 새로운 치료를 제공한 다음 이를 통해 나온 결과를 (동일한 의사나 다른 의사에 의해) 이보다 먼저 치료를 받았던 사람들로 이루어진 대조군에 대한 결과와 비교했습니다. 이전에 치료를 받은 사람들은 과거 대조군으로 간주합니다. 예를 들어, 새로운 치료를 받은 후 환자의 80%가 말라리아에서 생존한 반면 이전에 치료를 받은 환자는 60%만 생존한 것으로 밝혀졌다면, 의사들은 이 새로운 치료가 보다 효과적이었다는 결론을 내릴 수 있을 것입니다.

결과를 이전 시점과 비교하는 데에는 이전 치료와 새로운 치료 사이에 전체적인 의료 진료의 발전 때문에 결과가 개선되었을 수 있다는 문제가 있습니다. 예를 들어, 2021년에 치료를 받은 사람들의 결과와 1971년에 치료받은 사람들의 결과를 비교하는 것은 적절하지 않습니다. 한 예로, 소화성 궤양 질환은 원래 우유와 크림 식이요법으로, 또는 수술로 치료한 후, 산을 차단하는 약물로 치료했으며, 보다 근래에는 항생제로 치료했습니다. 시간이 지남에 따라 사용된 치료법을 비교하려면 질병 진행 과정을 이해하는 데 있어 변화를 고려해야 합니다.

전향적 연구는 과거의 대조군이 가진 문제를 피하는 데 도움이 될 수 있습니다. 전향적 연구의 경우, 의사들은 치료군과 대조군을 동시에 만들어 나타나는 치료 결과를 관찰하고자 합니다. 치료군 및 대조군에 속한 사람들의 관련 특성은 유사해야 합니다. 예를 들어, 연구 중인 결과가 암이나 심장 질환으로 인한 사망인 경우, 이러한 질환이 노인들에서 보다 일반적이기 때문에 각 집단의 연령이 비슷해야 합니다.

사과와 사과의 비교

과거 연구를 포함하여 모든 유형의 의학적 연구의 가장 큰 우려사항은 비슷한 집단의 사람들을 비교해야 한다는 점입니다.

과거 대조군의 첫 번째 예에서, 말라리아에 대해 새로운 치료를 받은 사람들의 집단(치료군)이 대개 경증 질환이 있는 젊은 사람들로 이루어졌고 이전에 치료를 받은 집단(대조군)은 중증 질환을 가진 보다 고령의 사람들로 이루어졌다면, 단순히 더 젊고 건강하기 때문에 치료군의 사람들이 더 좋은 효과를 나타내는 것은 당연한 일입니다. 따라서, 새로운 치료가 거짓으로 더 효과가 좋은 것처럼 보일 수 있습니다.

연령과 질병의 중증도 외에도 다음과 같이 다른 여러 요인도 고려해야 합니다.

연구되고 있는 사람들의 전반적 건강(당뇨병이나 신부전 등 만성 질환자들은 건강한 사람들보다 더 나빠지는 경향이 있습니다)
치료를 제공하는 특정한 의사 및 병원(어떤 의사나 병원이 다른 의사나 병원보다 기술 및 시설이 더 좋을 수 있습니다)
연구 집단을 구성하는 남녀의 비율(남성과 여성은 치료에 다르게 반응할 수 있습니다)
치료가 특정 집단에서 더 효과적일 수 있기 때문에 연구에 다양한 집단(치료는 다른 민족, 지리적 위치 또는 사회경제적 지위와 같은 다른 특성을 가진 사람들에게 안전하고 잘 작용해야 함)이 포함되었는지 여부

의사들은 비교 대상 집단이 가능한 한 유사하도록 하기 위해 여러 다양한 방법을 시도해 왔지만, 주로 두 접근법이 사용됩니다.

증례 대조 연구: 가능한 많은 요인을 기준으로(연령, 성별, 건강 등) 새로운 치료를 받는 사람(증례)과 그렇지 않은 사람(대조군)이 정확하게 일치하며 군 간 비교 가능성을 보장하기 위해 통계 기법을 사용함
무작위 배정 임상시험: 연구를 시작하기 전에 사람들을 각 시험군에 무작위로 배정함

증례 대조 연구는 합리적인 것으로 보입니다. 예를 들어, 의사가 높은 혈압(고혈압)에 대한 새로운 치료를 연구하고 있고, 치료군의 한 대상자가 42세로 당뇨병을 가지고 있다면, 의사는 대조군에 40대에 고혈압과 당뇨병을 가진 대상자의 배치를 보장하려 노력할 것입니다. 그러나, 사람들에게는 의사가 생각조차 하지 못하는 차이점들을 비롯하여, 너무도 많은 차이가 있어서, 어떤 연구에서 각 사람을 정확하게 일치하게 의도적으로 만드는 것은 거의 불가능합니다.

무작위 배정 임상시험은 완전히 다른 접근법을 사용하여 연구 결과에 영향을 미치는 시험군 간의 차이 발생 위험을 감소시킵니다. 시험군들 중 일치하는 군에 배정되도록 하는 가장 좋은 방법은 확률의 법칙을 이용하여 동일한 질병을 가진 이들을 다른 집단에 무작위로 배정하는 것입니다(일반적으로 컴퓨터 프로그램의 도움을 받음). 연령과 성별, 기타 질병의 존재와 같은 알려진 변수를 사용하여 시험군을 일치시키는 경우, 시험군을 비교할 수 있을 가능성이 더 큽니다. 그러나, 무작위배정의 한 가지 고유하며 중요한 장점은 연구 결과에 영향을 미치지만 알려지지 않아 시험군마다 일치시킬 수 없는 일체의 요인이 참여자 및 시험군 간에 무작위로 분포될 가능성이 있다는 것입니다. 각 시험군의 크기가 클수록 각 시험군에 포함된 사람들이 비슷한 특징을 가지고 있을 가능성이 더 커집니다.

전향적, 무작위배정 연구는 동등한 집단 사이에서 치료나 검사를 비교하도록 하는 가장 좋은 방법입니다.

기타 요소의 제거

일단 동등한 집단을 생성했다면, 의사는 오로지 시험 치료 자체만 유일하게 허용되는 차이점에 해당되도록 보장해야 합니다. 그렇게 하여, 의사는 추적 치료의 질 또는 빈도 등 결과의 어떠한 차이가 어떤 다른 요소가 아닌 치료로 인한 것임을 확신할 수 있습니다.

위약 효과도 중요한 요소입니다. 자신이 치료를 받지 않고 있는 것(또는 보다 오래된, 효과가 덜한 것으로 추정되는 치료를 받고 있는 것)이 아니라 실제적인 새로운 치료를 받고 있다는 사실을 아는 이들은 종종 더 나아질 거라 기대합니다. 반면, 어떤 이들은 새로운 실험 치료로부터 더 많은 부작용을 경험할 것이라 기대할 수도 있습니다. 어떤 경우든, 이러한 기대가 치료의 효과를 과장하여, 그것이 실제보다 더 효과적이거나 더 많은 합병증을 가지도록 유발할 수 있습니다.

맹검이라고도 불리는 눈가림은 위약 효과의 문제점을 줄이기 위해 사용되는 기법입니다. 눈가림의 유형에는 일반적으로 단일 눈가림과 이중 눈가림의 두 가지가 있습니다.

단일 눈가림이란 연구에 참여하는 사람들이 자신이 새 치료를 받고 있는지 여부를 몰라야 하는 상황입니다. 즉, 참여자들은 이러한 정보에 “눈가림”됩니다. 대조군에 속한 사람들에게 겉으로 보기에 동일한 물질, 즉 대체로 의학적 효과가 없는 위약을 투여함으로써 일반적으로 눈가림은 이루어집니다. 단일 눈가림 연구에서, 연구진은 치료 배정에 대해 알고 있지만, 참여자는 그렇지 않습니다.
이중 눈가림에서는 연구에 참여하는 참여자와 연구진 모두가 어떤 연구 참여자가 새로운 치료제나 위약 중 어떤 것을 투여받고 있는지 모릅니다. 의사나 간호사는 대상자가 어떤 치료를 받고 있는지 실수로 알려주게 되어 그 사람의 "눈가림이 해제"될 수 있으므로, 어떤 약이 투여되는지 관련된 모든 보건의료인이 모르는 편이 더 낫습니다. 이중 눈가림을 하는 또 다른 이유는, 위약 효과가 의사에게도 영향을 미쳐, 치료를 받고 있는 대상자와 치료를 받고 있지 않는 대상자가 정확하게 동일한 반응을 보이고 있음에도 불구하고, 치료를 받고 있는 대상자가 그렇지 않은 대상자보다 더 나아지고 있다고 무의식적으로 생각할 수 있기 때문입니다. 이중 눈가림을 위해서는 대개 약사 등 시험과 관련되지 않은 사람이 겉모양이 같은 물질을 조제해야 하며, 이 물질에는 특별한 번호 코드만 표시된 라벨이 붙습니다. 이 번호 코드는 시험이 완료된 후에만 해제됩니다.

모든 의학 연구가 이중 눈가림될 수는 없습니다. 예를 들어, 두 가지 다른 수술법을 연구하고 있는 의사는 그들이 어떤 수술을 수행하고 있는지 명백히 알고 있습니다(수술을 받고 있는 사람은 해당 수술에 대해 모르는 상태를 유지할 수 있긴 하지만). 그러한 경우, 의사들은 치료의 결과를 평가하는 이들이 결과에 대한 무의식적인 편향(비뚤림)을 가지지 않도록 눈가림을 보장합니다.

질병에 대한 효과적인 치료가 이미 있다면, 대조군에게 위약만 투여하는 것은 비윤리적일 수 있습니다. 그러한 경우, 치료는 다음 예와 같이 다른 연구 설계를 사용하여 여전히 평가를 할 수 있습니다.

새로운 치료가 표준 치료의 효과에 추가되는지 여부를 확인하기 위해, 연구를 통해 표준 치료와 새로운 임상시험용 치료제나 위약을 함께 사용하여 결과를 비교할 수 있습니다.
표준 치료와 효과적인 것으로 알려진 새로운 치료법을 비교하기 위해, 연구를 통해 새로운 치료를 사용한 결과와 표준 치료를 사용한 결과를 비교할 수 있습니다. 눈가림을 유지하기 위해 필요한 경우, 두 시험군에 위약을 추가할 수 있습니다.

각 접근법에서 각 치료 물질은 참여자에게 동일한 것으로 보여야 하며, 이중 눈가림 연구의 경우 연구진에게 동일한 것으로 보여야 합니다. 치료군이 적색의 쓴 액체를 투여받는다면, 대조군 또한 적색의 쓴 액체를 투여받아야 합니다. 치료군이 투명한 액체를 주사로 투여받는다면, 대조군이 유사한 주사를 받아야 합니다.

임상시험 설계의 선택

가장 좋은 유형의 임상 시험은 위의 모든 요소를 갖추고 다음과 같은 경우입니다.

전향적 - 치료 및 대조군이 연구 시작 전에 등록되어 시간이 경과하면서 추적 관찰함
무작위 배정 - 임상시험에 참여 중인 사람들이 시험군에 무작위로 나뉘어 배정됨
위약 대조 - 임상시험에 참여 중인 사람 중 일부가 위약(비활성 치료제)을 투여받음
이중 눈가림 - 임상시험에 참여 중인 사람과 임상시험을 수행하는 사람 모두 누가 치료를 받고 있고 누가 위약을 받고 있는지 알지 못함

이러한 설계는 치료 효과에 대한 가장 명확한 측정을 가능하게 합니다. 그러나, 어떤 상황에서는 이러한 시험 설계가 가능하지 않을 수도 있습니다. 예를 들어, 아주 희귀한 질환의 경우, 종종 무작위배정 시험을 위한 충분한 수의 대상자를 찾기가 어렵습니다. 그러한 경우, 후향적 증례 대조 임상시험을 수행할 수 있습니다.

다양성

임상시험 결과가 현실에 적용되기 위해서는 시험 참여자들이 해당 연령, 성별, 인종, 민족, 사회 경제적 상태, 생활방식을 포함한 조사 중인 질병을 앓고 있는 인구 전체를 대표해야 합니다. 연구 참가자를 특정 그룹으로 제한함으로써 비슷한 사람끼리 정확하게 비교하는 것이 종종 더 쉬워집니다. 그러나 임상시험의 결과가 인구 전체에 가장 적합한 경우 다양한 참여자를 모집할 수 있습니다. 예를 들어, 미국에서는 소수 인종 및 소수 민족이 거의 인구의 40%를 차지합니다. 연구에서 이러한 다양성이 부족한 경우에는 중요한 요인들 중 일부를 놓칠 수 있습니다. 일부 약물의 경우, 인종과 유전적 배경이 해당 약물의 효과에 영향을 미칠 수 있습니다. 예를 들어, G6PD 효소 결핍은 아프리카, 아시아 또는 지중해 혈통의 남성에서 보다 일반적이고, 특정 약물은 G6PD 결핍 환자에게 용혈성 빈혈을 유발할 수 있습니다. 다양한 배경을 가진 사람들을 포함함으로써 임상시험의 치료법이 다른 집단의 사람들에게도 안전하고 효과가 나타나는지 확인할 수 있습니다. 그럼에도 불구하고, 사회 경제적 상태와 문맹률 수준, 대중교통에 대한 접근성, 그리고 시험 기관과 인접한 상태와 같은 요인들로 인해 다양성을 충분히 갖춘 모집단을 형성하는 것이 어려울 수 있습니다.