Ⅰ. 서 론
측모 두부 계측법은 측모방사선 사진에서 관찰되는 해부학적 구조물을 계측하는 형태학적 연구로, 계측 결과를 이용하여 개인의 안모 및 악골 관계를 파악하고, 골격적 문제점을 진단할 수 있으며, 앞으로의 성장 방향을 예측할 수 있다[
1]. 1931년 Broadbent[
2]는 측모두부방사선 계측법을 처음으로 도입하였는데, 측모두부방사선 사진에서 관찰되는 특정 경조직 및 연조직 구조물의 기준점을 계측점으로 정의한 후, 계측점 사이의 거리와 각도를 측정함으로써 부정교합을 수치화 및 분석하였다. 정확한 해부학적 계측점 탐지와 분석은 성공적인 교정 치료를 위하여 필수적이라고 하였다.
측모 두부 계측법은 주로 수동 측정법과 컴퓨터 보조 방법의 두가지 방법이 이용된다. 수동 측정법은 분석 시 검사자가 직접 계측점 사이의 길이 및 각도를 재기 때문에 많은 시간이 소요되며 측정 오차가 큰 단점이 있다. 컴퓨터 보조 방법은 자동으로 계측되기 때문에 소요 시간은 단축되었으나, 여전히 검사자의 숙련도에 따른 계측점 식별 오차가 존재한다[
3]. 따라서, 최근에는 인공지능 프로그램을 학습시켜 자동으로 해부학적 계측점을 식별하는 방법이 연구되고 있다. Cohen과 Linney 등[
4]이 1984년 최초로 자동 계측점 식별 방법을 개발한 이후로 자동 계측점 인식 정확성을 높이기 위한 다양한 연구가 꾸준히 보고되고 있으며, 대부분의 계측점에서 검사자의 계측 결과와 높은 상관관계를 나타냈으나, 여전히 모든 계측점을 2.0 mm 오차 범위 내로 식별하는 데에는 한계가 존재하였다[
5].
또한, 이전의 연구들은 대부분 영구치열기의 성인 환자들을 대상으로 진행되었으며, 소아 환자의 측모두부방사선 사진을 평가한 사례는 많지 않았다. 그 이유는, 소아의 골이 미성숙하여 연조직과의 낮은 흑화도 차이로 중첩 시 구별이 어려우며, 성장 발달로 인한 해부학적 구조물의 크기 및 형태의 변화와 유치 및 영구치 치배의 혼재로 인하여 성인과 비교하여 소아의 해부학적 구조를 인식하는 것이 더 어렵기 때문이다[
6].
이에, 이번 연구에서는 이미 출시된 3종의 측모두부방사선 계측 프로그램을 이용하여 연세대학교 치과대학병원에 내원한 소아 환자들의 측모 두부 계측점을 식별한 후, 각 계측점 별 정확도를 비교 분석하고 프로그램들의 임상 적용 가능성을 알아보는 것이 목적이다.
Ⅳ. 총괄 및 고찰
부정 교합은 크게 골격적 문제와 치아 교합의 문제로 나뉘며, 개인의 골격적 문제를 평가하기 위해서는 측모두부방사선 계측이 필수적이다. 측모두부방사선 분석의 진단학적 가치는 해부학적 계측점 식별의 정확성과 정밀도에 크게 의존하는데[
7], 계측점 식별의 정확성은 측정 오류가 없는 것을 의미하며, 정밀도는 같은 대상에 대한 반복 측정 시, 측정값의 편차가 크지 않고 서로 근접함을 뜻한다[
8]. 대부분의 측모방사선 분석법의 결과 오류는 체계적 오차와 무작위 오차로 이루어지는데[
3], 체계적 오차는 측정 대상이 동일하지 않거나 두 명 이상의 검사자, 혹은 검사자의 분석 시기가 다를 때 발생하는 문제점으로 연구 진행 시 필연적으로 발생하는 한계점인 반면, 무작위 오차는 계측점 탐지에서의 오차와 측정 단계에서의 오차를 의미한다. 그 중, 측모 두부 계측 분석법의 무작위 오차는 특정 계측점 식별의 어려움과 계측점 자체의 부정확한 정의에서 기인한다[
8]. Savage 등[
9]은 계측점 식별과 측정 시 발생되는 오차 모두 측모방사선 분석 결과에 영향을 주지만, 계측점 식별에서의 다양성이 측정에서의 다양성보다 약 5배 크다고 발표하였다. 즉, 정확한 계측점 식별이 측모방사선 분석 결과의 신뢰성에 상당한 영향을 미친다. 따라서 임상가의 주관성에 기인하는 검사자 사이의 계측점 식별 오차를 줄임과 동시에 높은 정확성을 갖는 자동 측모두부방사선 분석 방법을 개발하기 위해서 많은 연구들이 진행되었으며, 실제로 임상에서 사용할 수 있도록 자동 측모두부 분석 프로그램이 출시되었다. 하지만 상품화된 자동 측모방사선 분석 프로그램들의 신뢰도 및 정확성을 평가한 연구는 많지 않았다.
이 연구는 시판된 자동 측모방사선 분석 프로그램 3가지 종류를 사용하여 연세대학교 치과대학병원에 내원한 소아 환자들의 측모 두부 계측점을 식별한 후 정확성을 평가하였고, 각 프로그램에 따른 차이를 통계적으로 분석하였다. Rakosi[
10]과 Tong 등[
11]은 측모 두부 계측 분석 시 임상적으로 허용 가능한 계측점 식별 오차 범위는 2.0 mm 내외라고 보고하였으며, Yue 등[
12]은 평균 2.0 mm의 오차 범위는 정확하다고 평가할 수 있고, 4.0 mm 이내의 범위는 임상적으로 허용 가능한 오차라고 발표하였다. 이번 연구 결과 실험에 포함된 V-ceph, Ceppro, Laonceph 프로그램은 각각 평균 2.54 ± 1.63 mm, 2.53 ± 1.63 mm, 2.54 ± 1.63 mm의 오차를 나타내어 3종의 프로그램 모두 평균 2.0 mm 대의 오차 범위 내에서 계측점을 식별함을 알 수 있었다. 따라서 소아 환자들의 교정 분석 시, 자동 계측점 식별 프로그램을 보조적으로 사용할 수 있을 것으로 사료된다.
자동 계측점 식별 프로그램 간 정확도 비교에서는, Or과 Go을 식별할 때 실험군 간 유의미한 차이가 관찰되었다. Or은 V-ceph 프로그램으로 측정하였을 때 Ceppro와 Laonceph 프로그램보다 약 1.0 mm가량 낮은 측정 오차를 나타냈으며 Go을 측정하였을 때는 V-ceph과 Laonceph이 Ceppro 프로그램보다 두드러지게 낮은 식별 오차를 가졌다. 그러나 위 두가지 계측점을 제외한 나머지 12개의 계측점에서는 3군 사이의 유의미한 차이는 관찰되지 않았다. 이는 3종의 프로그램이 서로 유사한 정확도를 가진다는 결과를 보여주었다.
이번 연구에서의 자동 계측점 식별 오차는 이전의 비슷한 주제의 선행 연구들과 유사하거나 다소 낮다. 1998년 Rudolph 등[
13]은 14명의 측모방사선 사진을 대상으로 15개의 계측점을 식별하였는데 총 평균 3.07 mm의 오차를 보고하였고, 2000년 Hutton 등[
14]의 연구에서는 63명의 측모방사선을 대상으로 16개의 계측점을 식별한 결과 평균 4.08 mm의 오차를 발표하였다. 2000년 Liu 등[
15]은 38명을 대상으로 13개의 계측점을 식별하였는데 총 2.86 mm의 평균 식별 오차를 나타내어 이번 연구 결과와 유사함을 알 수 있다. 한편 최근에 발표된 몇몇 연구들은 이번 연구보다 더 정확성이 높은 결과를 보고했다. Giordano 등[
16]은 계측점 평균 식별 오차를 1.07 mm로 발표하였고, Yue 등[
12]의 연구에서는 12개의 계측점 중 71%이 2.0 mm 이내의 평균 오차를 나타냈으며, Leonardi 등[
17]은 10개의 계측점을 자동으로 식별한 결과 최대 0.59 mm의 낮은 오차를 보였다고 발표하였다. 이는 S만이 유일하게 14개의 계측점 중 2.0 mm 이내의 식별 오차를 나타내며, 전체적으로 평균 2.53 mm의 오차를 보인 이번 연구보다 더 높은 정확도를 보임을 알 수 있다. 하지만 Giordano 등[
16]은 8개의 계측점만을 연구에 포함하였으며, Yue 등[
12]의 연구는 A, B, Lower 1st incisor tip (L1) 계측점을, Leonardi 등[
17]은 ANS, PNS, Or 계측점을 식별 대상에서 제외하였다. 계측점의 계측 신뢰도에 대하여 보고한 이전의 연구들에 의하면, Po과 Or은 계측점 주위의 다양한 해부학적 구조의 중첩으로 명확하게 식별하기 어렵다. 또한 A, B, Me과 Go은 점진적으로 구부러지는 곡선 위에 존재하는 기준점이기 때문에, 명확한 직선 변연 위에 위치하는 계측점인 Upper 1st incisor tip이나 L1과 비교하여 정확한 위치를 파악하는 것에 한계가 있다[
18,
19]. 따라서 최근에 발표된 연구들의 경우 상대적으로 식별하기 어려운 계측점을 제외하고 소수의 계측점을 가지고 측정하였기 때문에 측정된 오차가 과소평가 되었을 가능성을 생각해볼 수 있으며, 이번 연구에는 Downs 분석법이나 McNamara 분석법에서 공통적으로 사용되는 14개 계측점을 포함함으로써 3종의 자동 분석 프로그램들의 효율성을 더 정확하게 확인할 수 있었다.
그러나 이 연구에는 몇 가지 한계점이 있다. 우선 상품화된 3개의 자동 측모방사선 분석 프로그램들의 학습 데이터의 대상이 성인 또는 영구치열기의 청소년에 국한되어 있는지, 혼합치열기 어린이도 포함되어 있는지 파악하지 못했다는 점이다. 2010년 Tanikawa 등[
6]은 기존의 성인 및 청소년의 측모 방사선에 적합한 자동 계측점 인식 시스템을 사춘기 이전의 어린이를 대상으로 추가적으로 학습시킨 후, 사춘기 전 아동의 측모 두부 계측점 식별의 정확도 차이를 비교 평가하였다. 그 결과, Ptm, Pog, B, Me과 Gnathion에서는 두 시스템 모두 80% 이상의 유사한 성공률을 보였으나, 9개의 계측점(PNS, A, Condylion, S, Or, ANS, L1, Ar, N)은 소아를 대상으로 학습시킨 시스템이 기존의 방법과 비교하여 유의미하게 높은 성공률의 개선을 보였음을 보고하였다. 이는 소아 환자들의 특성에 대한 학습의 유무에 따라서 계측점 식별 능력에 유의미한 차이가 나타남을 의미한다. 그러나 이번 연구에서는 연구자가 직접 프로그램을 기계 학습시키지 않고 이미 출시된 프로그램들의 정확도를 평가하였기 때문에, 추후 연구에서는 프로그램의 학습 대상을 분석하고, 더 많은 소아 환자들의 측모방사선 사진을 학습 자료에 포함시켜서 정확도를 높이는 것이 필요하다.
두 번째는 평가에 포함된 계측점 안에 연조직 계측점이 포함되지 않았다는 점이다. 두부 계측은 측모 방사선 촬영을 통해 치아 교정 치료 및 악교정 수술의 관점에서 치아-골격 및 연조직 구조를 검사하는 것이 목적이기 때문에 환자의 연조직 분석도 중요하다. Arnett과 Bergaman[
20]이 연조직 분석을 교정 치료의 진단과 치료계획 수립의 중요한 열쇠로 묘사하였을 만큼, 연조직 측모 두부 계측 분석은 수직 및 수평적 차원에서 안모 형태를 평가하며, 치료 전과 후의 심미성을 비교 분석하는 기준이 된다[
21]. 연조직은 방사선 사진에서 경조직보다 흑화도 대비가 크지 않아, 계측점 식별 판단이 어려울 수 있으나, 이후 연구에서는 Hwang 등[
22]의 논문과 같이 대표적인 연조직 계측점을 포함 기준에 추가하여 치료 전과 후의 환자의 안모 변화를 평가하고 치료 결과를 다각적으로 판단하는 것이 필요할 것으로 보인다.
세 번째는 대조군이 단일 검사자라는 점이다. Anuwongnukroh 등[
23]은 수동 측정법과 자동 계측점 분석 프로그램(OrthoTrac, version 6.14, Carestream Dental, Ontario, United States) 사이의 계측점 식별 정확성을 비교한 연구에서 13개의 계측점 중 5개의 계측점(Sella, Nasion, Gnathion, Pogonion, Gonion)에서 유의미한 차이가 없으며, 평균적으로 x축 0.89 mm, y축 1.32 mm의 식별 오차를 가짐을 발표하였다. 이 때 Anuwongnukroh 등[
23]은 2명의 검사자가 식별한 좌표의 평균을 기준 좌표로 하여 식별 오차를 계측하였다. 반면 이번 연구에서는 3개의 프로그램의 정확성을 평가하는 기준을 단일 검사자가 3회 측정한 결과값의 평균으로 설정하였으며 그 결과 3개의 프로그램들 평균 2.53 mm의 식별 오차를 나타냈고, 검사자가 3개의 실험군과 비교하여 14개의 계측점에서 모두 유의미하게 낮은 오차를 보였다. 비교 연구에 있어서는 표준화가 매우 중요한데[
8], 2명 이상의 검사자가 측정할 경우 필연적으로 발생할 수 있는 오차를 고려해볼 때, 1명의 검사자가 모든 측정을 시행할 경우 오차를 최소화할 수 있는 장점이 있으며[
24], 이번 연구에서 관찰자 내 일치도는 0.90로 높았다. 그러나 측모두부방사선 계측의 경우 관찰자 내 다양성보다 관찰자 간 다양성이 더 크며, 때때로 검사자 사이의 차이가 방사선 이미지의 질보다 측정 결과에 큰 영향을 미치기 때문에 단일 검사자의 측정 값을 기준으로 할 경우 검사자의 경험 및 능력에 따라서 결과에 큰 차이가 존재할 수 있다[
25]. 즉, 계측점 식별 오차가 1.0 mm 이내일 경우에 측모 두부 분석 결과를 정확하다고 판단할 수 있음을 고려하면[
26,
27] 이번 연구에 사용된 3개의 자동 측모 분석 프로그램들은 숙련된 교정 전문가를 대체하기 어려우며, 유사한 주제의 이전 연구[
23]와 비교하여 낮은 정확도를 나타낸다고 분석할 수 있으나, 정확도 평가에 사용된 기준이 단일 검사자의 평균 측정값이므로 결과의 신뢰도에 한계가 존재할 가능성을 배제할 수 없다. 따라서 향후 연구에서는 2명 이상의 숙련된 검사자들의 반복 측정 결과의 평균을 기준값으로 설정한다면 보다 신뢰도 높은 연구가 될 것이다.