«خطای کل مجاز تعدیل شده» چیه؟!

نقدی به مفهوم «تعدیل خطای کل مجاز» به دنبال سنجش تکراری نمونه‌ها، ارائه شده توی کتاب «مدیریت کیفیت در بیوشیمی» نوشته آقای دکتر رضا محمدی

حسن بیات؛ درس‌خونده علوم آزمایشگاهی

توضیح:

این نوشته با انشای گفتاری نوشته شده. قصد خاصی از اینطور نوشتن ندارم جز این که با نوشتن به این شکل هم مطلب رو راحت‌تر بیان می‌کنم و هم سریع‌تر می‌نویسم؛ که هر دو مورد، سبب صرفه‌جویی توی وقت کمی می‌شه که برای مطالعه و نوشتن دارم. از طرف دیگه، توی سال‌های اخیر رد و بدل کردن پیام‌های متنی با زبان گفتاری توی فضای مجازی سبب شده دیگه مطالعه مطالب به این شکل خیلی نامأنوس نباشه. به هر حال، از دست‌اندرکاران نشریه اخبار آزمایشگاهی خواهش کردم حداقل به عنوان یه تجربه، این نوشته به این شکل منتشر بشه.

مثال‌های ساده‌ای از فعالیت‌های غیر آزمایشگاهی آوردم که به باور من به فهم مطلب کمک می‌کنه. از اونجایی که «اندازه‌گیری کمی» بخش عمده‌ای از کار آزمایشگاهه و محصول کار ما عمدتاً تولید «نتایج عددی‌یه»، می‌شه به آزمایشگاه به چشم یه «کارگاه تولید نتایج کمی» نگاه کرد؛ و بنا بر این، میشه از مثال‌ها و تشبیه‌هایی از کارهای تولیدی و بخصوص مؤسسات اندازه‌گیری برای کمک به توضیح مباحث آزمایشگاهی استفاده کرد. امیدوارم مثال‌های ارائه شده از جنس مثال‌هایی باشه که پروفسور وستگارد در باره‌شون می‌گه «تو مثال‌هایی می‌زنی که از هر سدی در مقابل فهمیدن و یادگیری عبور می‌کنه». به هرحال، امیدوارم سادگی مثال‌ها و همینطور ساده‌‌نویسی و مفصل‌‌نویسی من، سبب رنجش خوانندگان گرامی نشه.

توی فرمول‌هــــــایی که توی متن هســـــــت، علامت % رو نذاشتــــــم تا از شلوغ شدن فرمول‌ها جلوگیری بشه؛

مثلاً %TAE = %Bias + 2CV به صورت TAE = Bias + CV نوشته شده. مطمئنا خوانندگان به خوبی آگاه هستن که کجاها باید به شکل درصد باشه؛ مثلاً این که هر جا توی فرمول CV هست، بقیه اجزا باید به شکل درصد باشه.

مقدمه

این نوشته، نقدی‌یه به مفهومی با اسم «خطای کل مجازِ تعدیل شده» (Modified Allowable Total Error; mTEa) که توسط آقای دکتر رضا محمدی توی کتاب‌شون با عنوان «مدیریت کیفیت در بیوشیمی» (نشر آییژ؛ سال 1395) ارائه شده. تو صفحه 56 کتاب، نویسنده مدعی شده اگه برای کوچیک کردن CV، نمونه‌ها رو بیشتر از 1 بار اندازه‌گیری‌ و میانگین نتایج رو گزارش بکنیم، اون وقت باید خطای کل مجاز (خ‌ک‌م) (Allowable Total Error, TEa) رو هم تعدیل، یا به عبارت بهتر، کم بکنیم. نویسنده یه فرمول هم برای این کار ابداع و ارائه کرده:

%mTEa = [(2+√n)/3√n]*TEa

این پیشنهاد به طور خلاصه این می‌شه که وقتی ما با عملکرد معمول‌مون، نمی‌تونیم درون محدوده مجاز باشیم و از حد مجاز رد می‌شیم، و بنا بر این با صرف تلاش بیشتر، هزینه بیشتر، و وقت بیشتر، عملکردمون رو بهتر میکنیم تا بیفتیم توی محدوده مجاز، همزمان باید حد مجاز هم برای ما کمتر بشه؛ کاری که امکان داره نه تنها پیامد بهتری به دنبال نداشته باشه و سبب نشه یه عملکرد بیرون از محدوده مجاز بیفته توی محدوده مجاز، حتا ممکنه سبب بشه یه عملکرد قابل قبول بیفته بیرون از محدوده مجاز و مردود بشه. قصد من از این نوشته اینه که نشون بدم همچین تعدیلی درست نیست.

خطای مجاز برای هر عملکردی تو هر سامانه‌ای، از جمله خطای مجاز سنجش‌های آزمایشگاهی، مقدار ثابتی‌یه که با توجه به شرایط و نیازهای اون سامانه تعریف و تعیین می‌شه و تلاش‌هایی که برای بهبود عملکرد انجام می‌شه سبب نمی‌شه که خطای مجاز رو کم بکنیم. برای بیان موضوع، لازمه اول یه مرور کوتاه (البته نه خیلی کوتاه) داشته باشیم به بعضی از جنبه‌های مبحث پایش کیفیت (پ‌ک).

خطای مجاز «محصول» در مقابل خطای مجاز «تولید»

خطای مجاز «محصول» به ما می‌گه که یه دونه محصول، چه مشخصاتی باید داشته باشه تا اون رو خوب یا قابل قبول به حساب بیاریم. در مقابل، خطای مجاز «تولید» در باره مشخصات عملکرد خوب یا قابل قبول صحبت می‌کنه.

مثلاً اگه به یه تولیدکننده بگن خطای مجاز برای قطر تو‌پ‌های بازی برابره با 20%، این می‌شه مشخصات یه دونه محصول خوب یا اختلاف مجاز. این خطای مجاز به ما می‌گه اگه مثلاً یه مشتری توپ‌هایی با قطر 30 سانت بخواد (قطر هدف برابر 30)، تا 6 سانت کم و زیاد اشکال نداره و توپ‌هایی به قطر 24 سانت تا 36 سانت، خوب، درست، سالم یا قابل قبول به حساب می‌آن و توپ‌هایی که بیشتر از 6 سانت کم و زیاد دارن یعنی توپ‌هایی با قطر کمتر از 24 سانت یا بیشتر از 36 سانت، بد، نادرست، ناسالم یا غیرِ قابل قبول به حساب می‌آن.

اما علاوه بر دونستن خطای مجاز محصول، لازمه یه تولیدکننده خطای مجاز تولید رو هم بدونه؛ یعنی بدونه چند درصد از توپ‌هایی که تولید می‌کنه باید خوب باشن: همه‌شون (100%)؟ 95%؟ 70%؟ چند درصد؟ به بیان دیگه، قطر چند درصد از توپ‌ها باید بیفته توی محدوده مجاز 20%±30 (24 سانت تا 36 سانت). فرض کنیم توی قرارداد با یه توپ‌ساز، علاوه بر «اختلاف مجاز، برابره با 20%»، بنویسن «خطای مجاز تولید، برابره با 85%». این یعنی باید قطر حداقل 85% از توپ‌ها بیفته توی محدوده مجاز 20%±30؛ یا قطر حداکثر 15% از توپ‌ها می‌تونه بیفته بیرون از فاصله 20%±30. حالا تکلیف اون توپ‌ساز روشنه و می‌دونه که اگه یه سفارش 10000 تایی رو تحویل می‌ده، باید قطر حداقل 8500 تا از توپ‌ها قابل قبول (یعنی از 24 تا 36) باشه. از اون طرف اگه قطر حداکثر 1500 تاشون نادرست باشه (بیفته بیرون از 24 تا 36)، اشکال نداره.

قرارداد بدی نیست چون این معیارها خیلی سخت به نظر نمی‌آن: (الف) خطای مجاز = 20%، (ب) خرابی مجاز = 15%. البته همه مشتری‌ها خواسته‌های یکسان ندارن، ممکنه یه مشتری دیگه بیاد بگه ما 1000 تا توپ‌ با قطر 20 سانت می‌خواهیم با معیارهای مثلاً «الزامات بهبود کیفیت فوتبال»: (الف) خطای مجاز = 5%، (ب) خرابی مجاز = 1%. از منظر نیازهای این مشتری، (الف) یه دونه محصول قابل قبول، توپی‌یه که قطرش بین 21 تا 23 سانت باشه و (ب) تولید قابل قبول یعنی خیالش راحت باشه توی 1000 تا توپی که تحویل می‌گیره حداکثر 10 تا شون خرابه و حداقل 990 تاشون خوبه.

حالا «توپ‌بازی» رو بذاریم کنار، ببخشید «توپ‌سازی» رو، بریم سراغ چند تا مثال درباره «اندازه‌گیری» و «نتیجه اندازه‌گیری». کار اصلی ما آزمایشگاهی‌ها اندازه‌گیر‌ی‌یه و مثل همه شغل‌های مرتبط با اندازه‌گیری، متر کردن کوچه‌ها باشه یا وزن کردن اشیا یا …، محصول ما می‌شه «نتیجه اندازه‌گیری» و تولید ما می‌شه «کار اندازه‌گیری»؛ به بیان بهتر: «نتیجه سنجش» و «عملکرد سنجشی».

«نتیجه سنجش» قابل قبول. به نتیجه‌ای می‌گیم قابل قبول (درست یا خوب) که اختلاف اون با مقدار واقعی‌ کمتر از مقدار مجاز باشه. اگه کار ما اندازه‌گیری‌ها طول کوچه‌هاس و به ما گفتن «اگه نتیجه اندازه‌گیری‌تون حداکثر 10% با اندازه واقعی اختلاف داشته باشه می‌گیم جوابتون خوبه (قابل قبوله)»، این می‌شه اختلاف مجاز، یا انحراف مجاز، یا خطای مجاز (یا هر اسم مناسب دیگه‌). حالا اگه ما بریم یه کوچه با طول واقعی 100 متر رو اندازه بگیریم، اختلاف مجاز واسه این طول این کوچه می‌شه 10 متر و محدوده‌ مجاز نتایج می‌شه از 90 متر تا 110 متر:

10% * 100 = 10 m

100 – 10 = 90 m

100 + 10 = 110 m

تا وقتی که جواب‌مون تو فاصله 90 و 110 باشه، جواب‌مون یه محصول سالم به شمار می‌آد؛ یعنی درسته، خوبه، یا قابل قبوله؛ مثلاً اگه گزارش بکنیم 108 متر یا 91 متر، کنار جوابمون علامت «درست» می‌زنن؛ اما اگه گزارش بکنیم 111 متر یا 86 متر، علامت «نادرست» می‌زنن.

در مورد اندازه‌گیری‌های آزمایشگاهی هم همینطوره. مثلاً با معیار CLIA، یه جواب گلوکز درست جوابی‌یه که حداکثر 10% با مقدار واقعی‌ش اختلاف داشته باشه. اگه مقدار واقعی گلوکز توی یه نمونه mg/dL 100 باشه، جواب‌های بین 90 و 110 درست به حساب می‌آد و جواب‌های بیرون از این محدوده، نادرست به حساب می‌آد.

«عملکرد سنجشی» قابل قبول. حالا فرض کنیم ما یه شرکت نقشه‌برداری داریم و رفتیم با شهرداری یه شهر قراردار بستیم براشون کوچه‌های شهر رو متر کنیم. موقع قرارداد بستن باید ازشون بپرسیم: (الف) خطای مجاز چقدره؟ دست‌اندرکاران شهرداری هم بسته به کاربرد نتایج، تعیین می‌کنن که چقدر خطا براشون مهمه و اون رو توی قرارداد می‌نویسن؛ مثلاً همون 10% مثال بالا. اما حواسمون باید باشه که فقط دونستن خطای مجاز کافی نیست، بلکه باید در باره درصد مجاز خرابی هم بپرسیم: (ب) چند درصد از نتایج ما باید درست باشه؟ این پرسش یعنی: از نظر شما «عملکرد سنجشی» قابل قبول چه جور عملکرد‌ی‌یه؟ معلوم کنین حداکثر چند درصد از نتایج ما می‌تونه بیفته بیرون از محدوده مجاز 10%±؟ فرض کنیم شهرداری توی قرارداد می‌نویسه 5%.

حالا تکلیف ما معلومه: اگه اون منطقه 10000 تا کوچه داره، برای این که آخر کار شهرداری پول ما رو بده باید طبق قرارداد، حداقل اندازه 9500 تا از کوچه‌ها رو درست گزارش کرده باشیم (یعنی اندازه گزارش‌ شده برای حداقل 9500 تا از کوچه‌ها، بیشتر از 10% از مقدار واقعی‌شون کمتر یا بیشتر نباشه). با این معیار ما فقط 5% جای خطا داریم یعنی اندازه گزارش شده برای حداکثر 500 تا از کوچه‌ها می‌تونه بیشتر از 10% از مقدار واقعی‌شون کوچیکتر یا بزرگتر باشه.

چرا دونستن خطای مجاز عملکرد مهمه؟ چون در عمل ما نمی‌خواهیم یا نمی‌تونیم تک تک محصول‌ها رو وارسی کنیم ببینیم کدوم سالمه کدوم ناسالم. می‌خواهیم 1000 تا پرتقال بخریم، توی هر بسته پذیرایی یه دونه بذاریم بدیم دست شرکت‌کننده‌های کنفرانس. نمی‌تونیم تک تک پرتقال‌ها رو باز کنیم ببینم کدوم سالمه و کدوم ناسالم، تا ناسالم‌ها رو دور بریزیم و سالم‌ها رو بدیم دست مهمون‌ها. اما اگه بدونیم پرتقال‌ها مثلاً کمتر از 1% خرابی داره، می‌گیم «خرابی‌ کل‌ این بار کمه، می‌خریم می‌ذاریم تو بسته‌ها. اینجوری هر کسی باید حداقل 99% احتمال بده که پرتقالی که نصیبش شده سالمه و حداکثر 1% احتمال داره که خراب باشه».

توی آزمایشگاه‌ هم داستان همینه؛ مثلاً وقتی یه اتوآنالایزر در ماه 5000 تا جواب گلوکز تولید می‌کنه، راهی نداریم که بدونیم کدوم جواب درسته و کدوم نادرست مگر این که مقادیر واقعی اون 5000 تا نتیجه رو بدونیم؛ که اگه می‌دونستیم دیگه نیازی نبود نمونه‌ها رو بذاریم روی این اتوآنالایزر! تنها اطلاعاتی که می‌تونیم درباره درستی/نادرستی نتایج بدیم اینه که تعیین کنیم هر جواب چقدر احتمال داره درست باشه. همه‌مون می‌دونیم که احتمال رو می‌شه از روی فراوانی اون حساب کرد. اگه توی یه کیسه 100 تا توپ باشه که فقط 95 تاشون سالم باشه، احتمال این که توپی که به طور تصادفی از کیسه در میاریم سالم باشه برابره با 95%.

اگه یه خط تولید داشته باشیم که حداقل 95% از تولیدش خوب باشه، احتمال خوب بودن هر محصول برابره با حداقل 95%. به همین شکل، اگه یه اتوآنالایز داشته باشیم که حداقل 95% از جواب‌های گلوکزش کمتر از 10% با مقدار واقعی‌ اختلاف داشته باشن، احتمال این که هر جواب کمتر از 10% با مقدار واقعی اختلاف داشته باشه برابره با حداقل 95%.

اینجاس که ارزیابی عملکرد سنجشی و اطمینان از پذیرفته بودن اون اهمیت پیدا می‌کنه. در مثال اندازه‌گیری‌های کوچه‌ها، اگه عملکرد سنجشی ما قابل قبول باشه، اون وقت کاربر نتایج در مورد طول هر کوچه، حداقل 95% مطمئنه که حداکثر 10% از مقدار واقعی‌ کمتره یا بیشتره. مثلاً اگه بخش عمرانی شهرداری بخواد کوچه‌های اون شهر رو سنگفرش بکنه و از ما بپرسه که توی حساب کتابشون بر اساس نتایجی که ما گزارش کردیم، چقدر خطا رو باید در نظر بگیرن (یا به قول مهندس‌های عمران، چند درصد تولرانس در نظر بگیرن) می‌تونیم توضیح بدیم «طول این کوچه‌ها با خطای مجاز 10% اندازه‌گیری شده، پس شما حداکثر 10% کم و زیاد رو در نظر بگیرین».

بعد می‌پرسن: «یعنی خیالمون صد درصد راحت باشه در مورد هیچ کوچه‌ای بیشتر از 10% کم و زیاد نداریم؟» ما هم جواب می‌دیم: «صد درصد که نه! خیالتون حداقل 95% راحت باشه»؛ یعنی حداقل توی 95% از کوچه‌ها، حساب کتابتون درست از کار درمیاد اما توی حداکثر 5% از کوچه‌ها، با بیشتر از 10% کم و زیاد روبرو می‌شین. کدوم کوچه‌ها خطاشون از 10% بیشتره؟! (کدوم پرتقال‌ها خرابه؟!) نمی‌دونیم! به خاطر همینه که می‌گیم به محاسبات‌تون برای هر کوچه، حداقل 95% اطمینان داشته باشین. اگه این کیفیت سنجشی برای تصمیمات عمرانی‌تون مناسبه، با ما قرارداد ببندین کوچه‌ها رو اندازه‌گیری کنیم.

در مورد اندازه‌گیری‌های آزمایشگاهی هم همینطوره؛ یعنی هم لازمه بدونیم اختلاف مجاز واسه هر نتیجه چقدره و هم این که بدونیم چند درصد از جواب‌های ما می‌تونه نادرست باشه (بیفته بیرون از محدوده مجاز). مورد اول، یعنی اختلاف مجاز رو به شکل سرراست خیلی جاها نوشتن. توی جدول‌های خطای مجاز CLIA و RCPA می‌شه خطاهای مجاز برای سنجش خیلی از آنالیت‌ها رو پیدا کرد؛ برای بعضی‌هاشون به شکل درصد نوشتن (مثلاً CLIA خطای مجاز کلسترول رو 10% در نظر گرفته) و برای بعضی‌هاشون به شکل یه مقدار ثابت نوشتن (باز هم مثلاً CLIA خطای مجاز کلسیم رو mg/dL 1 در نظر گرفته).

اما در مورد دومی، یعنی این که درصد مجاز جواب‌های نادرست چقدره، راستش رو بخواهین جایی به شکل سرراست چیزی ننوشتن. از حدود 50 سال پیش که پروفسور وستگارد مدل خطای کل رو ارائه کرده، یه جور توافق نانوشته بوده که اجازه داریم حداکثر 5% از جواب‌هامون بیفته بیرون از محدوده مجاز (یعنی درصد مجاز خرابی یا تولید خطا یا هر اصطلاح مناسب دیگه، برابره با 5%).

مثال: فرض کنیم واسه سنجش گلوکز، اختلاف مجاز رو برابر 10% و درصد مجاز خرابی رو برابر 5% درصد در نظر گرفتیم و با یه مرکز قرارداد بستیم گلوکز 10000 تا از کارکنانش رو اندازه‌گیری کنیم. طبق این الزامات، برای این که عملکرد‌مون قابل قبول باشه (و آخر کار پولمون رو بدن) باید حداقل 9500 تا از جواب‌هامون درست باشه، یعنی از مقدار واقعی‌، حداکثر 10% کمتر یا بیشتر باشن (یا حداکثر 500 تا از جواب‌هامون بیفته بیرون از محدوده مجاز 10%±). اگه عملکرد سنجشی آزمایشگاه در مورد گلوکز خوب باشه و کمتر از 5% جواب‌هامون نادرست داشته باشه، می‌تونیم به یه پزشک در مورد کیفیت کارمون اینجوری توضیح بدیم: «حداقل 95% از نتایج گلوکز ما درست هستن یعنی حداکثر 10% از مقدار واقعی‌شون کمتر یا بیشتر هستن و حداکثر 5% از جواب‌ها نادرست هستن و بیشتر از 10% خطا (اختلاف) دارن».

کدوم نتیجه‌ها بیشتر از 10% خطا داره؟ (کدوم پرتقا‌ل‌‌ها خرابه؟ اندازه کدوم کوچه‌ها بیشتر از 10% خطا داره؟) نمی‌دونیم! به خاطر همینه که می‌گیم در مورد هر جواب گلوکزی که از آزمایشگاه ما به دستتون می‌رسه، حداقل 95% اطمینان داشته باشین که دیگه خیلی… خیلی… خیلی… خطا داشته باشه، حداکثر 10% از مقدار واقعی‌ش کمتره یا بیشتره. اگه این کیفیت رو واسه تصمیمات بالینی‌تون مناسب می‌دونین، مریض‌هاتون رو بفرستین آزمایشگاه ما.

اما…، چجوری تعیین کنیم که چند درصد از نتایج ما درسته؟ در مورد مثال اندازه‌گیری‌ کوچه‌ها، یه راه غیرعاقلانه‌ اینه که شهرداری اندازه واقعی اون 10000 تا کوچه‌ رو با یه ابزار اندازه‌گیری مرجع تعیین بکنه؛ تک‌تک اندازه‌های ما رو با اندازه‌های واقعی مقایسه بکنه و ببینه هر کدوم چند درصد اختلاف داره؛ اون‌هایی رو که بیشتر از 10% اختلاف دارن بشماره و حساب کنه چند درصد از جواب‌های ما درسته؛ و بعد تصمیم بگیره که عملکرد ما درسته یا نه (و این که دستمزد ما رو بده یا نه). این راه غیرعاقلانه‌س چون اگه شهرداری اندازه واقعی کوچه‌ها رو داشت که دیگه نیازی به قرارداد با شرکت ما نداشت.

همینطور در مورد اندازه‌گیری گلوکز، واسه بررسی این که عملکرد سنجشی ما خوبه یا بد، نمی‌شه مثلاً همه جواب‌های گلوکز اون 10000 تا کارمند رو با مقدار واقعی‌شون مقایسه کرد تا معلوم بشه چند درصد از جواب‌های ما درسته و چند درصد نادرسته. پس چی کار کنیم؟ اینجاس که محاسبه «خطای سنجشی کل؛ خ‌س‌ک» (Total Analytical Error; TAE) به کارمون می‌آد.

خطای سنجشی کل. بدون وارد شدن تو جزئیات، اگه عدم صحت و عدم دقت (Bias و CV) رو داشته باشیم، می‌تونیم به راحتی تعیین بکنیم که چند درصد از نتایج می‌افته توی محدوده خطای مجاز. حتا این هم لازم نیست که تعیین کنیم دقیقاً چند درصد توی محدوده مجازه، فقط کافیه معلوم کنیم آیا حداقل 95% درصد از نتایج می‌افته داخل محدوده مجاز یا نه. همونطور که می‌دونیم، بر اساس توزیع گوسی شکل (توزیع طبیعی)، 95% از سطح میانی زیر منحنی می‌افته توی فاصله 1.96*SD کمتر از میانگین تا 1.96*SD بیشتر از میانگین (یا 1.96*CV کمتر و بیشتر از میانگین). البته برای راحتی، از 2 به جای 1.96 استفاده می‌کنیم (شکل زیر).

اگه Bias و CV طوری باشه که حداقل 95% از سطح زیر منحنی بیفته توی محدوده مجاز، عملکرد سنجشی ما پذیرفته‌س. توی شکل زیر، میانگین سنجش کاملاً با مقدار هدف (True Value; TV) برابره و بنا بر این عدم صحت یا Bias برابر صفره.

Bias = Mean – TV = 0

همونطور که تو شکل زیر دیده می‌شه، چون CV از نصف TEa کمتره، بنا بر این Mean ± 2CV که 95% از نتایج رو در بر می‌گیره افتاده داخل TV ± TEa و این یعنی حداقل 95% از نتایج درسته.

شکل بعدی حالتی را نشون می‌ده که به رغم وجود مقداری عدم صحت (Bias)باز هم چون CV به اندازه کافی کوچیکه، Mean ± 2CV افتاده توی TV ± TEa و در نتیجه حداقل 95% از نتایج داخل محدوده مجازه و درست به حساب میاد (توی شکل زیر Bias با پیکان قرمز رنگ با حرف B مشخص شده).

Mean – TV│ > 0│

Bias│ > 0 │

این دو تا شکل چیزی رو که نشون می‌دن که همه‌مون به خوبی می‌دونستیم: تا وقتی که B + 2CV کوچیکتر از اختلاف مجاز بشه، می‌تونیم مطمئن باشیم که حداقل 95% از نتایج می‌افتن توی محدوده مجاز و درست هستن؛ و بنا بر این، عملکرد سنجشی خوبه یا قابل قبــــــــــوله. این مفهوم، اســـــــاس مدل «خطای کل» پروفسور وستگارده. توی این مـــــــدل، حاصل جمع B| + 2CV| رو می‌گـــــــــــن «خطای سنجشی کل» (Total Analytical Error; TAE):

TAE = |Bias| + 2CV

و اختلاف مجاز (همون ارقامی که توی جداولی مثل CLIA و RCPA و غیره هست) رو می‌گن «خطای کل مجاز» (Allowable Total Error; TEa). با این حساب اگه Bias|+ 2CV ≤ TEa| باشه یا به طور خلاصه‌تر TAE ≤ TEa باشه، اون وقت عملکرد سنجشی قابل قبوله؛ چون درصد جواب‌های قابل قبول‌مون 95% یا بیشتره و درصد خطامون 5% یا کمتره.

وقتی سر و کارمون با یه دونه نتیجه‌اس، حداکثر اختلاف قابل قبول با مقدار واقعی‌ش رو می‌گیم «اختلاف مجاز» یا «انحراف مجاز» یا «خطای مجاز» یا هر اصطلاح مناسب دیگه‌ای که این مفهوم رو برسونه. مثلاً CLIA تو جداول قبلی‌ش می‌گفت «اختلاف مجاز» (Acceptable Performance) اما توی جدول پیشنهادی 2019 می‌گه «حدود قابـــــل قبول» (Acceptable Limits)؛ CAP می‌گه «بازه قابل قبول» (Acceptable Range)؛ RCPA می‌گه «خطای مجاز» (Allowable Error)؛ و جدول RiliBak آلمان می‌گه «انحراف قابل قبول» (Acceptable Deviation)؛ منظور همه‌شون هم اینه که در مورد یه دونه نتیجه آزمایش، چقدر اختلاف با مقدار واقعی قابل قبوله. توی مدل خطای کل، چون قراره حساب کنیم به خاطر تأثیرات Bias و CV با هم، چند درصد از جواب‌هامون نادرست به حساب میان، به همین «اختلاف مجاز» می‌گن «خطای کل مجاز».

خطای سنجشی کل برای «یه دونه» جواب یا برای «عملکرد»؟

چون مدل خطای کل، روی قابل قبول بودن «عملکرد» تمرکز داره نه تک-جواب‌ها، بنا بر این توی این مدل اصطلاح «خطای سنجشی کل» اساساً برای عملکرد استفاده می‌شه، نه تک-جواب‌ها. چون همونطور که گفتیم قرار نیست ما بررسی کنیم هر کدوم از جواب‌ها چقدر با مقدار واقعی اختلاف دارن. با استفاده از این مدل، بر اساس Bias و CV معلوم می‌کنیم آیا حداقل 95% از نتایج درست هست یا نه تا بدونیم آیا می‌شه به هر تک-جواب حداقل 95% اطمینان کرد که اختلافش با مقدار واقعی کمتر از خطای مجازه. به کار بردن واژه «کل» توی این مدل برای همین بوده که بگن به جای تمرکز روی تأثیر هر کدوم از Bias و CV به تنهایی، تمرکز گذاشته شده روی «کل» خطایی که Bias و CV با هم ایجاد می‌کنن.

البته اصطلاح «خطای سنجشی کل» برای اختلاف یه تک-جواب با مقدار واقعی هم به کار برده می‌شه؛ به این معنی که اختلاف با مقدار واقعی ناشی‌یه از تأثیر کل Bias و CV روی هم؛ و البته تأثیر خطاهای پیش‌سنجش، مداخله‌گرها و گاهی هم پس‌سنجش رو هم باید در نظر گرفت. به هر حال، باید یادمون بمونه که توی آزمایشگاه در مورد درستی/نادرستی تک-جواب‌ها قضاوت نمی‌کنیم، بلکه تمرکزمون روی درستی/نادرستی عملکرده و مدل خطای کل در این مورد به کارمون می‌آد.

تکرار سنجش برای کاهش CV

اگه جمعیتی با توزیع گوسی داشته باشیم، با تعداد اعضای N، میانگین µ و انحراف معیار σ و از اون جمعیت تمام نمونه‌های n تایی ممکن رو بگیریم، توزیع اون نمونه‌های n تایی هم گوسی می‌شه، میانگینش X̄، برابر با میانگین جمعیت می‌شه، و انحراف معیارش، SD، برابر با n√/σ میشه.

X̄ = µ

SD = σ/√n

مثلاً اگه از یه جمعیت 1000 تایی با میانگین 50 و انحراف معیار 5، همه نمونه‌های 2 تایی ممکن رو بگیریم، میانگین و انحراف معیار توزیع نمونه‌های 2 تایی به ترتیب می‌شه 50 و 3.54:

X̄ = µ = 50

SD = σ/√n = 5/√2 = 3.54

و اگه همه نمونه‌های 10تایی رو بگیریم، میانگین و انحراف معیار توزیع نمونه‌های 10 تایی به ترتیب می‌شه 50 و 1.58:

X̄ = µ = 50

SD = σ/√n = 5/√10 = 1.58

همونطور که می‌بینیم، انحراف معیار توزیع نمونه‌های n تایی از انحراف معیار جمعیت کوچیکتره؛ هر چی n بزرگتر، انحراف معیار توزیع نمونه کوچیک‌تر. موقع بررسی‌های آماری، برای این که یافته‌های حاصل از نمونه، برآورد قابل اطمینانی از جمعیت باشه، لازمه n به اندازه کافی بزرگ باشه. در صورتی که n به اندازه کافی بزرگ باشه، می‌شه یافته‌های آماری نمونه رو با اطمینان بالایی به جمعیت تعمیم داد و در باره جمعیت قضاوت کرد.

مثلاً اگه برای برآورد میانگین وزن یه جمعیت 10000 نفری از بچه‌های 10 ساله، فقط 1 بچه رو وزن کنیم و وزن اون بشه 27 کیلوگرم، مطمئناً نمی‌تونیم با اطمینان بگیم وزن متوسط این 10000 تا بچه تقریباً 27 کیلو‌گرمه؛ اما اگه 50 تا بچه رو وزن کرده باشیم و میانگین 27 رو به دست آورده باشیم، با اطمنیان بیشتری می‌تونیم بگیم وزن متوسط اون جمعیت حدود 27 کیلوگرمه؛ و اگه میانگین وزن یه نمونه 500 تایی 27 شده باشه، با اطمینان خیلی بیشتری می‌تونیم میانگین وزن جمعیت رو حدود 27 در نظر بگیریم.

از این موضوع که با افزایش n، انحراف معیار یا CV توزیع کوچیکتر می‌شه، می‌تونیم برای کاهش CV تو اندازه‌گیری‌ها استفاده بکنیم. مثلاً اگه یه ترازو داشته‌ باشیم که CV اون برای کارمون زیاد باشه، می‌تونیم برای کاهش CV، به جای 1 بار وزن کردن اشیا، هر چیز رو چند بار (n بار) وزن کنیم و از n تا نتیجه به دست اومده میانگین بگیریم. اگه CV ترازوی ما 15% باشه و هر چیز رو 5 بار وزن کنیم و میانگین بگیریم، CV اندازه‌گیری‌های 5 تایی برابر 6.7% می‌شه. اگه CV نتایج تکراری رو با CV_repeat نشون بدیم:

CV_repeat = CV/√n = 15/√5 = 6.7%

اگه 6.7% هم برای کارمون زیاد باشه می‌تونیم تکرار رو بیشتر بکنیم، مثلاً 20 بار:

CV_repeat = 15/√20 = 3.5%

در مورد اندازه‌گیری‌های آزمایشگاهی هم همینطوره. مثلاً اگه یه روش سنجش کراتینین داشته باشیم که CV اون 5% باشه و به جای 1 بار سنجش، نمونه‌ها رو 2 یا 3 بار اندازه‌گیری کنیم و میانگین بگیریم، CV روش ما به ترتیب به 3.5% و 2.9% کاهش پیدا می‌کنه:

CV حاصل از 2 بار سنجش: CV_repeat = 5/√2 = 3.5%
CV حاصل از 3 بار سنجش: CV_repeat = 5/√3 = 2.9

اگه عدم صحت این روش برابر 1% باشه، خطای سنجشی کل می‌شه:

1 بار سنجش:TAE = 1% + (2 x 5%) = 11% %
2 بار سنجش: TAE = 1% + (2 x 3.5%) = 8% %
3 بار سنجش:%TAE = 1% + (2 x 2.9%) = 6.8 %

همونطور که در مثال بالا می‌بینینم، با سنجش تکراری، CV و در نتیجه TAE کم می‌شه.

عدم صحت مجاز، عدم دقت مجاز

تو مدل خطای کل، چیزی به اسم عدم صحت مجاز یا عدم دقت مجاز نداریم. داستان اینه که تا اواسط دهه 70 میلادی، مفهومی به اسم خطای کل سنجش مطرح نشده بود و صحبتی از این نبود که عدم صحت و عدم دقت روی هم چه نقشی در تولید نتایج خطا بازی می‌کنن. سال 1974، پروفسور وستگارد با 3 نفر از همکارانش، یه مقاله به کنفرانس AACC ارائه کردن و برای اولین مفهوم «خطای کل» رو (که حالا به اون می‌گیم «خطای سنجشی کل») معرفی کردن. بحث وستگارد و همکارانش این بود که به جای این که عدم صحت و عدم دقت رو به طور جداگانه بررسی کنیم، بیائیم «کل» خطای ناشی از Bias و CV با هم رو در نظر بگیریــــــم (به صورت TAE = B + 2CV).

ایده‌ خطای سنجشی کل کم‌کم جا افتاد و تو کنفرانس AACC سال 1976 به عنوان شیوه ارزیابی و پایش کیفیت توی امریکا پذیرفته شد. از اون موقع تا حالا، علاوه بر امریکا، تو کشورهای دیگه مثل آلمان و استرالیا و البته کشور خودمون از این مدل استفاده می‌شه. البته خیلی از کشورهای اروپایی از مدل خطای کل استفاده نمی‌کنن و همچنان عدم صحت و عدم دقت رو به صورت جداگانه در نظر می‌گیرن و برای اون‌ها «عدم صحت مجاز» و «عدم دقت مجاز» تعیین می‌کنن.

توی مدل خطای کل کاری ندارن به این که CV چقدره یا Bias چقدره، بلکه مهم اینه که خطای ناشی از ترکیب این دو تا با هم، یعنی «خطای سنجشی کل»، چقدره و این که «خطای سنجشی کل» از «خطای کل مجاز» بیشتر نشه تا مطمئن بشیم که بیشتر از 5% خطا تولید نمی‌کنیم. توی این مدل، انواع ترکیب‌های عدم صحت و عدم دقت قابل تصوره؛ یه آزمایشگاه ممکنه عدم صحتش بزرگ باشه اما عدم دقتش کوچیک باشه؛ یکی دیگه برعکس، ممکنه عدم دقتش بزرگ باشه اما عدم صحتش کوچیک باشه؛ در مورد یکی دیگه ممکنه هر دو تا متوسط باشه و غیره.

اصلاً مهم نیست Bias و CV هر کدوم به تنهایی چقدر هستن؛ چیزی که مهمه اینه که کل درصد جواب‌های نادرست که ناشی از Bias و CV روی همه، بیشتر از 5% نشه. به همین دلیل، توی منابع مربوط به مدل خطای کل مثل CLIA، CAP و RCPA و غیره چیزی به عنوان CV مجاز یا Bias مجاز ارائه نشده و فقط خطای کل مجاز (با اسامی مختلف) ارائه شده.

خطای کل مجاز مثل یه بودجه ثابته، مثلاً یه اعتبار خرید صد هزار تومنی که برای ما در نظر گرفتن بریم سیب و پرتقال بخریم. اینجا، «صورتحساب کل خرید سیب و پرتقال روی هم»، معادل خطای سنجشی کله؛ و «اعتبار صد هزارتومنی» معادل خطای کل مجازه (بگیم «خرید کل» و «خرید کل مجاز»). گفتن برین واسه خودتون تا سقف صد هزار تومن سیب و/یا پرتقال بخرین؛ کاری ندارن از هر کدوم چقدر می‌خریم، فقط مهمه که خرید کل ما از خرید کل مجاز بیشتر نشه.

یه نفر ممکنه بیشتر پرتقال بخره؛ یکی دیگه ممکنه برعکس عمل بکنه؛ یکی ممکنه فقط پرتقال بخره؛ یکی دیگه برعکس؛ یکی ممکنه ته صد هزار تومن رو دربیاره؛ یکی ممکنه متعادل‌تر خرید بکنه؛ یکی هم ممکنه صورتحسابش روی هم خیلی کم بشه و غیره. هر ترکیبی قابل قبوله به شرط این که وقتی می‌ریم پای صندوق، صورتحسابمون حداکثر صد هزار تومن بشه. به همین شکل، توی مدل خطای کل هر ترکیبی از Bias و CV قابل قبوله به شرط این که خطای سنجشی کل‌ (TAE) از خطای کل مجاز (TEa) بیشتر نشه.

سؤال: پس چرا می‌گن موقع ارزشیابی، CV بیست روزه نباید از 1/3خطای کل مجاز بیشتر بشه؟

قبل از توضیح در باره این، لازمه به این نکته توجه کنیم که نمی‌شه همه فضای TEa رو به CV و Bias اختصاص بدیم (یعنی نمی‌شه B + 2CV میزون اندازه TEa بشه). چون در اون صورت، دیگه فضایی برای پایش کیفیت (پ‌ک) باقی نمی‌مونه. واسه این که نریم تو جزئیات، یه مثال ساده رو در نظر بگیریم: اگه یه ظرف 1 لیتری داشته باشیم (یعنی TEa برابر 1 لیتر) مطمئناً میزون 1 لیتر شیر (یعنی TAE برابر 1 لیتر) نمی‌ریزیم تو اون گرم کنیم، چون در اون صورت دیگه هیچ فضای خالی‌ای نمی‌مونه که ما بتونیم سر نرفتن شیر رو «پایش» بکنیم.

باید یه مقدار از حجم 1 لیتری ظرف رو بذاریم واسه پایش؛ هر چی فضای باقیمونده بیشتر باشه، خیال ما راحت‌تره و ساده‌تر پایش می‌کنیم. تو آزمایشگاه هم همین طوره: هرچه CV و Bias کوچیکتر باشن، TAE از TEa کوچیکتر می‌شه و بنا بر این فضای بیشتری واسه پ‌ک باقی می‌مونه و در نتیجه می‌شه از یه برنامه پ‌ک ساده‌تر با هزینه‌تر و ‌زحمت‌ کمتر استفاده کرد. این موضوع رو می‌شه با رابطه زیر نشون داد:

TAE + QC = TEa

رابطه بالا تأکید می‌کنه که از فضای TEa، یه سهمی هم واسه پ‌ک لازمه (یه بخش از ظرف TEa رو خالی بذاریم واسه پایش سر نرفتن خطا!). با در نظر داشتن این موضوع، بریم سراغ این که اگه CV بیشتر از 1/3 خطای کل مجاز بشه چطور می‌شه. اگه CV برابر 1/3 خطای کل مجاز بشه:

TAE = B + 2CV

TAE = B + (2 x 1/3TEa)

TAE = B + 2/3TEa

و در بهترین حالت، اگه Bias برابر صفر بشه:

TAE = 0 + 2/3TEa

TAE = 2/3TEa

در این صورت، با در نظر گرفتن سهم پ‌ک:

TAE + QC = TEa

2/3TEa + QC = TEa

QC = 1/3TEa

یعنی با یه CV برابر 1/3 خطای کل مجاز و Bias برابر صفر،2/3 از فضای TEa به TAE اختصاص پیدا می‌کنه و فقط 1/3 از فضای TEa واسه پ‌ک باقی می‌مونه. با این فضای کم، باید از یه برنامه پ‌ک چندقانونی با حداقل 4 تا کنترل توی هر دور استفاده کرد که خیلی پرزحمت و پرهزینه‌س. حالا فرض کنیم CV از 1/3 خ‌ک‌م بیشتر باشه و/یا کمی هم Bias داشته باشیم؛ اون وقت فضای خیلی کمتری می‌مونه واسه پ‌ک و هزینه و زحمت خیلی بیشتری می‌مونه واسه ما.

البته به طور نظری، اگه یه روش داشته باشیم که کاملاً پایدار باشه طوری که مطمئن باشیم در طول مدتی که از اون استفاده می‌کنیم هرگز پایداریش به هم نمی‌خوره، اون وقت دیگه به پ‌ک نیازی نیست و می‌شه همه فضای TEa رو به TAE اختصاص داد. با همچین روش همیشه-پایدار و البته یافت ‌ناشدنی‌ای‌، اگه از قضا عدم صحت هم برابر صفر بشه، دیگه شانس CV زده و همه فضای TEa می‌مونه واسه اون. در این صورت، CV می‌تونه تا اندازه نصف TEa بزرگ باشه:

TAE + QC = TEa

(B + 2CV) + QC = TEa

(0 + 2CV) + 0 = TEa

CV = 1/2TEa

به همین شکل، اگه به طور نظری یه روش‌ هم همیشه-‌پایدار با CV برابر صفر داشته باشیم، اون وقت همه TEa می‌مونه واسه Bias و عدم صحت می‌تونه تا اندازه TEa بزرگ باشه:

TAE + QC = TEa

(B + 2CV) + QC = TEa

(B + 2*0) + 0 = TEa

B = TEa

از اونجایی که در عمل همچین روش‌های همیشه-پایداری نداریم و بنا بر این همیشه به پ‌ک احتیاج داریم، پس موقع ارزشیابی باید مطمئن باشیم که یه سهمی از فضای TEa می‌مونه واسه پ‌ک. واسه همینه که موقع ارزشیابی می‌گن CV از 1/3 فضای TEa بزرگتر نشه به این امید که Bias هم صفر یا خیلی کوچیک از کار درمی‌آد و حداقل نزدیک به یک سوم از TEa می‌مونه واسه پ‌ک. این به معنای این نیست که CV مجاز برابره با TEa1/3 و یا Bias مجاز برابره با TEa1/3.

یه سؤال دیگه: پس چرا تو جدول خطاهای مجاز بیولوژیک، هم TEa داریم هم CV مجاز و هم Bias مجاز؟

اول یادآوری نشانه‌ها: توی جدول خطاهای بیولوژیک، CV مجاز و Bias مجاز و خطای کل مجاز به ترتیب با علائم I(%)، B(%) و TE(%) نشون داده شده.

همونطور که قبلاً گفته شد، I(%) و B(%) برای استفاده تو بعضی کشورهای اروپایی‌یه که مقادیر CV و Bias رو به طور جداگانه ارزیابی و پایش می‌کنن و کاری هم به خطای سنجشی کل ندارن. اما استفاده از خطاهای مجاز جداگانه وقتی می‌رسه به برنامه‌ پایش کیفیت خارجی (پ‌ک‌خ) با یه اشکال روبرو می‌شه. روش پ‌ک‌خ تو اون کشورها اینه که تو هر دوره، نمونه‌هایی رو با مقدار هدف مشخص می‌فرستن آزمایشگاه (معمولاً مقدار هدف رو با روش‌های مرجع تعیین می‌کنن). آزمایشگاه‌ هم هر آنالیت رو 1 بار آزمایش می‌کنه و جواب رو برمی‌گردونه.

مشکل اینجاس که با یه تک-جواب نمی‌شه Bias و CV آزمایشگاه رو حساب کرد تا معلوم بشه که از B(%) و I(%) بزرگترن یا نه تا بشه در مورد عملکرد آزمایشگاه توی اون دوره تصمیم گرفت. البته عملی هم نیست که از آزمایشگاه‌ها بخوان که تو هر دوره، ماده کنترل رو واسه هر آنالیت، مثلاً 20 بار اندازه بگیرن تا مجری پ‌ک‌خ بتونه CV و Bias اون‌ها رو محاسبه و بررسی بکنه. واسه حل این مشکل، پروفسور فریزر و پروفسور پترسن[1] یه راهکار ارائه دادن با این استدلال که حالا مجری‌های پ‌ک‌خ فقط به یه تک-جواب از آزمایشگاه محدود هستن بیائیم یه «حد مجاز اختلاف با مقدار هدف» تعیین کنیم با اسم TE(%) که مجری‌های پ‌ک‌خ بتونن تک-جواب آزمایشگاه رو با اون مقایسه بکنن.

تصمیم هم گرفتن مقدار TE(%) به اندازه‌ای باشه که اگه یه آزمایشگاه با Bias برابر با B(%) و CV برابر با I(%) کار می‌کنه (یعنی با حداکثر مقادیر مجاز واسه Bias و CV)، 95% احتمال داشته باشه که جوابش بیفته توی محدوده خطای مجاز و فقط 5% احتمال داشته باشه که جوابش به طور کاذب بیفته بیرون از محدوده خطای مجاز. البته هر چی Bias و CV آزمایشگاه از B(%) و I(%) کوچیکتر باشه، احتمال این که جوابش به طور کاذب بیفته بیرون از محدوده مجاز از 5% کمتر می‌شه. با این استدلال، اون‌ها فرمول زیر رو واسه محاسبه «حداکثر اختلاف مجاز» برای استفاده توی برنامه‌های پ‌ک‌خ پیشنهاد کردن:

TE(%) = B(%) + 1.65*I(%)

اگه اختلاف جواب آزمایشگاه با مقدار هدف، TV، بیشتر از TE(%) باشه جواب آزمایشگاه رد می‌شه. بنا بر این، محدوده پذیرش می‌شه:

Acceptable Range = TV ± TE(%)

مثلاً توی جدول بیولوژیک 2014، B(%) برای گلوکز برابره با 2.34% و I(%) برابره با 2.8%. با این مقادیر، TE(%) می‌شه 6.96%:

TE(%) = 2.34% + 1.65*2.8% = 6.96%

Acceptable Range = TV ± 6.96%

اگه یه نمونه گلوکز با مقدار واقعی 100 رو بفرستن واسه آزمایشگاه‌ها:

Acceptable Range = 100 ± 6.96%

Acceptable Range: From 93 to 107

انتظار دارن جواب آزمایشگاه‌ها بیفته تو محدوده 6.96%±100؛ یعنی از 93 تا 107. حالا اگه یه آزمایشگاه با Bias برابر 2.34% و CV برابر 2.8% یعنی دقیقاً برابر B(%) و I(%) کار بکنه، 95% احتمال داره جوابش بیفته توی محدوده قابل قبول و 5% احتمال داره که جوابش بیفته بیرون از محدوده قابل قبول. همونطور که گفته شد، بیرون افتادن جواب این آزمایشگاه «رد کاذب» (False Rejection) یا «مثبت کاذب» به حساب می‌آد؛ اما مثل هر برنامه پایش دیگه‌ای، برای این که حساسیت خطایابی خیلی کم نشه، باید مقداری رد کاذب رو تحمل کرد.

یکی از انتقادهای بجایی که به این پیشنهاد وارد شده اینه که ممکنه Bias یه آزمایشگاه بزرگتر از B(%) باشه اما CV اون به اندازه‌‌ای کوچیکتر از I(%) باشه که جوابش از محدوده TV ± TE(%) بیرون نیفته؛ یا برعکس، CV آزمایشگاه بزرگتر از I(%) باشه اما Bias اون به اندازه‌ای کوچیکتر از B(%) باشه که جوابش بیرون نیفته. به عبارت دیگه یه Bias بزرگتر از B(%) با یه CV کوچیک جبران بشه و برعکس. یادمون بیاد که- بر خلاف «مدل خطای کل» که اندازه Bias و CV به تنهایی مهم نیست بلکه تأثیر مشترک اون‌ها به صورت TAE اهمیت داره- توی مدل «خطاهای مجاز جداگانه برای Bias و CV»، باید هم Bias از B(%) بزرگتر نباشه و هم CV از I(%) بزرگتر نباشه.

بنا بر این، اگه یکی از Bias یا CV بزرگتر از مقدار مجاز باشه اما توسط کوچیک بودن اون یکی جبران بشه طوری که جواب آزمایشگاه نیفته بیرون از TE(%)، سبب می‌شه عملکرد آزمایشگاه به طور کاذب پذیرفته بشه؛ یعنی «پذیرش کاذب» (False Acceptable) و یا «منفی کاذب».

البته خیلی‌ وقت‌ها می‌بینیم که مقادیر TE(%) بیولوژیک، کنار خطاهای مجاز CLIA و RCPA و… به عنوان یکی از منابع TEa برای مدل خطای کل استفاده می‌شه. اگرچه مقادیر TE(%) در اصل واسه این کار درست نشدن اما استفاده از اون‌ها به این شکل اشکالی نداره. نکته مهم اینه که حواسمون باشه این دو تا رویکرد، یعنی «خطاهای مجاز جداگانه» و «خطای کل»، رو با هم قاطی نکنیم. اشتباهی که توی چند سال اخیر توی ایران دیده می‌شه؛ در حالی که مراجع نظارتی از آزمایشگاه‌ها می‌خوان از مدل خطای کل و قوانین پ‌ک وستگارد- که برای مدل خطای کل طراحی شده- استفاده بکنن، همزمان از آزمایشگاه می‌پرسن: «CV مجازت چقدره؟»!

نکته مهم دیگه اینه که اگرچه TE(%) بیولوژیک از ترکیب B(%) و I(%) به دست می‌آد، اما همونطور که در بالا توضیح داده شده، این که برای منظور خاصی (یعنی استفاده توسط مؤسسات پ‌ک‌خ تو اروپا) انجام شده و هرگز به این معنی نیست که توی مدل خطای کل هم، CV مجاز و Bias مجاز داریم و از ترکیب اون‌ها، TEa حساب می‌شه. به هیچ عنوان توی توضیحات همراه جدول‌های CLIA و RCPA و… خبری از این حرف‌ها نیست. توی هیچ کدوم نه حرفی از CV مجاز و Bias مجاز به صورت جدا هست و نه هیچ فرمولی و راهکاری برای به دست آوردن TEa از CV و Bias به اصطلاح مجاز.

مثلاً نویسنده‌های جدول RCPA توضیح می‌دن که هدفشون این بوده که (نقل به مضمون) «مقادیری برای خطای مجاز ارائه بدن که هم نیاز بالین رو در نظر گرفته باشه، هم سطح فعلی فناوری رو و هم امکانات و منابع آزمایشگاه‌ها رو. برای رسیدن به این هدف، افراد صاحبنظر از طرف‌های مختلف شامل پزشک‌ها، تولید کننده‌های محصولات آزمایشگاهی، آزمایشگاهی‌ها، برنامه‌های پ‌ک‌خ، نهادهای نظارتی و نماینده‌های نهادهای قانونی، دور هم نشستن، بحث و گفتگو کردن و روی مقادیر ارائه شده تو جدول RCPA توافق کردن.»

تأثیر تکرار سنجش بر خطای کل مجاز

مژده: بالاخره بعد از خوندن این توضیح و تفصیل (امیدوارم مربوط)، کم کم داریم می‌رسیم به نقد «خطای کل مجاز تعدیل شده».

خطای کل مجاز، مثل هر حد مجاز دیگه‌ای، یه خط قرمزه که ما نباید از اون رو رد بشیم و سعی کنیم تا جایی که می‌شه عملکردمون از اون بهتر باشه تا پایش عملکرد، ساده‌تر و ارزونتر بشه. مثلاً اگه حداکثر دمای مجاز برای سردخونه نگهداری میوه 10 درجه سلسیوس باشه، معنیش اینه که اگه دمای یه سردخونه بیشتر از 10 درجه‌س به اون مجوز فعالیت نمی‌دن چون میوه‌ها توی دمای بالای 10 درجه خراب می‌شن.

فرض کنیم یه سردخونه‌دار با دستگاه خنک کننده‌ش همه زورش رو می‌زنه و حداقل دمایی که می‌تونه ایجاد بکنه می‌شه 14 درجه. دست آخر تصمیم می‌گیره 2 تا دستگاه بذاره و از قضا تصمیمش جواب می‌ده و 2 تا دستگاه می‌تونن با هم دما رو به 9 درجه برسونن. بعد هم تصمیم می‌گیره برای این که دما پائین‌تر بره تا خیالش از جهت پایش دما راحت‌تر بشه، 3 ‌تا دستگاه بذاره و اینجوری دما رو می‌رسونه به 5 درجه.

پرسش اینه که آیا، حالا که به عوض 1 دستگاه خنک‌کننده از 2 تا یا 3 تا دستگاه استفاده می‌کنه، باز هم دمای مجاز همون 10 درجه‌س؟ آیا باید دمای مجاز رو برای استفاده از 2 تا دستگاه، کمی پائینتر از 10 درجه در نظر بگیریم و برای 3 تا دستگاه خیلی کمتر؟ آیا باید به اون سردخونه‌دار مثلاً بگیم با 2 تا دستگاه، دمای مجاز واسه تو می‌شه 9 درجه و اگه 3 تا دستگاه بذاری دمای مجاز برات می‌شه 4 درجه؟ البته که نه! دمای یه سردخونه باید زیر 10 درجه باشه تا میوه‌ها سالم باشن.

1 دستگاه بذاره یا 2 تا یا 3 تا یا بیشتر، دمای مجاز همون 10 درجه‌س، چون توی دمای کمتر از 10 درجه میوه‌ها سالم می‌مونن؛ فقط همین! اگه به این دلیل که از بیشتر از 1 دستگاه استفاده می‌شه دمای مجاز رو کمتر از 10 درجه در نظر بگیریم، اون سردخونه‌دار حق داره اعتراض بکنه که کلی هزینه کرده دمای سردخونه‌ش بره زیر خط قرمز 10 درجه، نه این که ما هم از اون طرف، خط قرمز‌ رو پائینتر بیاریم، و البته حق داره به ما بگه: «شما گفتین اگه دما از 10 درجه کمتر باشه میوه‌ها سالم می‌مونن. به چه دلیل اگه دما رو با 1 دستگاه به زیر 10 درجه برسونم میوه‌ها سالم می‌مونن اما اگه با بیشتر از 1 دستگاه این کار رو بکنم میوه‌ها سالم نمی‌مونن؟ مگه واسه میوه‌ها فرقی داره من با چند تا دستگاه دمای سردخونه‌م رو می‌برم زیر 10 درجه؟»

به عنوان مثالی دیگه، فرض کنیم برای کارمندهای یه بانک، مدت تأخیر مجاز برای ورود به محل کار 20 دقیقه است. التبه که این مرز مجاز، ربطی نداره به این که یه کارمند با چه وسیله‌ای می‌ره سر کار: پیاده، با دوچرخه، با موتوسیکلت و غیره. به هر شکلی که یه کارمند بره سر کار، مهم اینه که بیشتر از 20 دقیقه تأخیر نداشته باشه. فرض کنیم یه کارمند چند روز پیاده می‌آد و می‌بینه تأخیرش بیشتر از 20 دقیقه می‌شه. واسه همین از روزهای بعد با دوچرخه می‌آد و از قضا مشکلش برطرف می‌شه و تأخیرش حدود 14 دقیقه می‌شه. قطعاً به اون نمی‌گیم حالا که با دوچرخه میایی، پس تأخیر مجاز برای تو تعدیل می‌شه و از 20 دقیقه می‌رسه به 15.

یا اگه بعد از مدتی یه موتوسیکلت خرید که هم خیالش از بابت به موقع رسیدن راحت‌تر بشه و هم کمی زودتر برسه تا با حوصله‌تر کارش رو شروع بکنه، و تأخیرش شد حدود 5 دقیقه؛ صداش نمی‌کنیم دفتر به اون بگیم «چون با موتوسیکلت می‌آی تأخیر مجاز برات می‌شه 7 دقیقه». اگه مرز تأخیر مجاز رو به خاطر استفاده از دوچرخه یا موتوسیکلت کمتر بکنیم (یا به اصطلاح تعدیل بکنیم)، اون کارمند حق داره اعتراض بکنه که برای خرید دوچرخه هزینه کرده و بعد برای خریدن موتوسیکلت هزینه بیشتری کرده که زمان تأخیرش رو کم بکنه نه این که ما هم از اون طرف، تأخیر مجاز رو کمتر بکنیم، و حق داره به ما بگه: «شما گفتین چون اول صبح مشتری‌ها تک و توک هستن اگه تأخیرم کمتر از 20 دقیقه باشه مشکلی پیش نمی‌آد.

حالا به چه دلیلی اگه با دوچرخه بیام، بعد از 15 دقیقه مشکل پیش می‌آد و اگه با موتوسیکلت بیام بعد از 7 دقیقه؟ مگه تعداد مشتری‌های اول صبح بستگی داره به این که من با چه وسیله‌ای خودم رو به بانک می‌رسونم؟»

توی مثال‌های بالا و البته در موارد دیگه، مرز خطای مجاز باید ثابت باقی بمونه؛ فارغ از این که افراد به چه صورتی عملکردشون رو اصلاح می‌کنن تا بتونن معیار خطای مجاز رو برآورده بکنن. ما زحمت بیشتری می‌کشیم، وقت بیشتری صرف می‌کنیم و هزینه بیشتری متحمل می‌شیم که از پس خطای مجاز بر بیائیم؛ نه این که به نسبت زحمت، وقت و هزینه بیشتری که ما متحمل می‌شیم مرز خطای مجاز هم تعدیل بشه.

البته که فرمول‌هایی وجود داره برای ارتباط دادن دمای سردخونه با تعداد دستگاه سردکننده و برای ارتباط دادن وسیله رفتن به محل کار با مدت تأخیر؛ اما این فرمول‌ها برای اینه که حساب کنیم در صورت افزایش هزینه و تلاش، عملکرد ما چقدر بهتر می‌شه وخطای ما چقدر کمتر می‌شه نه این که از این فرمول‌ها استفاده کنیم واسه کاهش و به اصطلاح تعدیل خطای مجاز.

یه بار دیگه بریم سراغ مثال اندازه‌گیری‌ طول کوچه‌ها که به اندازه‌گیری غلظت مواد‌ تو آزمایشگاه نزدیکتره. اول معیارهای شهرداری یادمون بیاد: (الف) اختلاف مجاز = 10%؛ (ب) درصد مجاز برای اندازه نادرست = 5%. این نکته هم یادمون بیاد که چه در مورد متر زدن کوچه‌ها و چه در مورد آزمایش نمونه‌ها توی آزمایشگاه، تمرکزمون روی خطای تک‌تک جواب‌ها نیست، بلکه تمرکزمون روی اینه که مطمئن بشیم عملکردمون خوبه‌؛ به این معنی که اختلاف حداقل 95% از جواب‌هامون کمتر از خطای کل مجازه؛ یا به عبارت دیگه، حداقل 95% از جواب‌هامون می‌افته توی محدوده قابل قبول (TV ± TEa).

از منظر یه جواب تکی، اگه طول واقعی یه کوچه 100 متر باشه و ما 108 متر گزارش بکنیم، جواب‌مون درسته چون اختلافش با مقدار واقعی از 10% کمتره؛ همین و بس! دیگه کاری ندارن ما 1 بار متر زدیم، یا واسه کم کردن CV اندازه‌گیری‌مون، چند بار متر زدیم و میانگین گرفتیم. در هر صورت، خطای مجاز واسه اندازه‌گیری طول کوچه‌ها برابره با 10% و به هیچ عنوان بسته به دفعات سنجش کم یا تعدیل نمی‌شه. با هر تعداد تکرار که ما نتیجه رو به دست آورده باشیم، اگه اختلافش با مقدار واقعی کمتر از 10% باشه واسه کار شهرداری‌چی‌ها کافی‌یه و اون‌ها رو توی تصمیمات عمرانی‌شون گمراه نمی‌کنه.

اگه این جواب 108 متر حاصل مثلاً میانگین گرفتن از 3 بار اندازه‌گیری باشه، این دلیلی نمی‌شه که‌ شهرداری بگه «حالا چون شما 3 بار متر زدی و میانگین گرفتی، پس خطای کل مجاز با فرمول mTEa تعدیل می‌شه و می‌شه 7.2%؛ متأسفیم، بر اساس این mTEa، جواب 108 شما نادرسته». اگه شهرداری همچین ادعایی بکنه ما حق داریم بگیم «شما گفتین اگه اختلاف جواب ما با مقدار واقعی کمتر از 10% باشه، شما تو محاسبات‌تون واسه تصمیمات عمرانی دچار اشتباه نمی‌شین. حالا به چه دلیلی اگه ما به جای 1 بار، 3 بار متر بزنیم و میانگین بگیریم، اختلاف مجاز باید کمتر از 7.2% باشه تا شما تو تصمیم‌هاتون دچار اشتباه نشین؟ مگه «حداکثر اختلاف مجاز» واسه اشتباه‌ نکردن شما به دفعات اندازه‌گیری ما ربط داره؟»

حالا از منظر عملکرد هم که به موضوع تعدیل خطای کل نگاه کنیم. با فرض TEa برابر 10%؛ اگه Bias متر ما 1% و CV اون 6% باشه، خطای سنجشی کل می‌شه 12% که از TEa بزرگتره و عملکردمون قابل قبول نیست. اگه مترمون رو بدیم برامون کالیبر بکنن و Bias صفر بشه، عملکرد بهتر می‌شه اما مشکل کاملاً حل نمی‌شه چون خطای سنجشی کل می‌شه 11% که هنوز هم از TEa بزرگتره. پس تصمیم می‌گیریم هر کوچه رو 2 بار متر بزنیم و میانگین بگیریم. با این کار CV ما می‌شه 4.2% و خطای سنجشی کل هم می‌شه 8.4%. با این خطای سنجشی کل، بیشتر از 95% از نتایج ما درسته و طبق قراری که با شهرداری داشتیم عملکردمون خوبه.

مطمئناً قبول نمی‌کنیم که شهرداری بگه «نه، قبول نیست! چون شما 2 بار متر زدین، پس TEa با فرمول mTEa براتون تعدیل می‌شه و می‌شه 8%». اگه همچین چیزی بگه ما حق داریم اعتراض کنیم که «چه فرقی می‌کنه ما 1 بار متر زدیم یا 2 بار یا چند بار؟ مهم اینه که طبق الزامات کیفیت که توی قرارداد نوشته شده، باید حداقل 95% از نتایج ما کمتر از 10% با مقدار واقعی اختلاف داشته باشه که با Bias برابر صفر و CV برابر 4.2% این شرط شما برآورده شده.»

در مورد نتایج آزمایشگاهی هم همین طوره؛ فارغ از این که 1 بار نمونه رو سنجش می‌کنیم یا چند بار، خطای کل مجاز در هر حالت یکسانه. از منظر یه جواب تک، مهم اینه که اون جواب بیشتر از TEa از مقدار واقعیش دور نباشه تا موجب تصمیمات اشتباه نشه. به عنوان مثال، از مثالی که توی صفحه 57 کتاب طرح شده استفاده می‌کنم. با فرض TEa برابر 7% برای سنجش کراتینین؛ مقدار هدف (مقدار واقعی) کراتینین تو یه نمونه mg/dL 2.5 بوده و آزمایشگاه mg/dL 2.6 گزارش کرده. آیا جوابش درسته؟ اختلاف جواب آزمایشگاه با مقدار هدف برابره با mg/dL 0.1 که نسبت به مقدار هدف می‌شه 4% و چون 4% اختلاف از 7% اختلاف مجاز کمتره، این جواب درسته؛ همین!

دیگه کاری نداریم به این که جوابی که آزمایشگاه داده حاصل 1 بار سنجشه یا 2 بار یا 16 بار (تکرارهای مطرح شده در مثال کتاب). در هر حال جواب 2.6 کمتر از 7% با 2.5 اختلاف داره و بنا بر این موجب اشتباه در تصمیم‌گیری‌های بالینی نمی‌شه. مطمئنا این طور نیست که اگه این جواب 2.6 رو با 1 بار سنجش به دست آورده باشیم، جواب خوبی‌یه، چون 4% اختلاف موجب اشتباه در تصمیم‌های بالینی نمی‌شه؛ اگه با 2 بار سنجش به دست آورده باشیم، بد نیست چون هنوز هم 4% اختلاف سبب اشتباه بالینی نمی‌شه؛ اما اگه همین 2.6 حاصل 16 بار سنجش باشه به درد نمی‌خوره چون دیگه 4% اختلاف خیلی زیاده و شدیداً منجر به اشتباهات بالینی می‌شه.

از قضا سرکه انگبین صفرا فزود! این همه تکرار کردیم که کار بهتر بشه، بدتر شد. اینجاس که آدم ساده‌ای مثل من هاج و واج می‌پرسه: «یعنی چی؟ مگه حد و مرز 7% واسه این نیست که اگه اختلاف جواب با مقدار واقعی کمتر از این حد باشه، موجب اشتباهات بالینی نمی‌شه؟ پس چرا 4% اختلاف با 1 بار سنجش خوبه، با 2 بار سنجش بدک نیست و با 16 بار سنجش خیلی بده؟» چون mTEa واسه 2 تکرار شده 5.6% و برای 16 بار تکرار شده 3.5%؟ خوب موضوع اینه که اساساً نباید همچین محاسبه‌ای انجام بشه.

به همین دلیل، یعنی این که هر جور که آزمایشگاه جواب رو به دست بیاره در هر حال خطای مجاز ثابته و نباید بسته به دفعات تکرار آزمایش تعدیل بشه، برنامه‌های پایش کیفیت خارجی مثل CLIA، CAP، RiliBak، UK-NEQAS (بریتانیا) و SKLM (هلند) که برنامه‌های «درستی‌-بنیان» (Accuracy-Based) هستن و نتایج آزمایشگاه رو با مقدار واقعی حاصل از روش‌های مرجع مقایسه می‌کنن، از آزمایشگاه‌ها نمی‌پرسن چند بار نمونه‌ها رو سنجش می‌کنن تا خطای مجاز رو براشون تعدیل بکنن. در حالی که به آزمایشگاه‌ها گوشزد میکنن و تأکید می‌کنن که فقط در صورتی اجازه دارن نمونه کنترل رو 2 بار یا 3 بار یا بیشتر سنجش بکنن و میانگین بگیرن که این کار رو به طور معمول برای نمونه‌های بیمارها هم انجام می‌دن، اما هرگز ادامه نمی‌دن که مثلاً «در صورت تکرار سنجش، تعداد دفعات تکرار رو گزارش بکنین که خطای مجاز برای آزمایشگاه شما تعدیل بشه».

تو مثال بالا از منظر درستی/نادرستی یه تک-جواب به موضوع نگاه کردیم؛ اما همونطور که پیشتر تکرار شد، توی «مدل خطای کل» روی درستی/نادرستی عملکرد تمرکز می‌شه نه تک-جواب‌ها. به عنوان مثال، اگه یه روش سنجش گلوکز داشته باشیم با Bias برابر 2% و CV برابر 6.5%، خطای سنجشی کل می‌شه 15% که با معیار CLIA از TEa برابر با 10% بزرگتره و این عملکرد قابل قبول نیست. برای بهبود عملکرد، دستگاه رو خوب کالیبر می‌کنیم و Bias رو کاملاً حذف می‌کنیم و در نتیجه TAE می‌شه 13% که هنوز هم از TEa بزرگتره. بنا بر این، تصمیم می‌گیریم نمونه‌ها رو 3 بار تکرار کنیم و میانگین بگیریم. با این ترفند، CV از 6.5% به 3.8% کم می‌شه و در نتیجه TAE ما می‌شه 7.6%. حالا می‌تونیم بیشتر از 95% جواب درست تولید بکنیم و عملکردمون قابل قبوله.

خلاصه این که با تحمل زحمت و هزینه 3 بار سنجش موفق شدیم از پس تولید حداقل 95% جواب درست بربیائیم. حالا هیچ دلیلی نداره به ما بگن «چون 3 بار سنجش میکنین، TEa واسه شما تعدیل می‌شه و می‌شه 7.2% و چون خطای کل شما شده 7.6% پس عملکرد شما قابل قبول نیست». معلومه که اعتراض می‌کنیم و می‌گیم «شما گفتین اگه حداقل 95% جواب‌هامون درست باشه عملکرد ما خوبه، چون پزشک می‌تونه نسبت به هر جواب گلوکزی که ما گزارش می‌کنیم حداقل 95% مطمئن باشه که اون جواب درسته. خطای کل ما نشون می‌ده که ما بیشتر از 95% جواب درست تولید می‌کنیم؛ به چه دلیل اگه 1 بار سنجش کار می‌کردیم، پزشک می‌تونست حداقل 95% به درستی جواب‌های ما اطمینان بکنه، اما حالا که با 3 بار سنجش (یا هر چند بار دیگه) کار می‌کنیم پزشک نمی‌تونه حداقل 95% به درستی جواب‌ها اطمینان بکنه؟»

شکل زیر چکیده بحث بالا رو نشون می‌ده. از دو روش 1 و 2 برای آزمایشی با خطای کل مجاز 10% استفاده شده. CV هر دو روش برابره با 6%، عدم صحت روش شماره 1 صفره، اما عدم صحت روش شماره برابره با 3%. با این داده‌ها، خطای سنجشی کل به ترتیب می‌شه 12% و 15%؛ که برای هر دو روش غیر قابل قبوله. خ‌س‌ک برای روش اول فقط با 2 تکرار می‌رسه به حد مجاز 10% اما برای روش دوم، 3 تکرار لازمه تا به 10% برسه.

با تکرارهای بیشتر، خ‌س‌ک هر دو روش به سرعت از 10% کمتر می‌شه؛ یعنی با ثابت در نظر گرفتن خطای کل مجاز (لوزی- خط بنفش تو شکل زیر)، افزایش تکرار سبب می‌شه TAE به اندازه کافی از TEa کمتر بشه و فضای بیشتری برای پ‌ک باقی بمونه. فضای بیشتر برای پ‌ک، به این معنی‌یه که می‌تونیم کیفیت کارمون رو با معیارهای ساده‌تر و با هزینه و زحمت کمتری پایش بکنیم.

اما اگه قرار باشه به دلیل تکرار سنجش، خطای کل مجاز رو هم با فرمول mTEa کم بکنیم و از mTEa برای قضاوت در باره کیفیت سنجش استفاده بکنیم (مربع-خط قرمز)، TAE روش دوم حتا با 20 تکرار هم از mTEa بالاتر می‌مونه و بنا بر این کیفیت اون غیر قابل قبول به حساب می‌آد. TAE روش اول با 3 تکرار می‌ره زیر mTEa اما حتا تا 20 تکرار هم فاصله چندانی از mTEa نمی‌گیره و فضای چندانی برای پ‌ک ایجاد نمی‌شه. نداشتن فضای کافی برای پ‌ک به این معنی‌یه که برای پایش کیفیت باید از معیارهای چند-قانونی سخت استفاده کرد و هزینه و زحمت بیشتری رو متحمل شد.

این موضوع که خطای مجاز ثابته و بسته به عملکرد آزمایشگاه تعدیل نمی‌شه فقط مختص مدل خطای کل نیست، بلکه توی جاهایی هم که به عوض خطای کل مجاز، از CV مجاز و Bias مجاز به طور جداگانه استفاده می‌شه موضوع همینطوره. I(%) و B(%) (CV مجاز و Bias مجاز) رو به آزمایشگاه‌ها اعلام می‌کنن و می‌گن حواستون باشه CV و Bias روش شما از این مقادیر مجاز بیشتر نشه؛ فقط همین! دیگه کاری ندارن شما با چه ترفندی CV و Bias رو می‌برید زیر مزر مجاز تا به اصطلاح مرز مجاز رو براتون تعدیل بکنن.

یه کم توضیح در باره نوسان بیولوژیک. به نظر می‌آد توی وضعیت سلامتی، غلظت مواد داخل مایعات بیولوژیک مثل خون و ادرار و غیره، اطراف یه «نقطه تنظیم» (Set-point) نوسان می‌کنه. به این نوسان می‌گیم «CV درون- فردی» (Intra-individual CV; CV_I). علاوه بر این، نقطه تنظیم همه افراد سالم یکسان نیست و افراد مختلف، نقطه- تنظیم‌های مختلف دارن. به پراکندگی نقطه‌- تنظیم‌ها بین افراد می‌گیم «CV گروه» (Group CV; CV_G). برای تعیین CVهای بیولوژیک، بسته به ماده مورد نظر، از تعدادی آدم سالم چند بار در زمان‌های مختلف نمونه می‌گیرن و میانگین و CV هر فرد رو تعیین می‌کنن. از CVهای افراد، میانگین می‌گیرن که می‌شه CV_I و از میانگین‌های افراد (که نماینده نقطه- تنظیم‌های افراده)، CV می‌گیرن که می‌شه CV_G.

استدلال پشت CV مجاز بیولوژیک، اینه که وقتی برای پیگیری تغییر در وضعیت یه بیمار، دو تا جواب متوالی‌ رو با هم مقایسه می‌کنیم، CV آزمایشگاه باید اینقدر بزرگ نباشه که نتونیم با اطمینان، تفاوت دو تا نتیجه رو بذاریم به حساب تغییر در وضعیت بیمار و شک کنیم «نکنه این اختلاف بین دو تا نتیجه به خاطر بزرگ بودن CV آزمایشگاه باشه». پراکندگی نتایج متوالی یه بیمار، در حالی که وضعیت بیمار پایداره و نقطه- تنظیم ثابته، ناشی می‌شه از CV درون-فردی (CV_I) و CV سنجش. با این استدلال، پیشنهاد کردن برای این که CV سنجش خیلی به پراکندگی نتایج اضافه نکنه، مقدار CV سنجش حداکثر نصف CV درون- فردی باشه:

I(%) = 0.5 * CV_I

I(%) رو به آزمایشگاه‌ها اعلام می‌کنن و می‌گن CVتون از این بیشتر نباشه؛ فقط همین. هیچ وقت به آزمایشگاه‌ها مثلاً نمی‌گن «این CVهای مجاز واسه وقتی‌یه که نمونه‌ها رو 1 بار آزمایش می‌کنین؛ اگه بیشتر از 1 بار سنجش کردین و میانگین گرفتین، باید CV مجاز رو در 1/√n ضرب بکنین تا تعدیل بشه».

مثلاً اگه I(%) برای یه آزمایش 3% باشه معنیش اینه که تا وقتی که CV آزمایشگاه کمتر از 3% باشه می‌شه با اطمینان جواب‌های متوالی بیمار رو با هم مقایسه کرد. حالا اگه CV یه آزمایشگاه بیشتر از 5% بود و اون آزمایشگاه همه تلاشش رو کرد (شامل تعمیر دستگاه، حذف نوسانات برق، آموزش کاربر،…) و نتونست CV رو از 4% کمتر بکنه، ممکنه به عنوان یکی از آخرین ترفند‌ها تصمیم بگیره نمونه‌ها رو بیشتر از 1 بار سنجش بکنه تا CVش از 4% هم کمتر بشه بره زیر 3%. مثلاً اگه نمونه‌ها رو 2 بار سنجش بکنه، CVش از 4% می‌شه 2.8% و قابل قبول می‌شه. اگه CV یه آزمایشگاه دیگه 5% باشه و راه دیگه‌ای غیر از سنجش تکراری واسه کم کردن CV نداشته باشه، باید نمونه‌ها رو حداقل 3 بار تکرار بکنه تا CV بشه 2.9% و قابل قبول بشه.

کاملاً معلومه که فارغ از این که CV آزمایشگاه به چه شکلی کمتر از CV مجاز شده، بدون تکرار، 2 بار تکرار، 3 بار تکرار، یا بیشتر، در هر حال تا وقتی که آزمایشگاه بتونه با CV کمتر از 3% کار بکنه می‌شه با اطمینان نتایج متوالی بیمار رو با هم مقایسه کرد. اگه بنا باشه آزمایشگاه با سنجش تکراری نمونه‌ها، زحمت و هزینه بیشتری رو متحمل بشه که CV رو پایین بیاره، اما بعد به اون بگیم «خوب، حالا باید I(%) رو هم بسته به دفعات تکرار با استفاده از ضریب 1/√n تعدیل بکنی»، عملاً زحمت آزمایشگاه رو دود کردیم.

اگه در مورد مثال‌های بالا این کار رو بکنیم؛ با 2 بار تکرار، CV آزمایشگاه از 4% می‌شه 2.8% اما I(%) هم کم می‌شه و به عوض 3% می‌شه 2.1%؛ و با 3 بار تکرار، CV آزمایشگاه از 5% می‌شه 2.3% اما I(%) هم تعدیل می‌شه و به عوض 3% می‌شه‌‌ 1.7%. اگه همچین تعدیلی رو پیشنهاد بکنیم، آزمایشگاه حق داره بگه «شما گفتین اگه CV زیر 3% باشه مشکلی واسه مقایسه نتایج متوالی بیمار پیش نمی‌آد.

من هم از راه تکرار سنجش، CV رو بردم زیر 3%؛ به چه دلیل اگه با 1 بار سنجش جواب می‌دادم، CV کمتر از 3% واسه مقایسه نتایج متوالی خوب بود اما با جواب حاصل از بیشتر از 1 بار سنجش، CV کمتر از 3% دیگه کافی نیست و باید CV مجاز تعدیل بشه؟ آخه CV مجاز که اون طرف داستان بر اساس نیاز بالین تعیین شده و ربطی به دفعات تکرار من نداره».

استدلال پشت تعیین Bias مجاز بیولوژیک، اینه که آزمایشگاه‌ها هر کدوم به صورت فردی واسه آزمایش‌ها «محدوده مرجع» (Reference Range) (به اصطلاح رایج «رنج نرمال») تعیین نکنن، بلکه یه «آزمایشگاه مرجع» با استفاده از روش مرجع، این کار رو بکنه و بقیه آزمایشگاه‌ها (به اصطلاح «آزمایشگاه‌های پیرامون») اون محدود‌ه مرجع رو تو گزارش جواب‌هاشون استفاده بکنن. موقع تعیین محدوده مرجع، بعد از نمونه‌گیری از یه تعداد آدم سالم (افراد مرجع)، اندازه‌گیری نمونه‌ها و تعیین نتایج؛ از نتایج میانگین و انحراف معیار می‌گیرن و بازه‌ای رو که 95% از نتایج میانی توی اون قرار داره، به عنوان محدوده مرجع گزارش می‌کنن.

با این حساب، محدوده‌های مرجع طوری تعیین می‌شن که در هر طرف، 2.5% از نتایج آدم‌های سالم می‌افته بیرون و به اصطلاح از هر طرف 2.5% «مثبت کاذب» داریم. اگه روش آزمایشگاه پیرامون نسبت به روش آزمایشگاه مرجع Bias داشته باشه، اون وقت توی طرفی که Bias هست بیشتر از 2.5% مثبت کاذب ایجاد می‌شه؛ هر چی Bias بزرگتر، مثبت کاذب تو طرف Bias بیشتر (شکل زیر).

پیشنهاد شده Bias آزمایشگاه پیرامون حداکثر اینقدر باشه که درصد مثبت کاذب توی طرف Bias از 4.6% بزرگتر نشه. چون پراکندگی نتایجی که آزمایشگاه مرجع از نمونه‌های افراد مرجع به دست میاره به منابع نوسان بیولوژیک، یعنی CV_I و CV_G، بستگی داره، Bias مجاز B(%) رو از روی CV_I و CV_G تعیین کردن:

B(%) = 0.25 x ( CV_I² + CV_G²)^0.5

در مورد B(%) هم فقط به آزمایشگاه‌ها می‌گن حواستون باشه عدم صحت‌تون از این بیشتر نشه و دیگه کاری ندارن آزمایشگاه با چه ترفندی عدم صحتش رو می‌بره زیر درصد مجاز تا بر اساس اون B(%) رو تعدیل بکنن. به هر شکلی که آزمایشگاه بتونه Bias رو برسونه زیر B(%)، پزشک‌ها می‌تونن با خیال راحت نتایج اون آزمایشگاه رو با محدوده‌ها مرجعی که از طرف یه مرکز مرجع تعیین شده مقایسه بکنن بدون این که تصمیم‌های بالینی اشتباه واسه بیمارهاشون بگیرن.

نقش تکرار سنجش در عدم قطعیت

باز هم بدون وارد شدن تو جزئیات؛ عدم قطعیت اندازه‌گیری (Measurement Uncertainty, MU) بازه‌ای رو تعیین می‌کنه که با یه احتمال معین، مقدار واقعی توی اون بازه قرار ‌می‌گیره. مثلاً اندازه یه کوچه 200 متر با عدم قطعیت 95% برابر 2% گزارش شده، این یعنی به احتمال 95% طول واقعی کوچه یه مقداری‌یه بین 2%±200 متر (196 تا 204 متر) و فقط 5% احتمال داره که طول واقعی کوچه کمتر از 196 متر یا بیشتر از 204 متر باشه. حالا اگه یه مهندس عمران بخواد مصالح و هزینه‌های لازم واسه سنگفرش کردن اون کوچه رو حساب بکنه، نباید حساب کتابش برای دقیقاً 200 متر باشه، بلکه باید عدم قطعیت اندازه‌گیری رو هم در نظر بگیره. هر چی عدم قطعیت اندازه‌گیری‌ها کوچیکتر باشه، خیال کاربری که از نتایج استفاده می‌کنه راحت‌تره و با اطمینان بیشتری تصمیم‌گیری می‌کنه.

بر عکس، هر چی عدم قطعیت بزرگتر باشه، اطمینان به نتایج کمتر می‌شه و با شک و تردید بیشتری از اون نتایج استفاده می‌شه؛ مثلاً اگه توی این مثال گفته بودن عدم قطعیت با احتمال 95% برابره با 20%، اون وقت اون مهندس عمران باید در نظر می‌گرفت که با احتمال 95% طول واقعی کوچه بین 160 متر و 240 متره (و البته 5% هم احتمال داره که از 160 متر کمتر یا از 240 متر بیشتر باشه). حالا اگه بخواد واسه سنگفرش اون کوچه حساب کتاب بکنه، باید به قول عمرانی‌ها «تولرانس» زیادی رو در نظر بگیره؛ شاید اینقدر زیاد که از تولرانس مهندس بیشتر بشه و از خیر جواب‌های اون شرکت اندازه‌گیری/ آزمایشگاه بگذره و کوچه/ مریض رو بفرسته یه شرکت/ آزمایشگاه دیگه (به طور کلی، یه «اندازه‌گیری‌کده» دیگه).

داستان عدم قطعیت توی آزمایشگاه‌ هم همینطوره. اگه یه جواب گلوکز رو mg/dL 110 گزارش بکنیم با عدم قطعیت 20% با احتمال 95%، این گزارش می‌گه غلظت واقعی گلوکز به احتمال 95% یه مقدار‌ی‌یه بین 88 تا 132؛ یعنی جواب واقعی ممکنه توی محدوده طبیعی باشه (کمتر از 100)، توی محدوده بینابینی باشه (100 تا 125)، یا توی محدوده دیابتی باشه (بیشتر از 125). اگه این رو به یه پزشک بگیم، مسلماً نمی‌تونه با خیال راحت در باره بیمار تصمیم بگیره؛ چه تشخیصی بذاره: گلوکز این بیمار طبیعی‌یه؟ بینابینی‌یه؟ یا بیمار دیابت داره؟ اما اگه عدم قطعیت برابر 2% باشه، غلظت واقعی گلوکز به احتمال 95% یه مقداری‌یه بین 108 تا 112 و پزشک با خیال خیلی راحت‌تری تصمیم‌گیری بالینی می‌کنه.

حتا اگه پزشک بیشتر از 95% اطمینان بخواد، عدم قطعیت برای احتمال 99.7% برابره با 3% و این یعنی 99.7% مطمئن باش که غلظت واقعی گلوکز یه مقداریه بین 107 تا 113 و فقط 0.3% احتمال داره که مقدار واقعی کمتر از 107 یا بیشتر از 113 باشه.

عدم قطعیت سنجش‌های آزمایشگاهی به سه عامل بستگی داره: انحراف معیار سنجش (SD)، عدم قطعیت کالیبراتور (u_cal) و عدم قطعیت Bias (u_Bias)؛

u = √(SD² + u_cal² + u_Bias²)

به این u می‌گیم عدم قطعیت معیار (Standard Uncertainty) (یه نکته کوچیک: به u می‌گیم عدم قطعیت معیار چون در واقع «انحراف معیار» کلی‌ حاصل از این سه تا عامله). اگه نتیجه رو با R نشون می‌دیم، با داشتن u می‌تونیم بگیم که مقدار واقعی با اطمینان 68% یه جایی‌یه تو بازه R ± u (یه یادآوری کوچیک: توی توزیع گوسی، 68% از سطح وسط منحنی می‌افته تو فاصله X̄ ± 1SD). چون اطمینان 68% نسبتاً کمه، u رو دو برابر می‌کنیم، به اون می‌گیم «عدم قطعیت بسط یافته» (Expanded Uncertainty) و با نشانه U نشون می‌دیم. با داشتن U، می‌تونیم بگیم مقدار واقعی با اطمینان 95% یه جاییه توی فاصله R ± U. اگه اجزای طرف راست فرمول u رو به صورت درصدی از نتیجه بنویسیم، عدم قطعیت به صورت درصد ، u%، حساب می‌شه:

%u= √(CV² + %u_cal² + %u_Bias²)

%U = 2 x %u

هر کدوم از سه عامل مؤثر در عدم قطعیت که بزرگ باشه، عدم قطعیت نتایج ما بزرگ می‌شه و جواب ما رو غیر قابل اطمینان می‌کنه. اگه به خاطر CV بالای سنجش، عدم قطعیت ما بزرگ باشه و کار تصمیم‌گیری بالینی رو خراب بکنه، یه راه چاره اینه که با سنجش تکراری نمونه‌ها، CV رو کم بکنیم و در نتیجه عدم قطعیت کوچکتری داشته باشیم. به عنوان مثالی از تأثیر تکرار سنجش روی کاهش عدم قطعیت، از همون مثال ذکر شده تو صفحه 57 کتاب استفاده می‌کنم: یه جواب کراتینین داریم برابر mg/dL 2.6 که حاصل از سه وضعیت مختلفه: 1 بار سنجش، 2 بار سنجش و 16 بار سنجش.

فرض می‌کنیم CV این روش برابره با 10%، %u_cal برابره با 1% و %u_Bias هم برابره با 1%. عدم قطعیت بسط یافته (U) برای این سه وضعیت به ترتیب می‌شه: 20.2%، 14.5% و 5.7%. همونطور که می‌بینیم وقتی برای به دست آوردن جواب، نمونه رو 16 بار اندازه‌ تکرار می‌کنیم، عدم قطعیت ما به مقدار زیادی کم می‌شه (که البته انتظار هم همینه) و بنا بر این اطمینان‌پذیری جواب خیلی بالا می‌ره. با این عدم قطعیت‌ها، در مورد این که غلظت واقعی کراتینین چقدره، می‌شه با اطمینان 95% گفت:

اگه نتیجه 2.6 حاصل 1 بار سنجش باشه، غلظت واقعی یه مقداری‌یه بین 2.1 تا 3.1؛
اگه نتیجه 2.6 حاصل 2 بار سنجش باشه، غلظت واقعی یه مقداری‌یه بین 2.2 تا 3.0؛ و
اگه نتیجه 2.6 حاصل 16 بار سنجش باشه، غلظت واقعی یه مقداری‌یه بین 2.5 تا 2.7.

همونطور که می‌بینیم با 1 بار سنجش، جواب واقعی با اطمینان 95% ممکنه تا mg/dL 0.5 دورتر از جواب ما باشه. با 2 بار سنجش هم وضعیت خیلی بهتر نمی‌شه و جواب واقعی با اطمینان 95% ممکنه تا mg/dL 0.4 دورتر از جواب ما باشه؛ اما با 16 بار تکرار، شرایط خیلی فرق می‌کنه و جواب واقعی با اطمینان 95% ممکنه فقط mg/dL 0.1 دورتر از جواب ما باشه. اگه ما این اطلاعات رو به یه پزشک بگیم و از اون بپرسیم در کدوم حالت به جواب ما بیشتر اطمینان می‌کنه و با خیال راحت‌تری برای بیمارش تصمیم می‌گیره، مسلماً وضعیت سوم رو ترجیح می‌ده (حتا ممکنه از اون به بعد تو درخواست‌هاش بنویسه «کراتینین با 16 بار تکرار»!).

حالا پرسش اینه که چطور می‌شه گفت جواب حاصل از 1 بار سنجش خوبه (چون TAE اون به اندازه کافی از TEa کوچیکتره)، جواب حاصل از 2 بار سنجش هم هنوز خوبه اما نه به اندازه جواب حاصل از 1 بار سنجش (چون TAE اون خیلی از mTEa کوچیکتر نیست)، اما جواب حاصل از 16 بار سنجش اصلاً خوب نیست (چون TAE اون از mTEa بزرگتره)؟! هم همچین ادعایی نادرسته، هم هر جور فرمولی که درست بشه تا همچین چیزی رو نشون بدیم. بدون نیاز به هیچ فرمول و محاسبه‌ای، می‌شه فهمید که هر چی تکرار اندازه‌گیری بیشتر بشه کیفیت جواب بهتر می‌شه، نه بدتر.

برای برآورد کردن میانگین وزن یه جمعیت 10000 نفری، کافی نیست که فقط 1 نفر رو وزن کنیم و وزن اون رو به عنوان برآوردی از میانگین وزن جمعیت در نظر بگیریم. میانگین یه نمونه 2 نفری برآورد بهتریه و البته میانگین یه نمونه 16 نفری برآورد خیلی بهتری‌یه. هر چی CV وزن جمعیت بزرگتر باشه، باید نمونه بزرگتری داشته باشیم برای این که برآورد مطمئنی از میانگین وزن جمعیت داشته باشیم. در مورد سنجش‌های آزمایشگاهی هم همینطوره؛ هر چی CV سنجش بزرگتر باشه، تکرار سنجش باید بیشتر بشه تا برآورد مطمئنی از مقدار واقعی داشته باشیم. اگه یه فرمول درست کنیم که با اون نشون بدیم وزن 1 نفر برآورد بهتریه‌ برای میانگین جمعیت تا میانگین وزن 10 نفر و حتا این که میانگین وزن 16 نفر (یا بیشتر) برآورد غیرقابل قبولی‌یه، باید در اون فرمول که مخالف بدیهیاته تجدیدنظر بکنیم.

شکل زیر، کاهش عدم قطعیت برای یک روش با CV برابر 8%، %u_cal برابر 1% و %u_Bias برابر 1% رو در برابر افزایش تکرار نشون می‌ده.

تو شکل بعدی، عدم قطعیت‌های شکل بالا برای محاسبه بازه عدم قطعیت 95% برای یه جواب گلوکز برابر با mg/dL 120 استفاده شده. همونطور که دیده می‌شه با افزایش n، بازه عدم قطعیت باریکتر می‌شه.

این که با تکرار اندازه‌گیری‌ جواب مطمئن‌تری به دست میاریم، موضوعی نیست که به بلد بودن ریاضی و آمار و عدم قطعیت نیاز داشته باشه. افرادی هم که سر و کارشون با این جور مباحث نیست از تکرار اندازه‌گیری برای اطمینان بیشتر استفاده می‌کنن. خیلی وقت‌ها شاهد صحنه‌هایی مثل این بودیم که مثلاً یه نجار از شاگردش خواسته طول یه تخته رو اندازه بگیره. وقتی که شاگرد اندازه تخته رو گفته، نجار پرسیده «مطمئنی؟» و شاگرد گفته «آره، 2 بار اندازه گرفتم». وقتی با 2 بار اندازه گرفتن خیال یه نجار راحت می‌شه، با بیشتر اندازه گرفتن خیالش خیلی راحت‌‌تر می‌شه؛ نه این که بگه «اندازه‌ت قابل قبول نیست چون 10 بار اندازه گرفتی. اگه 1 بار اندازه زده بودی، جوابت مطمئن‌تر بود».

تکرار سنجش و نوسان بیولوژیک درون-فردی (CVI)

وقتی قراره دو تا جواب پشت سر هم رو با هم مقایسه بکنیم، فقط بزرگ بودن CV سنجش نیست که مشکل‌ساز می‌شه، بلکه اگه CV_I (CV بیولوژیک درون- فردی) هم بزرگ باشه، مشکل ایجاد می‌کنه. با اقدامات اصلاحی مختلف می‌شه CV سنجش رو کم کرد، مثل نصب پایدارساز واسه کاهش نوسان برق، نو کردن قطعات کهنه مثل سرنگ‌های مکنده، …، و دست آخر سنجش تکراری نمونه‌ها. شاید هم کلاً بی‌خیال اون دستگاه‌/ کیت‌ بشیم و اون رو با دستگاه/ کیت‌ بهتری جایگزین بکنیم. اما در مورد CV_I راه چاره چندانی نداریم؛ مثلاً امکانش نیست که واسه بیمار پایدارساز بذاریم یا روی بیمار کار اصلاحی/ تعمیری روی بیمار انجام بدیم؛ همینطور نمی‌شه (مثل عوض کردن دستگاه/ کیت) به بیمار بگیم اصلاً بی‌خیال اون آزمایش بشه و به جای اون یه آزمایش با CV_I کوچیکتر براش انجام بدیم.

تنها راه چاره‌ای که برای مشکل بزرگ بودن CV_I داریم «تکرار» کردنه. باید بیمار بیشتر از 1 بار و با فاصله زمانی آزمایش بده و پزشک بر اساس میانگین نتایج تصمیم بگیره. به همین دلیله که مثلاً در مورد آزمایش چربی‌ها، برای این که جواب آزمایش برآورد خوبی از نقطه- تنظیم باشه توصیه می‌شه بیمار طی 1 ماه، 2 بار یا 3 بار آزمایش بده و میانگین نتایج، ملاک تصمیم‌گیری پزشک باشه. مثلاً با در نظر گرفتن CV_I برابر 6% و CV سنجشی برابر 2% برای کلسترول، اگه از بیمار فقط 1 بار نمونه بگیریم و نتیجه بشه mg/dL 220، نقطه- تنظیم کلسترول بیمار با احتمال 95% یه جایی‌یه بین 194 و 246 (فاصله 12% اطراف میانگین) و اگه 2 بار نمونه بگیریم و میانگین نتایج بشه 220، نقطه- تنظیم کلسترول به احتمال 95% یه جایی‌یه بین 202 و 238 (فاصله 8% اطراف میانگین).

اگه دفعات نمونه‌گیری از 2 بار هم بیشتر بشه، بازه‌ای که نقطه- تنظیم داخلش قرار می‌گیره باریک‌تر می‌شه؛ مثلاً اگه 16 بار از بیمار نمونه بگیریم و از نتایج میانگین بگیریم، نقطه- تنظیم این بیمار با احتمال 95% یه جایی‌یه بین 213 و 227 (فاصله 3% پیرامون میانگین). همونطور که می‌بینیم، هر چی دفعات تکرار نمونه‌گیری رو بیشتر می‌کنیم (مثل تکرار سنجش یه نمونه)، بیشتر می‌تونیم به نتایج اطمینان بکنیم و این یعنی کیفیت جواب بهتر می‌شه، نه بدتر. مطمئناً در این مورد هم نمی‌شه بگیم هر چی دفعات نمونه‌گیری بیشتر بشه، کیفیت جواب پائین‌تر می‌آد چون خطای مجاز تعدیل شده‌ش کوچکتر می‌شه.

تأثیر تکرار سنجش بر عیار سیگما و پایش کیفیت

همونطور که می‌دونیم عیار سیگما (Sigma Metric; SM) کیفیت تولید رو نشون می‌ده و از فرمول زیر حساب می‌شه:

SM = (TEa – |B|)/SD

یا

SM = (%TEa – |%B|)/CV

هر چی عیار سیگما بالاتر باشه، درصد محصول ناقص کمتره؛ در مورد آزمایشگاه، هر چی عیار سیگما بزرگترباشه، جواب‌های نادرست ما کمتره. مثلاً با عیار سیگمای 2، حدود 5% از جواب‌های ما می‌افته بیرون از محدوده‌ مجاز، (نکته: عیار سیگما هم، مثل خطای سنجشی کل، روی کیفیت »عملکرد« تمرکز داره، نه روی کیفیت تک-جواب ها. در واقع، عیار سیگما با دادن اطلاعات در باره نسبت نتایج نادرست، معیاری فراهم میکنه که بدونیم به درست بودن هر تک-جواب چقدر میشه اطمینان داشت). اما با عیار سیگمای 6 فقط 2 تا از 1 میلیارد جواب می‌افته بیرون از محدوده‌ مجاز. همونطور که توی فرمول عیار سیگما می‌بینیم، CV تو مخرج فرموله و بنا بر این، برای یه TEa و Bias معین، هر چی CV کوچیکتر بشه به همون نسبت عیار سیگما بزرگتر می‌شه.

بنا بر این، اگه عیار سیگمامون کوچیک باشه، به عنوان یه گزینه می‌شه نمونه‌ها رو به صورت تکراری آزمایش کرد تا CV کوچیکتر بشه و به تبع اون SM بزرگتر بشه. شکل زیر عیار سیگمای دو تا روش سنجش مختلف رو برای آنالیتی با TEa برابر 9% نشون می‌ده. CV هر دو روش برابره با 5%، Bias روش شماره 1 صفره اما Bias روش شماره 2 برابره با 3%. با این مشخصات، عیار سیگمای این دو روش به ترتیب برابره با 1.8 سیگما و 1.6 سیگما. همونطور که دو تا نمودار بالایی توی شکل زیر نشون می‌ده، اگه نمونه‌ها به صورت تکراری آزمایش بشه، با زیاد شدن n، عیار سیگما با ثابت گرفتن TEa به طور قابل ملاحظه‌ای بزرگتر می‌شه.

مثلاً عیار سیگمای روش اول [SM1 (TEa)] با 5 تکرار می‌رسه به 4 سیگما و با 10 تکرار می‌رسه به نزدیک 6 سیگما. عیار سیگمای روش دوم [SM2 (TEa)] با 5 تکرار می‌رسه به 3.5 سیگما و با 10 تکرار می‌رسه تقریباً به 5 سیگما. در مقابل، اگه بنا باشه به دلیل تکرار، خطای کل مجاز رو تعدیل بکنیم و mTEa رو بذاریم توی فرمول عیار سیگما، زیاد کردن تکرار نمونه‌ها تأثیر چندانی روی بالا رفتن عیار سیگما نمی‌ذاره. مثلاً عیار سیگمای روش اول [SM1 (mTEa)] با 5 تکرار می‌رسه به 2.5 سیگما و با 10 تکرار می‌رسه به 3.5 سیگما؛ عیار سیگمای روش دوم [SM2 (mTEa)] با همین تعداد تکرار به ترتیب می‌رسه به 2 سیگما و 2.3 سیگما.

یادمون بیاد که کمترین عیار سیگمای قابل قبول برابره با 2 سیگما (چون با 2 سیگما، 5% از جواب‌های ما نادرسته؛ اگه عیار سیگما از 2 کمتر بشه، درصد جواب‌های نادرست ما از 5% بیشتر می‌شه). همینطور یادمون بیاد که هر چی عیار سیگما بزرگتر باشه، پایش کیفیت راحت‌تر می‌شه. مثلاً برای پ‌ک یه روش 6 سیگما کافی‌یه فقط یه کنترل تو هر دور بذاریم، از معیار ساده 1:3s استفاده بکنیم و (بر اساس مدل MaxE (Nuf)) برای اطمینان از این که از وقتی که مشکلی پیش می‌آد تا وقتی که برنامه پ‌ک اون رو شناسایی می‌کنه حداکثر 1 جواب اشتباه اضافی گزارش شده باشه، می‌تونیم به ازای هر 380 تا نمونه بیمار 1 نمونه کنترل بذاریم (یعنی بعد از خوندن هر 380 تا نمونه بیمار، یه بار هم نمونه کنترل رو بخونیم).

برای پ‌ک یه روش 5 سیگما، می‌شه از همون 1 کنترل و 1:3s استفاده کرد اما باید بعد از هر 50 تا نمونه بیمار یه بار کنترل رو خوند، یا این که 2 تا کنترل تو هر دور بذاریم، معیارمون همون 1:3s باشه و به ازای هر 280 تا نمونه بیمار یه بار کنترل‌ها رو بخونیم. در مقابل، برای پ‌ک یه روش 3.5 سیگما، باید 4 کنترل تو هر دور بذاریم (خوندن 2 سطح کنترل 2بار)، معیار چند-قانونی و پرزحمت 1:3s/2of3:2s/R:4s/4:1s رو به کار ببریم و به ازای هر 40 تا نمونه بیمار 2 تا کنترل رو 2 بار بخونیم (یعنی حدود 10% از کار دستگاه و معرف‌های ما واسه خوندن کنترل‌ها مصرف بشه).

پایش کیفیت یه روش 3 سیگما از این هم پرهزینه‌تره: با همون 4 تا کنترل و همون معیار چند-قانونی، باید به ازای هر 11 نمونه بیمار هر 2 کنترل‌ رو 2 بار بخونیم (یعنی تقریباً 30% از هزینه و زحمت ما صرف کنترل خوندن می‌شه).

به خاطر همینه که اگرچه روش‌های با عیار سیگمای 2 تا 3.5 سیگما «قابل قبول» به حساب میان، اما عملاً «غیر قابل کنترل» به حساب میان چون پ‌ک اون‌ها عملی و مقرون به صرفه نیست و اگه از اون‌ها استفاده کنیم باید امیدوار باشیم که اشکالی براشون پیش نیاد (ایشالا گربه‌س!) چون با برنامه‌های معمول پ‌ک، اون اشکالات به سرعت شناسایی نمی‌شن. با این اوصاف، در مورد روش 1 و 2 در مثال بالا، در صورت به کار بستن تعدیل خطای کل مجاز، حتا 10 بار تکرار هم کمکی نمی‌کنه چون کیفیت روش شماره 1 رو از 1.8 سیگما می‌رسونه به 3.5 سیگما که برای پ‌ک اون باید کلی هزینه و زحمت صرف بکنیم؛ و روش شماره 2 رو از 1.6 سیگما می‌رسونه به 2.3 سیگما که عملاً قابل پایش نیست.

چند تا نکته فرعی

گذشته از این که اساساً ایده تعدیل خطای مجاز اشتباهه و اصل موضوع اینه، اما روش به دست آوردن فرمول mTEa هم خالی از اشکال نیست و بد نیست نگاهی هم به اشکالات جنبی بندازیم.

اشکال اول اینه که نویسنده با بیان این که “اگر میزان مجاز هر یک از پارامترهای %Bias و %CV را معادل یک سوم %TEa در نظر بگیریم ” مقادیر مجاز جداگانه برای Bias و CV قائل می‌شه؛ در حالی که، همونطور که به طور کامل توضیح داده شد، همچین چیزی توی مدل خطای کل نداریم. اساساً مدل خطای کل ارائه شد که به جای صحبت از خطاهای مجاز جداگانه برای Bias و CV، خطای حاصل از این دو تا روی هم بذاریم بشه خطای سنجشی کل و مقدار مجاز برای این خطای کلی تعیین کنیم (TAE و TEa). واژه «کل» توی اسم این مدل به همین دلیله و به این موضوع اشاره داره. مثال صد هزار تومن اعتبار واسه خرید سیب و پرتقال رو یادمون بیاریم.

نمی‌شه بر اساس مدل خطای کل، به یه نفر گفت برو با این صد هزار تومن «خرید کل مجاز»، با هر ترکیبی که دوست داری سیب و پرتقال بخر و فقط حواست باشه «خرید کل» تو از صد هزار تومن بیشتر نشه و در عین حال به اون گفت «خرید مجاز سیب» اینقدره و «خرید مجاز پرتقال» اونقدر. نمی‌شه توی مدل خطای کل از خطاها مجاز جداگانه برای Bias و CV صحبت کرد. یا رومی روم یا زنگی زنگ؛ یا باید مثل بعضی کشورهای اروپایی‌ها و همینطور مثل امریکای قبل از 1976، رویکرد خطاهای جداگانه برای Bias و CV رو انتخاب کرد، یا باید مثل امریکایی‌ها و بعضی کشورهای دیگه، رویکرد خطای کل رو انتخاب کرد.

اشکال بعدی اینه که نویسنده، فرمول mTEa رو از فرمول %TAE = %Bias + 2%CV به دست می‌آره. نکته اینجاس که توی فرمول TAE، ضریب 2 یا دقیقتر بگیم 1.96 برای وقتی‌یه که Bias برابر صفر باشه. در صورتی که Bias صفر باشه، 95% از سطح میانی زیر منحنی می‌افته تو فاصله X̄ ± 2%CV. اما در صورتی که Bias داشته باشیم، باید بسته به مقدار Bias، این ضریب رو کاهش بدیم. اگه فرمول کلی رو به صورت %TAE = %Bias + Z%CV بنویسیم، هر چی Bias از صفر برگتر بشه، باید Z از 1.96 کوچیکتر بشه. مثلاً وقتی که %Bias برابر CV می‌شه باید از Z برابر با 1.65 استفاده بکنیم. بعد از این که Bias از CV بزرگتر می‌شه، سرعت کاهش Z به ازای افزایش Bias خیلی کم می‌شه تا جایی که عملاً با 1.65 خیلی فرق نمی‌کنه.

به خاطر همینه که تو منابع جدید، با فرض وجود مقداری Bias (حداقل به اندازه CV)، از Z برابر با 1.65 توی فرمول خطای سنجشی کل استفاده می‌شه. و باز به همین دلیله که برای محاسبه «خطای کل مجاز بیولوژیک» از Z برابر با 1.65توی فرمول TE(%) = B(%) + 1.65*I(%) استفاده می‌شه تا وجود Bias در نظر گرفته شده باشه. از قضا، نویسنده فرض رو بر این می‌ذاره که ” %Bias و %CV هردو معادل یک سوم %TEa” هستن. با این فرض، Bias با CV مساوی‌یه و بنا بر این، دیگه ضریب 2 مناسب نیست و باید از ضریب 1.65 استفاده بشه. با این ضریب، فرمول متفاوتی واسه mTEa به دست می‌آد:

%TAE = %Bias + 1.65*%CV

%mTEa = %Bias + 1.65*(%CV/√n)

%mTEa = 1/3*%TEa + 1.65*[(1/3*%TEa)/√n] = 1/3*%TEa + (1.65*TEa)/(3*√n)

%mTEa = 2.65*%TEa/3√n

با این فرمول، اگه تکرار در کار نباشه و نمونه‌ها فقط 1 بار سنجش بشن (n = 1):

%mTEa = 2.65*%TEa/3√1

%mTEa = ~0.88*%TEa!!!

با همچین فرمولی برای mTEa (که برای به دست آوردنش از مقدار درست برای Z استفاده شده) باید مدعی بشیم حتا بدون تکرار هم، باید خطای کل مجاز رو تعدیل کنیم (TEa رو در 0.88 ضرب بکنیم)!

نکته بعدی اینه که با شیوه‌ای که نویسنده برای رسیدن به فرمول کلی mTEa استفاده می‌کنه، نمی‌شه برای تعدیل خطای کل بیولوژیک، TE(%)، فرمول کلی به دست آورد. این نکته از این نظر جالبه که TE(%) تنها خطای کلی‌یه که از Bias مجاز و CV مجاز حساب می‌شه:

TE(%) = B(%) + 165I(%)

دلیل اینه که B(%) و I(%) هر کدوم معادل یک سوم TE(%) نیستن و بنا بر این B(%) و I(%) با هم برابر نیستن. هر آنالیت نسبت‌های خاص خودش رو داره و B(%) و I(%) برای هر آنالیت، کسر خاصی از TE(%) رو تشکیل می‌ده و بنا بر این، نمی‌شه به یه فرمول کلی mTEa برای مدل بیولوژیک رسید.

البته بازهم تأکید می‌کنم که اصل موضوع اینه که اساساً ایده تعدیل خطای مجاز اشتباهه؛ یعنی اساساً «چرایی» تعدیل خطای کل زیر سؤاله؛ و این سه نکته که گفتم اشکالاتی فرعی‌یه توی «چگونگی» به دست آورن فرمول برای این تعدیل.

کلام آخر

با توضیحاتی که ارائه شده، بر اساس بدیهیات نباید خطای مجاز رو بسته به تلاشی که برای برآورده کردن اون می‌شه، تعدیل کرد. اول باید «چرایی» یه اقدام درست باشه، بعد بشینیم واسه «چگونگی» اون فرمول درست کنیم. اگه فقط ارائه فرمول کافی باشه، مثلاً اون‌هایی که ریاضی بلدن می‌تونن واسه سرگرمی با یه سری فرمول نشون بدن که 1 با 1 مساوی نیست. البته هم اون ریاضی‌بلدها و هم آدم‌های ریاضی‌نابلد مثل من، مساوی بودن 1 با 1 رو نمی‌پذیریم و می‌دونیم یه جایی توی اون فرمول‌ها یه نکته‌ای هست که به چشم نمیاد.

علاوه بر این، اگه بنا باشه خطای کل مجاز رو تعدیل بکنیم، اون وقت دستاوردمون از تکرار سنجش نمونه‌ها چی می‌شه؟ غیر از این که خطای مجاز، بیشتر و بیشتر آب بره تا جایی که از کوتاه شدن قد خطای ما جلو بزنه و عملکرد ما غیر قابل قبول بشه؟ غیر از این که احتمال پذیرفته نشدن نتایج‌مون بیشتر بشه؟ و غیر از این که عیار سیگمای روش‌مون تغییر چندانی نکنه، طوری که یا همچنان کیفیت روش ما قابل قبول نباشه یا این که اگه به سختی قابل قبول می‌شه، اینقدر جزئی باشه که قابل پایش نباشه (و عملاً قابل استفاده نباشه)؟ با این اوصاف، منطقی‌یه بپرسیم چرا اصلاً باید اندازه‌گیری‌ها رو به شکل تکراری انجام بدیم؟ چرا بیشتر زحمت بکشیم و بیشتر هزینه کنیم و دست آخر بدهکارتر بشیم؟ خوب از اول از خیر، ببخشید از شرّ، تکرار می‌گذریم.

نتیجه این که، mTEa ایده‌ نادرستی‌یه که از پیش‌فرضی نادرست مشتق شده و استفاده از اون برای ارزیابی تک-جواب‌ها یا عملکرد، و همینطور هر کاربرد دیگه‌ای شامل استفاده از mTEa توی بررسی خطی بودن، به نتیجه‌گیری‌های اشتباه منجر می‌شه.

تشکر

از آقای محمد طالبی همکار علاقمند به مباحث پایش کیفیت، شاغل در آزمایشگاه‌های‌ بیمارستان رازی و دکتر طیبی (قائمشهر) به خاطر ویرایش این نوشته سپاسگزارم. علاوه بر این، نامبرده با مطالعه جستجوگرانه و پرسشگرانه کتاب یاد شده و طرح نکاتی از کتاب با من، این انگیزه را در من به وجود آورد که این نقد را بنویسم.

[1] Callum G. Fraser; Per Hyltoft Petersen

همه‌ی قوانین را نقض کنید – پاسخ به پرسش‌های بخش نخست (n=1)

https://www.aacc.org/cln/articles/2021/december/total-allowable-error-tea-how-much-error-can-your-laboratory-allow

برای دانلود فایل pdf بر روی لینک زیر کلیک کنید

برای دانلود باید وارد سایت شوید.

خواندن تمام مطلب

پاسخی قرار دهید

1 دیدگاه

مهرنوش داودی گفته است 3 سال قبل

بسم الله با سلام ، سوال بنده اینه که وقتی ما یک سیستم را مثلا اندازه گیری یک پارامتر را از لحاظ دقت وصحت یا درستی ویا میزان نزدیکی به مقدار درست اون اندازه میگیریم از وسایل وروشها وشرایطی باید استفاده کنیم حالا اگر بخواهیم ببینیم که کدام روش با کدام شرایط و با کدام دستگاه بهترین ودرسترین جواب را به ماخواهد داد برای جستن آن هیچ راهی بجز تکرار هم شرایط وهم متغیر برای اینکه نتایج قابل قیاس باهم باشند نداریم و از انجا که ما درکنترول کیفیت بدست آوردن مقدار درست را نه بلکه درواقع بدست اوردن اینکه چقدر خطا داریم مد نظر داریم پس درسته که بپرسیم وقتی ما فقط یکبار هرتست را انجام میدهیم درشرایط عادی باید توقع چه امکان یا احتمالی از بدست اوردن خطا را داشته باشیم که صد البته این یکبار با ان بیست بار هرگز یک رتبه را نخواهد داشت اما آن چندین بار تنها ارزشش اینه که به ما میگه چقدر خطا واقعا وجود داره که مکررا تکرار میشه ومسلما از یک حدی با وجود هرچقدر تکرار نمیتونه به صفر برسه ودر محدوده اندازه گیری های ما که قابل انجام هست تا حدی مشخص فقط میتونه کوچکتر وکوچکتر کنیم احتمال اینکه سنجش خطا یا یافتن مقدار خطاهامون را با آن دقت تا جای ممکن به حداقل تقلیل دهیم که بتواتیم بگوییم این روش نزدیک به حدود ۱۰۰ درصد یا ۹۹/۵درصد همین قدر خطا دارد حالا اگر ما بخواهیم این خطا را از این هم کمتر کنیم مث مثالی که زده اید دستگاهی از نوع اولی به تعداد دوتای دیگه اصافه گنیم که نه اتفاقی بلکه صد درصد راه حل مسیله اون انبار میوه هست چرا که این پارامتر برودت را میخواهیم با دستگاههای همسان در شرایط قبلی به کمتر تبدیل کنیم و این هیچ منافاتی با این مطلب ندارد که ما با دستگاههای دارای همان میزان خطای تولید برودت نتوانیم چنین کنیم و این فرض هم در اساس محال است. اما وقتی ما میخواهیم توانایی یک سیستم از انها را فقط از نظر مقدار خطایش بررسی کنیم مسلما با روشهای اندازه گیری وکنترول کیفیت فقط میتوانیم به پایش مقدار مجموع خطاهای موجود در عمل اون در شرایط رفته دست پیدا کنیم واینکه چند دستگاه را باهم بکار ببریم دیگه از همسانی شرایط درپایش خارج شده ایم ومسلمه که باید برای ان یک شرایط وخطای دیگر وسطح خطای دیگری مطرح کنیم چون درواقع ما فقط داریم مقدار خطا را درشرایط قبل یا فعلی میسنجیم واینکه بخواهیم با مقدار مجاز وآنچه که میخواهیم برسیم چگونه پس شرایط دیگری را خلق کنیم بله برای آن شرایط هم باید بتوانیم موارد دیگری از بهتر شدن مناسب ان خرج اصافه راهم لحاظ کنیم مثلا زودتر این برودت زیر ده درجه حاصل میشه واینکه بیشتر وپایدارتر باقی میمانه و اینکه در اتی به علت کمتر نیاز داشتن به صرف کار وبرق برای نگاهداری درجه دما مسلما راندمان بهتری هم خواهیم داشت شاید وجهه دیگر تعدیل شده هم همین است افزایش تعداد دستگاه ها اولا از سر مرز ایستادن در دمای ده درجه ما را رهانیده از اینکه ترموستات چقدر باید کار کنه وایا همیشه باید کارکنه مارا رهانیده واز اینکه این دودستگاه بعدی هرکدام چه مدت روشن خواهند شد وچه مدت خاموش میمانند تا دما در این درجه حفظ بماند مسلما به کاهش خطای پس محاسبه خطای تعدیل شده مجاز قابل قبول هم باید برسد .البته وصد البته ماهیت ونوع پارامتر اندازه گیری شده و… هم در نوع برخورد با هر مسئله یا مثالی دخیل هست البته نمیدونم که من کامل ودرست متوجه شدم مفاهیمی که شما پرسیدید واقای دکترطرح کرده اندرا یا خیر؟

پاسخ