为什么药代数据里总出现“低于检测限”,其实挺让人头疼的。当研究进行到最后阶段,样本浓度很容易就跌到仪器的最低检测限以下。FDA发布的指南有明确规定,这类数值绝对不能混进统计表里。要是按未检出等于零来算,会严重低估真实浓度;可要是直接写零,又像是在伪造数据。所以,怎么给这些看不见的数值一个合理的说法,成了统计师、临床药师还有监管机构都在挠头的难题。 通常有三种处理方法摆在大家面前。第一种是最简单粗暴的,直接把低于LOQ的数据当成零来算。虽然省事,可这么做就像是直接把尾巴全砍了,数据的均值会被人为抬高。如果样本量本身就不多,曲线尾巴那边可能直接就变成了一条直线,这会干扰半衰期的估算。特别是缓释、控释这类对时间要求特别高的药,半衰期一旦算错,整个释放曲线就全乱套了。 第二种办法是完全剔除这些数据点。看起来很干脆利落,等于主动把一部分真实信息给扔了。特别是在吸收相后期,可能有几个个体真的是低值出现,如果全都不接纳进去,就可能把个体差异给掩盖住了,反而高估了组与组之间的相似度。 第三种处理方式虽然费时费力但最接近真实情况。当浓度只是稍微低于LOQ、信噪比还可以的时候,用标准曲线外推法给个区间估计值就比较合适。虽然带了误差条不像一个确定的数字那么直观,但这比写零或者ND更能反映实际的浓度范围。 从监管的角度看,不报告才是最大的风险所在。FDA最新发布的指南反复强调关键观测值必须都得写进报告里,哪怕它们就是“低于检测限”。不写进去意味着你处理缺失值的逻辑没法验证了,万一将来被审评员挑刺儿,只能靠自己想办法圆谎。把原始数据、处理理由还有统计模型全都亮出来,才是抵挡风险的最有效办法。 有个例子也能说明问题,全球药典之前规定无菌检查培养七天,后来改成十四天是为什么?因为数据分析发现延长培养时间能多发现一些“延迟长菌”的批次。要是当时没保留住原始延长的数据,规则到现在还是七天,那药害的风险就一直会跟着走。 北京的一次定量药理会议上,孙瑞元教授给了个经验之谈:当浓度还能辨认出来但低于LOQ的时候,标清楚来源和误差范围再放进模型里去,这对刻画曲线形状的帮助比简单归零或者剔除大得多。说白了就是透明比完美更重要;让审评员看到你怎么处理缺失值的依据,比硬塞进去一个看起来很完美的数据集更让人信服。 总而言之,“低于检测限”不等于零也不等于能随便删改;只要信噪比允许的话,优先用标准曲线外推法给个区间估计就挺好;所有处理的事儿都得在报告里一项一项说明白理由、附上原始记录和统计模型;还得保留探索性的数据资料给以后的研究留条后路——这才是科学进步的唯一路子。