Circulation:高影响因子期刊上刊出的那些非劣效性试验
近来造出版的非劣效性试验之前日渐多,然而,这些深入研究的机器学习质量如何,我们还知之甚少。昨日,《Circulation》杂志造出版了一项深入研究,以全身性行业为例,对较高受到影响生物体学术期刊上造出版的非劣效性试验之前的特征、机器学习质量等顺利进行了探讨。深入研究具体了1990-2016年造出版在JAMA、Lancet和NEJM上的非劣效性试验之前。两位实质上评审员分离出来了文档。追捧的文档属性都有非劣效性界值,哪些深入研究的结果达致了非劣效性,哪些试验之前不存在有不太可能受到影响非劣效性推断结果的主要或次要主因。主要的机器学习或许主因都有:不会同时示范ITT归纳(意向性归纳)和PP归纳(完全符合深入研究提议归纳)的结果,α>0.05,原先外科手术伎俩未有与最佳外科手术提议顺利进行比较,不会确实非劣效性界值的合理性,配置文件排除人口数或失访率≥10%。次要主因都有次优盲法,有否分组偷盗等。深入研究结果深入研究职员在PubMed上顺利进行解析,共解析到2,544篇评论,其之前110篇(都有111项试验之前)完全符合入选常规(表1)。表1 入选的非劣效试验之前的整体深入研究特征深入研究造出版的长达从1992年到2016年。这些试验之前之前,样本量之前位数为3,006(IQR:1,021-6,068)。可筛选到非劣效性的效能(power)之前位数为86%(IQR:80%-90%)。可进入主要三站归纳的患儿之前位数为2,707(IQR:1,021-5,966)。9项深入研究(8.1%)提早告一段落(4项深入研究由于可靠度问题,3项由于入组慢,1项深入研究推断造出无益两处,1项深入研究由于完整性受损)。非劣效性界值60项(54.0%)试验之前的非劣效性界值是基于ARD(绝对不太可能会相似之两处,absolute risk difference)不得不的,50项(45.0%)试验之前基于相较相似之两处(29项基于HR,14项基于RR,7项试验之前基于OR)。1项试验之前的界值基于相较相似之两处但不会作进一步细分,1项试验之前不会调查结果非劣效性界值。各项试验之前的非劣效性界值相似之两处很大(ARD在0.4%~25%,HR在1.05~2.85,RR在1.1~1.8,OR在1.1~2.0)。在造出版过深入研究原先设计/深入研究提议具体机器学习评论的试验之前之前,深入研究职员推断造出有7篇试验之前的深入研究原先设计/提议与之后造出版的学术著作间不存在相似之两处或有文档遗漏。有的在之后造出版的评论之前更加改了非劣效性界值,有的则缺少如何选择非劣效性界值具体的外或全部细节。主要三站的结果111项试验之前之前,有2项试验之前,无法指标置信区间。在109项完全符合常规的试验之前之前,86项(78.9%)的试验之前标示造出兼具非劣效性(其之前20项试验之前的结果也标示造出造出优效性);23项(21.1%)试验之前未有达致非劣效性(16项深入研究的结果不具体,7项深入研究标示造出打压措施的结尾更加差)(平面图1)。 平面图1 不属于深入研究的主要三站的结果在95项(85.6%)试验之前之前,主要三站归纳是基于ITT归纳或校正ITT归纳,11项(9.9%)试验之前使用PP归纳,5项(4.5%)使用其他或未有定义的归纳型式。绝大多数(90%)试验之前在简介之前适当地调查结果了深入研究结果,即是非劣效,优效或劣效性,深入研究如果不会达致,则表明未有达致非劣效性。但是,还有一些试验之前,要么是简介给造出的文档和深入研究结果间不存在相似之两处,要么是简介获取的文档不足以。机器学习和调查结果的或许表2和平面图2标示造出了不存在主要和次要或许主因的试验之前的比例。70项试验之前(63.1%)通过对另一个配置文件人群的二次归纳(例如,如果首次归纳是ITT归纳,则日后做一次PP归纳)来示范主要深入研究三站,其之前66项试验之前的结果相一致,而4项试验之前的两次归纳结果不相一致。 表2. 不属于的深入研究之前有否不存在不太可能造成了偏倚的主因平面图2 不存在主要和次要或许主因的试验之前常见于情况下68项试验之前(61.3%)获取了如何具体非劣效性界值,而43项试验之前(38.7%)不会。110项(99.0%)试验之前的双侧α≤0.05,其之前44项试验之前的双侧α≤0.025。随即归纳(post-hoc ysis)推断造出,与医疗器械试验之前相比,药品试验之前的α总体更加更加较高(Wilcoxon秩和筛选P = 0.02)。在27项深入研究之前(24.3%),有> 10%的参与者提早退造出,都有随访失访,提早停止打压或其他情况下(表2)。 总体而言,基于所有主要的偏倚主因,27项试验之前(24.3%)被相信兼具更加较高偏倚不太可能会。97项(87.3%)试验之前的标题或简介之前调查结果了非劣效性原先设计。67项(60.4%)试验之前,除了之后的深入研究学术著作,还实时造出版了深入研究原先设计或深入研究提议的机器学习评论。在这67项试验之前之前,8项(11.9%)试验之前的非劣效性界值在之后投稿学术著作与提议间不存在相似之两处或在其之前一篇评论之前未有谈及。大多数试验之前(n = 60,54%)是开放字句试验之前,12项试验之前(10.8%)为单盲,39项(35.1%)为双盲。100项试验之前顺利进行了分组偷盗(90%)。91项试验之前(82%)对主要三站顺利进行了盲法判定。总之,基于所有的次要偏倚主因,25项试验之前(22.5%)兼具更加较高偏倚不太可能会(平面图2)。根据所有主要和次要主因,有7项试验之前(6.3%)兼具更加较高偏倚不太可能会。随即归纳未有标示造出造出三种学术期刊的评论在主要主因(Kruskal-Wallis筛选P = 0.28)或次要主因(Kruskal-Wallis筛选P = 0.11)上的相似之两处。然而,对非劣效性试验之前的深入研究原先设计或深入研究提议的可获得性顺利进行指标,在三种学术期刊之前,NEJM造出版的试验之前之前,有74.2%造出版过具体的机器学习评论或有在线的深入研究提议,JAMA为53.3%,Lancet为33.3%(Fisher正确地筛选P = 0.001)。小时趋势近来,这些学术期刊上造出版的全身性非劣效性试验之前太大增加(P人口为120人0.001 for trend,平面图3)。一项随即归纳标示造出,在111项不属于的试验之前之前,造出版小时在2010年后的有52项(46.8%)。2010年之后发布的试验之前,不存在机器学习或深入研究计划或许的不太可能会太大降更加较高(2010年之前 vs 2010年之后,主要偏倚主因和次要主因的P = 0.03和0.002)。提问全身性行业之前的非劣效性试验之前日渐多地造出版在较高受到影响力的学术期刊上,这些试验之前之前非劣效性试验之前主要用于对原先打压措施的筛选。并且大多数是大型多之前心深入研究。鉴于许多非劣效性试验之前已成为同意原先疗法的基本,很有必需对他们顺利进行深入研究。尽管大多数试验之前声称原先外科手术伎俩相比对照组的非劣效性,但很多深入研究不存在兼具偏倚不太可能会的机器学习或深入研究计划或许,有不太可能削弱其论点的正确地性。有必需降低对这些或许主因的了解,更加好遵从FDA和CONSORT须知关于非劣效性试验之前原先设计、制定和调查结果的建议。原始造出两处:Behnood Bikdeli, et al. Non-Inferiority Designed Cardiovascular Trials in Highest-Impact Journals: Main Findings, Methodological Quality and Time Trends. Circulation. Jun 2019.