随机对照试验

也可用于: 西班牙语
同义词:
随机对照试验、临床试验、随机对照试验、随机影响评价

随机对照试验(随机对照试验),或随机化的效果评价,是一种类型的影响评价其使用为限制偏压,并产生一个内部有效影响估计的装置随机访问社会方案。

一项随机对照试验将接受治疗(或服务或药片)的患者随机分为治疗组和未接受治疗的对照组。然后比较两组的结果;这个比较给了我们这个程序的影响。随机对照试验并不一定需要“无治疗”的对照——随机对照可以很容易地用于比较同一项目的不同版本,或试图解决同一问题的不同项目。

通过这种方式,控制模拟了反事实。反事实定义为,如果该计划没有实施,同一个人在同一时间会发生什么。从定义上讲,它是不可能观察到的——它是另一个宇宙!rct通过创建一个可以模仿它的组来工作。

很多时候,评估会比较与接受该计划的组有很大不同的组。例如:如果我们比较接受小额信贷的妇女和不接受小额信贷的妇女的结果,可能是选择不接受小额信贷的妇女在影响结果的重要方面有所不同。例如,不接受小额信贷的妇女可能动力不足,或对金融产品的认识不足。

使用随机化的方法的装置,一个目标人口首先由程序实施者确定,然后程序访问被该群体内随机化。

可以在集群级别(如村庄、学校或诊所)进行随机分组,而不是对个体进行随机分组。这些被称为群集随机对照试验。

在比个体更大的水平上进行随机化有两个主要原因。首先,它可以解决污染问题:接受治疗的个体混合和聊天,并可能与对照组的个体“分享”治疗。这将“污染”我们的影响,我们的对照组将不再是一个好的比较对象。在村庄一级进行随机化可以最大限度地降低发生这种情况的风险。第二,我们可能想要在实际实施的干预水平上进行随机化:例如,为学校提供电气化的干预。在学生中随机分配电力供应在逻辑上是不切实际的——如果不是不可能的话。

当在集群水平进行随机化时,随机化的单位是我们随机展开程序的单位;即集群(在上面的例子中,是一个学校)。分析的单位,被定义为我们收集数据和比较结果的单位,通常是个体的——例如,单个学生的考试成绩。当我们计算所需的样本量时,这种区别将变得很重要。除其他外,样本大小受聚类内相关性(ICC)的影响,ICC是指聚类内个体的相似或不同程度。ICC将确定每个集群有多少个人,以及需要抽样的集群有多少。

简单例子

考虑这个假设的例子:一个非政府组织,解锁iPhone和iPad 4所有(I4A),计划在发展中国家分发的iPad到低收入家庭的孩子。I4A要评估的是一个iPad对孩子的教育,健康和未来收入水平的影响。这可能是因为他们永远不会有足够的iPad,以覆盖所有的孩子说“活该”之一。取而代之的临时发布到谁表示有兴趣,或在附近,或者谁的政府决定为“最需要的”,一个RCT将其随机访问的孩子。

如果他们在个人层面进行随机选择,他们会把所有符合条件的孩子的名字放在一个碗里,或者在电脑上列出一份名单,然后进行抽奖。一些孩子会得到一个iPad。一些不会。如果他们在学校层面随机分配,他们会为学校命名,一些学校会收到ipad。在阶段性/流水线设计中,如果研究发现iPad有效且资金可用,最初没有收到iPad的个人或学校将排队接受iPad。

除了这个简化的例子,RCT方法可以适应各种各样的环境。

与所有人类受试者研究一样,随机对照试验要接受严格的伦理审查,以确保在研究过程中没有人类受试者受到伤害。

RCT的步骤

  1. 一个可选的前奏是需求评估,它可以提供关于环境及其约束的信息。例如:需求评估可以告诉我们在拉贾斯坦邦农村有多少儿童接受了全面免疫课程。它可以引导我们指定一个假设或关键评估问题。
  2. 一种程序理论(或者,一个逻辑模型)。这个计划理论描述了计划,揭示了其影响的途径,并阐明了所有可能阻碍计划成功的风险和假设。在这个阶段,考虑每一步都可以收集的指标也是有用的。
  3. 对整个目标样本进行基线调查。收集有关指标的数据。
  4. 样本被随机分成不同的组。随机化可以用Excel或Stata这样的软件来完成。为了确保随机化“成功”,检查它们在基线指标和可能重要的背景变量方面是否相等:它们在统计上应该是相同的——也就是说,相同的平均收入、相同的平均健康水平,等等。
  5. 该计划或干预是在治疗组实施的。
  6. 在项目期间,强烈建议监控项目的实施情况。这一数据有三个优点。首先,它成为一种监督,有利于实施组织的运作和效率。第二,它提供了中间指标,使评估人员能够打开影响的“黑匣子”(并遵循变化理论)。换句话说,这些中间指标让我们能够回答为什么一个项目会产生这样的效果。第三,也是最重要的一点,有必要监测治疗组是否充分实施了干预,而对照组是否受到污染(通过其他方式接受干预)。
  7. 在计划实施后,根据评估的具体情况(例如,有些指标反应迅速,有些指标反应缓慢),有一个终点或后续调查。理想情况下,该调查将与基线调查共享许多问题和特征。
  8. 然后比较治疗组和对照组的结果,得出影响估计。将结果报告给执行伙伴。

例子

该RCT方法非常灵活,适应各种环境和行业。它可以在教育,卫生,环境中使用,等等。随着一点点想象力,随机可适应多种不同的情况。约束和随机对照试验什么不能做将在下面讨论。现在,这里是一个什么样的RCT可以做例子很短的画廊。

简单(一次治疗,一次对照)

在印度大型小额贷款机构Spandana的Abdul Latif Jameel贫困行动实验室(J-PAL)进行的一项小额贷款研究中,确定了印度海得拉巴的104个低收入社区,这些社区是开设分行的潜在地点。在开设分支机构之前,我们随机选择了52个社区在2005年开设了分支机构——这就成为了治疗组。剩下的52个社区仍然保持“控制”(在接下来的几年里获得了一间办公室)。在治疗地区引入小额信贷15-18个月后,对住户进行了访谈。

视图的例子

多种治疗/因子

RCT可以调查彼此的多种治疗或对照彼此的多种治疗和对照组。

在印度比哈尔邦和拉贾斯坦邦进行的一项研究,研究了几种解决儿童读写能力低下的方法。一项干预措施侧重于为母亲提供扫盲班,假设受教育程度更高的母亲在帮助家里的孩子方面会更有效。第二项干预措施是向母亲提供关于家庭活动的指导,这可以丰富她们的孩子在家里的学习环境。第三种干预结合了这两种方法:母亲接受母亲扫盲班和家庭活动指南。而对照组则没有接受这些服务。

视图的例子

旋转

印度的一个补习辅导项目使用了旋转设计。旋转设计指的是这样一种情况,对于两组,一组是治疗组,一组是控制组——然后,这些角色互换,先前治疗的变成控制,先前的控制变成治疗。在实践中,非政府组织Pratham在孟买确定了77所学校,在瓦多达拉确定了124所。普拉塔姆的干预是一个辅导老师(被称为“balsakhi”,或“孩子的朋友”),他会与15-20名成绩落后的学生见面。

随机化是“旋转”的,在那里,2001年,一半的学校收到了第3年级的导师,另一半获得了4级获得的一半。2002年,学校收到了以前未经处理的等级的导师。通过这种方式,可以通过将3年级学生在获得第3级导师的学校学校的学校中比较学校的3年级学生来确定治疗的影响。

视图的例子

阶段/管道

驱虫世界

通常,预算限制禁止全面卷取程序。因此,通过简单地选择首先选择,可以通过彩票来利用随机影响评估来利用这些交错的推广。

J-PAL的驱虫研究采用随机分阶段。在1998年至2001年的三年间,非政府组织“非洲国际儿童支持组织”在肯尼亚西部的75所学校开展了大规模驱虫工作。这75所学校被抽奖,其中1998年25所,1999年25所,2001年25所接受驱虫。就这样,在1998年,50所未驱虫学校作为25所驱虫学校的对照组。

视图的例子

鼓励

在许多情况下,拒绝向控制组提供服务在政治上、道德上或行政上都是站不住脚的。在某些情况下,可以使用鼓励设计–随机选择的个人将收到促销脚本或广告,提醒他们注意这项已经提供的服务。在这些情况下,对照组的个人仍然可以使用相同的服务,但是他们不会收到相同的使用提醒。出于同样的原因,治疗人员仍然可以拒绝服务(就像大多数干预措施一样)。

J-PAL在摩洛哥丹吉乐的一项研究与当地公用事业公司Amendis合作,后者已经在分发饮用水(尽管使用率不到100%)。该项目提供了一笔无息补贴贷款,用于安装供水系统。修正案规定,所有符合条件的家庭都可以获得这笔贷款;然而,在评估过程中,这些家庭中随机有一部分接受了挨家挨户的宣传活动,并在填写申请表方面提供了帮助。这种推广是“鼓励”,促使选定的家庭(治疗)比那些没有得到推广(控制)的家庭更经常地签署贷款。通过这种方式,研究人员能够确定新的修正供水系统对家庭的影响。

最后,由于“鼓励”(即治疗)组的接水率高于非鼓励(即对照)组,因此可以对这两组进行比较。由于鼓励是随机分配的,结果的任何差异都可能归因于水连接的使用率的差异。

视图的例子

气泡内随机化

有时随机化可以在合格性的“气泡”中发生。例如,J-PAL在南非的一项研究与一家匿名小额贷款贷款人合作,确定了被该机构认为“可能有信用”的787名被拒绝的贷款申请人。(根据银行的正常申请流程,申请人要么被自动批准,要么被拒绝。)在787份样本中,也就是所谓的“泡沫”中,随机挑选的一组被拒绝的申请者被指定由贷款机构的财务主管“再看一遍”。这些官员没有被要求批准这些个人的贷款,但他们被鼓励这样做。(因此,我们可以看到,在本例中,“接受”与批准贷款申请的财务主管有关。)

视图的例子

根据任务和选项映射方法

随机对照试验与其他影响评价方法共享一些相同的任务和选择。例如,根据定义,它们必须指定主要评估问题.这些问题可能是:驱虫药会增加上学人数吗?它们也会带来教育成果的改善吗?获得小额信贷是否会带来更大的商业投资?铁强化盐是降低农村人口贫血率的有效途径吗?

此外,数据收集和数据分析是随机对照试验方法的组成部分。深刻的理解样本是必不可少的:谁是目标人群?是选择有代表性人口较多的样本?下面的程序访问随机化,是治疗组和对照组沿着重要的指标可比性?有关深深思考指标同样重要的是:例如,如何衡量女性赋权?认知能力?金融知识吗?如何收集这些指标的数据?

最后,鉴于建立因果关系的重要性,有必要强调对照组作为反应性

关于选择这种方法的建议

重要的是要记住,尽管随机对照试验在某些情况下可能是衡量影响的严格方法,但它们只是更广泛的评估工具的一部分。也就是说,它们可以成为任何方法组合的有用补充,但它们不可能回答所有问题。在本节中,我们将描述一些约束,这些约束会阻止评估者选择RCT方法。

绑定约束:样本大小

对任何定量影响评价(不仅仅是随机对照试验)的主要限制之一是样品量。在随机对照试验中,我们关注的是两个方面的样本量:分析单位和随机单位。分析单位和随机单位在确定统计显著性和统计功率方面是不可分割的。

统计显著性是指我们观察到的结果不是纯粹基于偶然的概率。传统的文献认为显著性水平在90%以上-最好是95% -就足够了。这意味着,5%或10%的情况下,我们观察到的结果是偶然的。

相反,统计能力指的是当存在影响时检测到影响的概率。反之,当影响发生时,我们错过影响的可能性有多大(从而产生“假阴性”)?许多因素决定统计功效:样本量、最小可检测效应量(即测试必须有多敏感)、结果变量的潜在方差、治疗和控制中的比例,以及——如果是集群RCT——集群内相关性。按照惯例,80%的功率是足够的。

有一种观点认为,对于低水平的权力,最好不要进行影响评估——否则就会浪费资源,而这些资源本可以更好地用于其他地方(例如,进行良好的过程评估)。

绑定约束:回顾性vs.前瞻性

根据设计,随机对照试验无法确定现有项目的影响,即已经启动但没有偶然提供服务的项目的影响。(事实上,大多数项目并不是随机发放的——值得注意的例外是墨西哥的进步党和印度第73条修正案对妇女和种姓少数群体的保留。)鉴于随机化发生在实施时刻,而且随机化是随机对照试验方法的组成部分,它们只能事先计划,而不能事后计划。因此,对于现有的项目,随机对照试验只能适用于以下两种情况:将项目推广到新的领域,对项目进行补充(如新产品)。

使用这种方法时建议

有一些甚至是设计最好的RCT的执行过程中可能出现的问题。这是很重要的,那么,要作好心理准备,包括计划,以减轻或控制各种风险。

接受率

占用率有时会低于预期,这可能会对您的效果大小(以及随后的统计能力)产生影响。值得注意的是,利用率和功率之间的关系是指数级的:效应量下降50%将需要样本量增加四倍才能达到同样的功率。

出于这个原因,明智的做法是充分预测——如果有的话,也要低估——该计划的接受率。选择一个保守的,甚至悲观的估计,这可能会奖励你更高的权力。

不符合

可以损害RCT估计的另一个问题是计划参与者的不合规。也就是说,虽然可以将个体分配给治疗或控制,但很少需要或控制这些作业。考虑一项小额信贷计划,在随机选择的“治疗”社区中打开分支,并在“控制”社区中不这样做。生活在后者的个人可能只是沿着“治疗”社区的旅程,以便在小额信贷分公司开设账户。在这种情况下,控制组不再用作真正的反事实。

因此,如果个体能够自行选择分组,那么不服从就会威胁到随机化的完整性。虽然不遵从性永远无法完全消除,但它可以被最小化。一种方法是选择一个足够大的随机单位,使两组不太可能混合。例如,在小额信贷的例子中,如果“治疗”和“控制”的社区也相距相当远,我们可能会认为不遵守的情况仍然很低。

然而,请注意,当控制组的个体接受该计划,而治疗组的个体不接受时,这类似于鼓励设计。

摩擦

当样本的某些部分不再可用于后续操作时(例如,因为它们已移动),就会发生磨损。如果磨损是由治疗组和对照组的统计差异造成的,我们称之为“差异磨损”。这可能特别令人担忧,因为它基本上不随机化您的样本,因为人们从一组或另一组中进行自我选择。值得注意的是,尽管磨损率看起来可能相同,但如果人们离开治疗组或对照组的原因与治疗有关,则仍可能发生差异磨损。

在小额信贷例子中,如果治疗社区中的一些家庭获得贷款,长大的家庭,可能会出现微分磨损,并使业务变得足够富裕,以便离开附近 - 从我们的样本中离开。如果是这种情况,我们将无法在我们的分析中包含它们,因此我们的剩余“治疗组”看起来比它应该有点差(因为所有富人的家庭都搬走了!)。因此,与家庭跟进,特别是在差动磨损的情况下非常重要。

当来自治疗组或对照组的磨擦因与治疗无关的原因发生时,就会发生无差异磨擦:人们可能会离开、死亡或以其他方式退出我们的样本,这与他们是否在治疗组或对照组无关。在这种情况下,我们只会担心非差异磨损是否会侵蚀我们的样本量,从而导致统计学意义或权力问题突然出现。

进行基线调查

理论上,如果随机化已成功实施,则终点调查足以确定内部有效的影响估计。然而,基线调查除了提供随机化产生了平衡的治疗组和对照组的经验保证外,还提供了一个额外的好处,即增加了力量。一般来说,更频繁的数据收集(如基线、中线和终点线)可以在较小的样本量下为我们提供相同的能力。此外,基线结果允许我们测量异质效应(即亚组分析),当组由可能随时间变化的变量定义时。例如,它允许我们测量教育创新对基线考试成绩较差的儿童亚组的考试成绩影响。如果没有基线,我们将无法确定这些儿童是谁。

比较多种治疗方法

如果我们想要检测一个程序的两种变体之间的差异,那么我们需要更强大的功能——因此,需要更大的样本量。如果我们只是想比较有程序和没有程序,那么更小的功能(因此样本量相对更小)就足够了。

资源

向导

Duflo,E.,Glennerster,R.,&Kremer,M。(2007)。在发展经济学研究中使用随机化:工具包。《发展经济学手册》,43895-3962。

课程

阿卜杜勒·拉提夫·贾米尔贫困行动实验室(J-PAL)提供一周的时间高管教育课程在全世界和全年。本课程探讨影响评估,重点关注何时以及如何使用随机影响评估。该课程的免费存档版本可以在麻省理工学院的开放式课程网上找到。

常见问题解答

1.RCT在评估中是一种新方法吗?

2.如果随机化不能产生相等的组,你应该怎么做?

特别感谢本页的贡献者
评论家
CEO,BetterEvaluation。
墨尔本。

评论

匿名的照片
Stephen ICKAMATH

我打算实现RCT评估,以评估预防发育不良儿童年龄组中6至23个月之间的影响。这RCT将负责营养恢复和治疗的医疗中心举行。所有的孩子将接受治疗,我计划建立3组儿童的:第1组:儿童高风险落入到发育迟缓类别或谁是发育不良的痛苦;第2组:儿童谁是低风险落入到发育迟缓类别,我称他们在危险的儿童坠入发育迟缓;第3组:孩子谁是幸福,服用治疗只是为了防止发育迟缓。本次评估的目的是衡量预防治疗发育不良的影响。

你有文档,你可以和我一起分享准备的本次评测的参考和protocole一个方面?任何文件或建议将很好理解。

问候

添加新评论

登录登录并评论作为betteRevaluation成员或只是填写下面的字段。