
RDD 利用阈值规则(如考试分数≥60 才通过、排污强度≥K 纳入监管)来识别因果效应。
核心思路:阈值附近、几乎相同的个体在处理状态上仅因阈值规则而不同 → 局部随机。
识别对象:局部平均处理效应(LATE),仅在断点邻域内有效。
两类设计
Sharp RDD:阈值严格决定处理(Di=1[ri≥c])。
Fuzzy RDD:阈值只提高被处理概率(不完全遵从)→ 用阈值作工具变量。
运行变量(forcing/score):ri;断点:c;处理:Di;结果:Yi。
Sharp RDD:
τSRD=r↓climE[Y∣r]−r↑climE[Y∣r]
Fuzzy RDD(局部 Wald 比率):
τFRD=limr↓cE[D∣r]−limr↑cE[D∣r]limr↓cE[Y∣r]−limr↑cE[Y∣r]
解释口径(答辩):我们关注阈值附近“几乎相同”的样本;在该邻域内,处理被视作近似随机分配。
局部线性回归(Local Linear):RD 标配,边界表现更稳健。
核函数:**三角核(Triangular)**是主流,权重随距断点增大而线性衰减。
多项式阶数:1 阶(线性)为默认;2 阶仅作稳健性。避免全样本高阶多项式(易过拟合)。
可视化:分箱散点 + 两侧拟合线(相同带宽、相同阶数)。
MSE-Optimal 带宽:常用 Imbens–Kalyanaraman (IK)、CCT(Calonico–Cattaneo–Titiunik)。
推断:使用 Robust Bias-Corrected (RBC) 置信区间(CCT)→ 有偏情形下更可靠。
实践建议:报告主带宽 + ±50% 灵敏度分析;展示不同带宽、不同核函数的稳健性。
5.1 McCrary 密度检验(Manipulation)
检查断点处运行变量密度是否“跳变”;若显著 → 可能有人为操控 → 识别受威胁。
5.2 协变量平衡(Covariate Balance)
检验断点两侧在协变量均值上是否连续,无“结构性跳跃”。
5.3 Donut RDD(挖掉近邻)
去掉断点附近一小段(如 ±1 分),降低“刻意卡线”的影响。
5.4 假阈值/安慰剂检验(Placebo Cutoffs)
在不存在政策的“伪阈值”处重复估计,应当不显著。
5.5 多阈值 / 双断点
若规则存在上下双阈值或多级门槛,需分别估计并讨论外推风险。
第一阶段:Di=α+π⋅1[ri≥c]+f(ri−c)+ui
第二阶段:Yi=β+τ⋅D^i+g(ri−c)+εi
其中f(⋅),g(⋅) 为两侧的局部多项式(通常线性)。聚类或稳健标准误按断点邻域的独立单元设置。
RD Plot:等宽分箱(或等量分箱)散点 + 两侧局部线性拟合线;标注样本量与带宽。
主结果表:报告估计量、RBC 标准误/CI、带宽、核函数、阶数。
稳健性表:带宽±50%、核函数更换、协变量控制、有/无加权、donut 版本、placebo 阈值。
文字:强调“局部效应”“非外推”,在讨论处说明政策含义与适用范围。
* 安装(若未安装)
* ssc install rdrobust, replace
* ssc install rddensity, replace
* Sharp RDD 主估计(RBC CI,三角核,自动带宽)
rdrobust y r, c(0) kernel(triangular)
* Fuzzy RDD:指定 z 为截断工具(常为 r>=0)
gen z = r>=0
rdrobust y r, c(0) fuzzy(z)
* McCrary 密度检验
rddensity r, c(0)
rddensity r, c(0) plot
* 协变量平衡(以 x1 为例)
rdrobust x1 r, c(0)
* 作图(散点 + 局部线性)
rdplot y r, c(0) binselect(esmv) kernel(triangular) ci(95)

import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
# r: 运行变量;c=0;y: 结果
df = df.dropna(subset=["y","r"]).copy()
h = np.percentile(np.abs(df["r"]), 30) # 简单带宽示例(请用 CCT/IK 方法替换)
sub = df[np.abs(df["r"])<=h].copy()
sub["treat"] = (sub["r"]>=0).astype(int)
sub["rc"] = sub["r"] # 左右各一条线的思路:与 treat 交互
X = np.c_[sub["treat"], sub["rc"], sub["treat"]*sub["rc"]]
m = LinearRegression().fit(X, sub["y"])
# 处理效应近似=截距在断点左右的差(更严谨应用 rdrobust 式加权与偏误校正)

注:正式论文请使用偏误校正与稳健标准误的成熟实现(如 rdrobust 家族、或社区实现的 CCT 推断)
用全样本高阶多项式 → 容易外推与过拟合;应做局部估计、核加权。
只报点估计不报带宽与核函数 → 不可复现;需写明设定并做灵敏度。
忽略操控可能(不做 McCrary) → 识别假设站不住。
协变量不连续 → 说明断点两侧人群不一致;需换题或谨慎解读。
把 RDD 当全局因果 → 仅对阈值邻域有效,注意政策解读的边界。
为何选 RDD:存在明确阈值规则,阈值附近个体可视作局部随机。
带宽怎么定:主文用 CCT MSE-optimal 带宽 + RBC 置信区间,并做 ±50% 稳健性。
识别是否可信:通过 McCrary、协变量平衡、donut、placebo 阈值等多检。
效应外推吗:仅在断点邻域有效;政策含义限于临界人群。
选题—识别—数据—回归—稳健性—写作—引用 全流程梳理,产出:1 页任务单 + 方法复现路径 + 图表与排版规范清单
提交后,我们将在 24 小时内回邮(包含题目、数据源、软件栈、DDL 等)。
严格按照学校要求完成,从审阅资料到论文代写交稿严格把关,100%原创论文,TurnitinUK查重检测,E-convier向您做无抄袭担保!
论文导师24小时待命,严格审核订单时间,100%确保在约定时限前交付,专业的客服体系,保证随叫随到,保证及时修改
E-convier超过1800名英语母语professional writers,其中95%是英国本地导师,并具有Maste或者PhD以上学位
E-convier为了保护您的个人信息和论文安全,所有资料全部通过银行级SSL256数据加密,永远做到让您高枕无忧
E-convier论文代写,2008年创办,10年知名品牌!
论文定制只需三步——随时随地管理您的订单!