断点回归 RDD:Sharp vs Fuzzy、带宽选择与稳健性

断点回归 RDD:Sharp vs Fuzzy、带宽选择与稳健性

regression-discontinuity-design.jpg


1)RDD 是什么?什么时候用?

RDD 利用阈值规则(如考试分数≥60 才通过、排污强度≥K 纳入监管)来识别因果效应。

核心思路:阈值附近、几乎相同的个体在处理状态上仅因阈值规则而不同 → 局部随机。

识别对象:局部平均处理效应(LATE),仅在断点邻域内有效。

两类设计

  • Sharp RDD:阈值严格决定处理(Di=1[ric]D_i=1[r_i\ge c]Di=1[ri≥c])。

  • Fuzzy RDD:阈值只提高被处理概率(不完全遵从)→ 用阈值作工具变量


2)基本设定与公式

运行变量(forcing/score):rir_iri;断点:ccc;处理:DiD_iDi;结果:YiY_iYi。

Sharp RDD:
τSRD=r↓climE[Y∣r]−r↑climE[Y∣r]

Fuzzy RDD(局部 Wald 比率):
τFRD=limr↓cE[D∣r]−limr↑cE[D∣r]limr↓cE[Y∣r]−limr↑cE[Y∣r]

解释口径(答辩):我们关注阈值附近“几乎相同”的样本;在该邻域内,处理被视作近似随机分配。



3)估计策略:局部线性、核函数与多项式

局部线性回归(Local Linear):RD 标配,边界表现更稳健。

核函数:**三角核(Triangular)**是主流,权重随距断点增大而线性衰减。

多项式阶数:1 阶(线性)为默认;2 阶仅作稳健性。避免全样本高阶多项式(易过拟合)。

可视化:分箱散点 + 两侧拟合线(相同带宽、相同阶数)。



4)带宽选择(Bandwidth)与不确定性

MSE-Optimal 带宽:常用 Imbens–Kalyanaraman (IK)、CCT(Calonico–Cattaneo–Titiunik)。

推断:使用 Robust Bias-Corrected (RBC) 置信区间(CCT)→ 有偏情形下更可靠。

实践建议:报告主带宽 + ±50% 灵敏度分析;展示不同带宽、不同核函数的稳健性。



5)识别有效性与稳健性清单

5.1 McCrary 密度检验(Manipulation)

检查断点处运行变量密度是否“跳变”;若显著 → 可能有人为操控 → 识别受威胁。

5.2 协变量平衡(Covariate Balance)

检验断点两侧在协变量均值上是否连续,无“结构性跳跃”。

5.3 Donut RDD(挖掉近邻)

去掉断点附近一小段(如 ±1 分),降低“刻意卡线”的影响。

5.4 假阈值/安慰剂检验(Placebo Cutoffs)

在不存在政策的“伪阈值”处重复估计,应当不显著。

5.5 多阈值 / 双断点

若规则存在上下双阈值或多级门槛,需分别估计并讨论外推风险。



6)Fuzzy RDD 的 2SLS 实施

  • 第一阶段:Di=α+π1[ric]+f(ric)+uiD_i = \alpha + \pi \cdot 1[r_i\ge c] + f(r_i-c)+u_iDi=α+π⋅1[ri≥c]+f(ri−c)+ui

  • 第二阶段:Yi=β+τD^i+g(ric)+εiY_i = \beta + \tau \cdot \hat D_i + g(r_i-c)+\varepsilon_iYi=β+τ⋅D^i+g(ri−c)+εi

  • 其中f(),g()f(\cdot), g(\cdot)f(⋅),g(⋅) 为两侧的局部多项式(通常线性)。聚类稳健标准误按断点邻域的独立单元设置。


7)作图与报告(论文规范)

RD Plot:等宽分箱(或等量分箱)散点 + 两侧局部线性拟合线;标注样本量与带宽。

主结果表:报告估计量、RBC 标准误/CI、带宽、核函数、阶数。

稳健性表:带宽±50%、核函数更换、协变量控制、有/无加权、donut 版本、placebo 阈值。

文字:强调“局部效应”“非外推”,在讨论处说明政策含义与适用范围。



8)Stata / Python 代码速用

8.1 Stata(rdrobust / rddensity)

* 安装(若未安装)

* ssc install rdrobust, replace

* ssc install rddensity, replace

* Sharp RDD 主估计(RBC CI,三角核,自动带宽)

rdrobust y r, c(0) kernel(triangular)

* Fuzzy RDD:指定 z 为截断工具(常为 r>=0)

gen z = r>=0

rdrobust y r, c(0) fuzzy(z)

* McCrary 密度检验

rddensity r, c(0)

rddensity r, c(0) plot

* 协变量平衡(以 x1 为例)

rdrobust x1 r, c(0)

* 作图(散点 + 局部线性)

rdplot y r, c(0) binselect(esmv) kernel(triangular) ci(95)


Stata(rdrobust / rddensity)

8.2 Python(econml/rdd/rdrobust风格实现思路)

import pandas as pd

import numpy as np

from sklearn.linear_model import LinearRegression

# r: 运行变量;c=0;y: 结果

df = df.dropna(subset=["y","r"]).copy()

h = np.percentile(np.abs(df["r"]), 30)   # 简单带宽示例(请用 CCT/IK 方法替换)

sub = df[np.abs(df["r"])<=h].copy()

sub["treat"] = (sub["r"]>=0).astype(int)

sub["rc"] = sub["r"]          # 左右各一条线的思路:与 treat 交互

X = np.c_[sub["treat"], sub["rc"], sub["treat"]*sub["rc"]]

m = LinearRegression().fit(X, sub["y"])

# 处理效应近似=截距在断点左右的差(更严谨应用 rdrobust 式加权与偏误校正)

Python(econml/rdd/rdrobust风格实现思路)

注:正式论文请使用偏误校正与稳健标准误的成熟实现(如 rdrobust 家族、或社区实现的 CCT 推断)



9)常见坑位与避雷

用全样本高阶多项式 → 容易外推与过拟合;应做局部估计、核加权。

只报点估计不报带宽与核函数 → 不可复现;需写明设定并做灵敏度。

忽略操控可能(不做 McCrary) → 识别假设站不住。

协变量不连续 → 说明断点两侧人群不一致;需换题或谨慎解读。

把 RDD 当全局因果 → 仅对阈值邻域有效,注意政策解读的边界。



10)写作与答辩话术(可直接套用)

为何选 RDD:存在明确阈值规则,阈值附近个体可视作局部随机。

带宽怎么定:主文用 CCT MSE-optimal 带宽 + RBC 置信区间,并做 ±50% 稳健性。

识别是否可信:通过 McCrary、协变量平衡、donut、placebo 阈值等多检。

效应外推吗:仅在断点邻域有效;政策含义限于临界人群。


 

金融学 Finance 论文方法与论文代写服务


选题—识别—数据—回归—稳健性—写作—引用 全流程梳理,产出:1 页任务单 + 方法复现路径 + 图表与排版规范清单

提交后,我们将在 24 小时内回邮(包含题目、数据源、软件栈、DDL 等)。




我们的服务

100%原创无抄袭

严格按照学校要求完成,从审阅资料到论文代写交稿严格把关,100%原创论文,TurnitinUK查重检测,E-convier向您做无抄袭担保!

100%准时交稿(7X24小时客服)

论文导师24小时待命,严格审核订单时间,100%确保在约定时限前交付,专业的客服体系,保证随叫随到,保证及时修改

100%本地导师

E-convier超过1800名英语母语professional writers,其中95%是英国本地导师,并具有Maste或者PhD以上学位

SSL个人信息加密系统

E-convier为了保护您的个人信息和论文安全,所有资料全部通过银行级SSL256数据加密,永远做到让您高枕无忧

E-convier论文代写,2008年创办,10年知名品牌!

论文定制只需三步——随时随地管理您的订单!