我最近幾年最喜歡的論文之一包含了這個圖表。 它顯示了控制三種不同類型變數的影響:混淆變數、碰撞變數和中介變數。 對於混淆變數,控制是有益的。對於其他變數,通過控制會破壞你的結果。
如果你有帶有測量誤差的變數,你可能會遇到另一個問題變數:代理變數。 代理變數可能會使所有這些扭曲變得更糟,並且更難處理。
這篇論文提出了一個簡單的觀察:統計控制需要因果證明。這實際上就是標題。 他們給出了幾個基於DAG的例子。考慮這個:教育娛樂是混淆變數還是中介變數?你應該控制它,還是這會使你的估計產生偏差?
這始終是你必須考慮的事情,但坦白說,從因果關係的角度來思考統計控制是非常例外的。 許多論文會做一些事情,比如控制不相關的下游變量(代理變量),或者他們無意中控制了中介變量。這是常態!
我的文章討論了許多有關控制使用和濫用的問題。 例如,它指出,為了使傾向評分與實驗相匹配,可能需要大量的數據和努力:
它指出,某一特定的發現可能並不意味著它所說的那樣:
這顯示即使是因果推斷的黃金標準——隨機對照試驗(RCT)——也需要正確執行,否則你將陷入一種情況,讓你的效應估計被膨脹,結論也會錯誤。
55.86K