关于巴拉克•奥巴马(Barack Obama)成功的地方以及成功的原因,专家之间一直存在着一些争论。为了弄清楚发生了什么,我决定实际查看数据。 (我的权威卡很快将被吊销。)
一个问题是,鉴于候选人随时间的变化,如何在各州之间进行比较。我使用的方法是通过查看奥巴马在希拉里·克林顿(Hillary Clinton)的总投票中所占的比例来关注奥巴马的表现,其中(a)试图适应约翰·爱德华兹(John Edwards)的离职,(b)包含更多信息而不是简单的赢/输帐(我还从下面的分析中排除了伊利诺伊州,纽约州和阿肯色州的原州以及佛罗里达州和密歇根州基本上没有争议的州。)
当您关注奥巴马在两位候选人的投票中所占的比例时,令人震惊的是,他在这么多的获胜中如何获得巨大的利润,但是他的损失几乎都相对狭窄:
奥巴马赢得了两个候选人的选票超过60%的9个州和超过70%的选票赢得了三个州,但是他一次只获得了两个候选人的不到40%的选票。
第一个问题是奥巴马是否表现出色。答案是肯定的:
同样权重的状态下,他在预选赛中平均获得了两个候选人的因果关系的66%,而在初选中只有51%。为什么?凯文·德鲁姆(Kevin Drum)的读者 建议 以下解释似乎是合理的,尽管数据不能真正在它们之间进行仲裁:
高加索人需要组织,而奥巴马则组织得更好。他们需要热情,他有更多的热情支持者。他们需要时间,而他的受众群体有更多的空闲时间。他们大多在小州,而奥巴马则针对小州。他们由激进主义者主导,激进主义者倾向于支持奥巴马。
另一个问题是,奥巴马的表现如何根据有关州的种族组成而变化。尽管我担心 白色支撑可能的天花板,奥巴马在黑人人口众多的州和白人“红色州”的严重州(例如 马修·伊格莱西亚斯(Matthew Yglesias) 和其他评论者都注意到)。数据表明,此模式(以下使用二次拟合法绘制)似乎在迄今为止的所有主变量和因果集中都成立了:
我已经看到有人在解释这种模式,这是因为存在种族威胁。根据这个故事,在绝大多数白人州,奥巴马的种族并不是问题,因为那里的种族并不突出,而奥巴马可以使用建立在黑人支持下的联盟在黑人人口众多的州获胜。但是在黑人人口中等的州,种族足以减少白人中的选票总数,因此他无法像在黑人较多的州中那样以黑人投票获得胜利。我不确定这是否是正确的,但数据至少大致与故事一致。
在退出民意调查中观察到的另一种模式是,奥巴马在拉美裔美国人中的表现不及希拉里·克林顿。从总体上看,数据确实表明他在西班牙裔人口较多的州表现较差,尽管这种联系似乎并不特别牢固:
最后,最近来自《大西洋》的马克·安比德 声称 希拉里“不能赢得小州(除非她控制机器-认为内华达州)”,而“奥巴马无法赢得多数民主党人居住的州”。但是作为伊格莱西亚斯 争论,这种说法似乎在很大程度上取决于加利福尼亚州:
This seems like a mighty gerrymandered "can't" for Obama. He can win Democratic states like Washington, Connecticut, and Delaware. He can win states the Democrats sometimes carry like Iowa and Missouri. Is the criticism that Obama can't win big heavily Democratic states? Well, he won his home state of Illinois and Clinton won her home state of New York. So this amounts to saying Obama lost California. Which, of course, he did. And it's a 大国 so California gets a lot of delegates. But one can hardly proclaim the winner of California the winner on some "states where the majority of Democrats reside" theory when Obama's winning more states and winning more delegates and winning them in all regions of the country.
让我们仔细看看。首先,这是奥巴马的投票反对各州人口对数的图表(按原始人口绘制是无用的,因为加利福尼亚比其他州大得多):
如您所见,正如Ambinder所说,他在较小的州中通常做得更好。
关于Ambinder的第二个主张,我们可以看一下奥巴马在2004年大选中相对于民主党总统大选的投票:
再一次,我们看到奥巴马在民主程度最低的州总体上做得更好。
Ambinder对吗?评估这一说法的最后一种方法是查看奥巴马的投票随着州人口对数的变化而变化*民主总统投票,大致按州来估算民主党选民的人数:
再次,奥巴马似乎在更大和更民主的州表现更糟。问题是为什么。一种可能的解释是,他很难(即更昂贵,更耗时)接触那些州的基本选民,以使他们脱离对希拉里的默认偏好。相比之下,在规模较小,人口较少的民主州中,只有较少的核心小组和主要选民支持他才能更有效地达成目标。另一个可能性是,希拉里在更大和更民主的州中的精英支持更加强大,而奥巴马则对“希拉里”在大选中的表现感到担忧的“红色州”民主党政客提供了更大的支持。
很难区分这些变量之间的关联,因为(平均而言)较大的州更多的是黑人和西班牙裔,民主的也更多,而因果关系的可能性也较小。但是,当我们将所有这些因素放在一起进行线性回归(包括黑人人口和黑人人口平方)时,我们发现黑人人口的U形二次关系和因果关系的正相关在统计上是显着的,而其他因素是不。换句话说,到目前为止的证据与传统观点一致,即奥巴马在重度黑人和重度白人州以及高加索地区表现最佳,而在中度黑人状态和初选州表现不佳。
[免责声明:这只是早期总投票数据的粗略削减。到目前为止,我们只有30个观测值。最后,我们无法基于汇总数据直接推断出个人行为。]
更新2/11 12:06 PM:凯文·德拉姆(Kevin Drum) 链接 并提出另一个问题:
我要对此加以说明。布伦丹实际上发现CW的所有五个部分都是正确的,但后三个部分在统计上并不重要。换句话说,它们至少有5%可能是偶然的结果。
但这是一口气,而且我想知道结果是否达到90%的水平?在学术环境中,这还不够好,但是在现实环境中,这是您仅有的唯一数据(没有后续研究,伙计!),大多数人可能会认为90%的确定性令人信服。无论好坏,我认为CW在所有五个方面都可能成立。
为了回答这个问题,其他变量并不是很重要。但是,我不会在任何这些假设检验的结果中投入过多的库存,因为(a)假设检验是 充满认识论问题 (b)在小样本中很难达到显着性。
更新2/11 3:50 PM:TNR的Josh Patashnik 标志 a 更精细的回归模型 由Daily Kos博客作者poblano预测奥巴马的投票,他说“他几乎看着每个变量都可以想到我们可以量化一个州的情况,并且可能影响奥巴马-克林顿的投票份额”,然后将模型与9变量。但是,正如Patashnik所指出的那样,该模型在周末的表现“一般”:
Daily Kos的Poblano所做的出色工作将回归预测了奥巴马在各州的投票份额。我并没有完全卖掉它-在模型构建之前的投票状态中,它的表现很好(显然应该这样做,因为首先是选择参数的方式),但是这样做-因此对于本周末的州(高估了奥巴马在路易斯安那州和内布拉斯加州的支持,而低估了华盛顿和缅因州的支持)。
这就是所谓的“过度拟合”,这就是我没有根据上面讨论的回归模型对即将到来的基数进行预测的原因。问题在于,当您进行样本之外的预测时(即对于新数据),模型性能通常会急剧下降。 Poblano寻找解释性变量可能会使这个问题变得更糟。
日报(原奥斯汀-美国政治家)的比尔·毕晓普(Bill Bishop)也经过了 两张图 表明奥巴马实际上是在县一级(而不是州一级) 更好 在加利福尼亚和密苏里州的更多民主县中:
教训是,我们得到的答案部分取决于我们考虑的汇总水平。记得 Gelman等人的研究 收入与政党之间的关系,发现该协会因州收入而异(PDF)。在最贫穷的州,收入与政党的隶属关系密切相关,但随着州收入的增加,这种关系减弱。类似的事情可能会在这里发生。
最后,每 罗杰·福特下面的评论,我提取了所有可用的退出民意测验数据,以查看奥巴马的白人投票数与该州的黑人人口之间的差异,这是对上述种族威胁假说的更直接衡量。这是用线性和二次拟合绘制的关注图:
尽管我不确定为什么二次关系在包括上述其他因素的回归中在统计上具有显着意义, 白色 相对于温和的黑人州,对奥巴马的支持将在严重的黑人州增加。 (白人有更舒适的少数当选的领导人?)的线性关系在统计上并不显著,但见上有关假设检验适当的注意事项。
更新2/11 4:38 PM:人口*总统选举的图形及其上面的讨论已更新,以纠正由 特里VB。 (具体来说,我将X轴从log(pop)*总统投票切换为log(pop *总统投票)。)
更新2/11 9:52 PM:为了尝试理解白人投票中的变化,我尝试了波布拉诺的想法,即使用南方浸信会人口作为可以代表“南方性”的连续变量(如IKL的建议) 评论 下面)。确实,南部浸信会人口与奥巴马的白人支持之间的关系令人震惊(并且在统计上具有重要意义):
一旦考虑了这个变量,黑人人口与奥巴马在白人中的支持之间的关系就消失了。
更新2/12 10:06 AM:州教育和收入的图在双变量形式中尚无定论,尽管教育是积极的,并且在多元回归中具有统计学显着意义,如波布拉诺指出:
我猜是因为,只有当您控制民主党总统选举后,教育与奥巴马的关系才会出现。如果按凯里和布什获胜的州进行分类,那么“红色州”似乎是正面的,而“蓝色州”则是负面的:
更新2/13 9:49 AM:Pollster.com的Mark Blumenthal提供 无障碍概览 那些不熟悉回归分析的人的利与弊。但值得注意的是另外一个限制。他链接到 另一个回归帖子 Real Clear Politics的Jay Cost认为,希拉里·克林顿在访问次数较多的州表现更好。 Cost表示这意味着她的访问可以有效地增加支持。虽然这可能是正确的,但克林顿也有可能访问她有更多支持(或支持正在增加的州)的州。回归不能直接解决这个问题,即内生性(通常需要使用不同的方法)。总的问题是,回归并不能说明因果关系。它只能告诉我们变量之间可能的关联。
更新2/14 12:42 PM: 技术 其他评论者则认为,奥巴马在重白人国家的支持是由预备役的公共性驱动的,这是可能的。因此,我制作了图表的新版本,显示了奥巴马受黑人人口支持的趋势,其线性趋势仅适用于主要州。由于包括华盛顿特区(它还包括VA和MD),因此该版本更具戏剧性:
另外,费用 使 在下面的评论中,为什么初次/小组竞选访问可能不是内生性的一个深思熟虑的案例。
看起来像你'错过了纽约的数据点。
Posted by: tom veil | 2008年2月11日,下午2:17