几周前,我 发表提案 进行四项学术改革。最值得注意的是,我建议学术期刊应根据其设计预先接受文章 之前 研究结果可提供给作者,这将减少系统对统计学上有意义的发现的偏见,而这些发现在以后的研究中将无法复制。
毫不奇怪,其他人也有类似的想法。以下是我遇到的相关建议的一些评论:
1.克里斯·赛义德(Chris Said),纽约大学神经科学中心的博士后, 强调 资助机构在促进复制方面的重要性:
资助机构应奖励在具有与良好科学相一致的接受标准的期刊上发表的科学家。特别是,代理机构应偏爱那些专门介绍复制内容(包括复制失败)的期刊。更直接的是,这些机构应该将更多的赠款投入专门设计复制的提交中。
但是,问题在于,鉴于当前系统产生的诱因,大多数复制将继续失败。这就是为什么我最感兴趣的是他关于资助机构优先考虑发表在“无偏见”期刊上的科学家的提议:
我希望看到一些偏向完全“无偏见”的期刊,这些期刊根据实验设计的质量和科学问题的重要性而不是实验的结果来做出决策。这种类型的策略自然消除了为达到预期结果而操纵数据的诱惑。
他做 令人信服的论点 美国国立卫生研究院(NIH),美国国家科学基金会(NSF)等在克服新系统固有的集体行动问题方面可以发挥关键作用。我仍然认为,领先的期刊可以自己做出贡献,但是资助机构可以发挥关键作用,尤其是在以赠款为主导的领域。实际上,这可能意味着对过去在成果无偏的期刊上发表论文的科学家给予奖励,以及对承诺将拟议的研究报告提交至这样的期刊的提议予以奖励。
2.乔治·梅森(George Mason)经济学家罗宾·汉森(Robin Hanson) 提出 结果盲的同行评审,一种可能适用于非实验数据的更通用的方法:
我还要再进行一次同行评审。在第一个发现的结果中,所有关于符号,数量和重要性的结论都将被删去。在第一轮论文通过之后,审稿人将看到全文。虽然审阅者可能会允许结论影响他们的评估,但他们却不那么容易掩盖这种偏见。在第一轮接受之后在第二轮拒绝的审稿人会感到压力,要求解释该方法之外的实际结果,并认为该论文很差。
Glymour和河内 提供 BMJ在2005年提出的类似建议:
我们提供此问题的解决方案,期刊编辑可以使用。初步的编辑决定可以仅基于对已提交论文的引言和方法部分的同行评审。这两个部分讨论了作为理想的编辑决策依据的关键问题:研究问题的重要性以及研究设计和提出用于解决该问题的分析建议的潜力。
在结果和讨论部分使评论者失明,可能会对审稿过程带来一些挑战,因为这些后面部分的内容也与编辑决定相关。但是,减少出版偏见的好处可能会抵消这些困难。可能会要求同行审稿人根据研究设计的优点和建议的数据分析(而非调查结果本身)向编辑提出初步建议(拒绝或继续进行进一步的审查)。
如果手稿通过了此初始阶段,则审稿人可能对结果和讨论部分不了解。我们的建议可能会带来其他好处,即可以提高方法部分的清晰度和细节。
问题,作为Hanson博客的评论者 笔记的意思是,许多评论家已经阅读了各自领域的相关论文,或者在会议上看到了有关它们的演讲,特别是在社会科学领域(其出版时间非常长)。即使审稿人在被分配审稿之前没有阅读过有问题的论文,通常也很容易在网上查找并查找结果。结果,这种方法只能在论文发表之前没有公开的领域中起作用。
3.哥伦比亚的Macartan Humphreys,Raul Sanchez de la Sierra和Peter van der Windt有 提议的 政治学实验的“全面注册”:
政治科学的研究人员通常在选择假设检验的方法和模型时享有很大的自由度。再加上出版和相关的偏见,这种自由度引起了人们的关注,即研究人员可能有意或无意地选择产生阳性结果的模型,从而导致发表的研究不可靠。为了解决医学研究中的“数据刷新”问题,领先的期刊现在要求对设计进行预注册,以强调对因变量和自变量的事先识别。但是,我们在这里证明即使具有这种高级规范,但在选择协变量,子组和分析计划的其他元素时,捕鱼的范围仍然很大。这些担忧可以通过使用“全面注册”的形式来解决。我们在正在进行的现场实验中尝试了这种方法,为此我们使用有关治疗分配的虚假数据起草了调查结果的完整“模拟报告”。我们描述了这种形式的全面注册的优缺点,并建议采用全面但不具约束力的方法作为政治学注册的第一步。讨论了全面但不具约束力的注册的可能效果,其主要优势是沟通而不是承诺,尤其是它在探索性分析与真实测试之间产生了明显的区别。
不幸的是,从事这种形式的注册的动机很弱。全面的报告格式限制了作者产生审稿人要求的具有统计学意义的发现的能力,并可能导致作者选择退出注册或 搁置不重要的发现。这就是为什么必须由顶级期刊向作者提供预先接受的文章作为选项的原因。
4.麻省理工学院的戴维·卡格(David Karger) 建议的 更改计算机科学会议论文的提交要求,以便在接受后对提议的系统进行评估,从而增加了评估的动机,并减少了报告评估结果成功的动机。
5.也许最值得注意的是,西北医学杂志的菲利普·格林兰(Philip Greenland),内科医学档案馆的前任编辑, 进行了初步研究 “可能识别并减少偏差的机制”,包括两个阶段的审查过程:
首先,为了了解作者提交大部分积极研究的趋势,我们评估了作者提交给档案馆的积极文章的百分比。根据编辑对结果的评估,在2008年6月和7月连续评估的100份手稿中,有77%报告了重要的初步结果。如果根据作者对分析的解释对文章进行分类,则较高比例的手稿将属于肯定类别。在寄出供外部同行评审的手稿中,超过83%的阳性研究被档案馆接受。只有3项阴性研究被送至外部审查,其中只有1项最终被接受。总体而言,提交的所有阴性研究中只有5.3%被接受。
Recognizing that publication bias can result from reviewers' enthusiasm for positive results, we next evaluated the willingness of our 58 most highly rated 和 prolific peer reviewers 至 participate in an alternate peer-review process. The 提议的 hypothetical alternate process involved 2 steps. First, peer reviewers would have access only 至 a modified abstract containing no mention of results, the full introduction describing the nature of the research question, 和 a complete "Methods" section 至 allow an evaluation of the quality of the research. With this information available, the reviewers would be asked 至 provide a preliminary assessment of the manuscript 在里面 absence of the "Results" section. Following this preliminary assessment, we 提议的 that reviewers would gain access 至 the full article, including the "Results" section, 和 be asked 至 make a final evaluation of the manuscript. We hypothesized that this 2-stage procedure would force peer reviewers 至 make an initial evaluation solely based on the quality of the methods 和 that the result would be a more equitable consideration of well-performed negative studies. Of the 43 respondents, 37 (>86%) stated that they were willing 至 complete a full review following an abbreviated one as described 这里in.
We then turned 至 an assessment of the role of the editorial board. Prior 至 peer review, editors may decide 至 reject articles on their face value. Furthermore, editors assign reviewers 和 render final decisions after receiving reviewer comments. At the 档案, an editorial estimate of study rejection without any external peer review was roughly 70% of all submissions, whereas a JAMA study reported a 50% editorial rejection rate at that journal. These substantial figures suggest that any investigation of publication bias at the journal level ought 至 begin with, or at least include, the editors. Consequently, the aforementioned alternate review process was applied 至 the editorial review that occurred prior 至 outside peer review. In a pilot study, among a selection of submitted articles, a study was characterized as positive if an author's conclusion about his or her primary outcome was portrayed as such. Of the 46 articles examined, 28 were positive, 和 18 were negative (with an explicit attempt 至 oversample negative studies in this pilot research). Ultimately, 36 of the 46 articles (>77%) were rejected, consistent with prior publication decisions at this journal. Of note, editors were consistent 在里面ir assessment of a manuscript in both steps of the review process in over 77% of cases. This suggests that most of the time the editors' decision after reviewing the "Methods" section alone does not change after reviewing the full results.
尽管这提供了一定的舒适性,但重要的是不仅要查看手稿的大部分,而且要注意曲线的尾端,因为这很可能会出现任何偏差。通过这样做,我们发现超过7%的正面文章受益于编辑者在替代审阅过程的第1步和第2步之间改变主意,并决定在阅读结果后继续进行同行审阅。相比之下,在这项小型研究中,我们发现阴性研究从未发生过这种情况。确实,有1项阴性研究最初是由编辑对引言和“方法”部分进行审查后排在同行评议之列的,但在获得结果后就从此类考虑中删除。
我们承认,这些发现既不是结论性的也不是确定性的,而是来自试验研究的描述性分析。当然,可以放心的是,无论结果如何,编辑人员的观点基本上都是一致的。但是,在偏见很重要的少数情况下,结果对编辑进行同行评审并最终发表的决定的影响仍然不确定。缺乏关于编辑偏见的严格研究以及可能减轻这种偏见的干预措施。据我们所知,以前在档案馆进行的替代审阅过程从未进行过,尽管已经提出了建议。重要的是,这种机制可以与编辑和同行审阅者一起实施,解决了医学杂志可以对其产生最直接影响的两个潜在偏见来源。在本期《档案》中发表的Etter等人的阴性试验是我们试验研究的一部分。显然,编辑仅基于其方法的严格性和质量来支持本研究的同行评审和发表,并且即使向他们揭示了负面结果,该决定仍然得以维持。
格陵兰岛的创新意愿值得称赞,但是上面报告的结果表明了两阶段审阅系统将面临的一些挑战以及期刊需要进行进一步试验的需求。最令人失望的是,该期刊目前向审稿人提供的说明 不提 分两个阶段的过程,表明该方法已被他的继任者抛弃。让我们希望其他期刊编辑愿意进一步尝试。
更新4/30 10:06 AM:克里斯·赛义德(Chris Said)通过电子邮件提出的一个挑战是,如何将这些方法应用于神经科学等领域,其中的文章通常包含相互依赖的多项研究。我考虑了以下两种可能的方法:
该期刊提供了几轮结果盲审查,其中作者提出了研究1,获得结果,然后回来进行第二轮结果盲审查。这种方法将确保每一轮都完全没有偏见,但会增加审稿人和编辑的负担。
2.另一种选择是让作者进行一系列探索性研究1 ... x,然后在预先接受的基础上提交研究x + 1的设计和分析计划。然后会告诉读者,研究1 .... x的结果不是预先指定的,但是研究x + 1是预先指定的。
另外,我已经更新了上面的Humphreys项目,使他的合著者包括在有争议的论文中(尚不公开)。最后,请参阅Hanson的后续项目 这里.
几周前,我 注意到的 GSA丑闻的到来是奥巴马总统领导下第一个达到 我的研究:在《华盛顿邮报》的头版故事中,重点关注争议,并将其描述为记者自己的声音中的“丑闻”。然后我 录音采访 在NPR关于我的研究的“媒体报道”中,我注意到新闻发布缓慢在煽动丑闻中所起的作用,并暗示奥巴马在秋季大选之前很容易受到行政部门丑闻的影响。
采访结束后的两天,特勤局特工在哥伦比亚雇用妓女的消息传出。按照我提出的标准,这一争议很快成为奥巴马的第二起丑闻。实际上,自4月17日以来,它已经累积了六个头版的Post故事(相比之下,GSA丑闻只有两个)。 多年避免丑闻,奥巴马总统正在学习如何轻松地吞并一个政府-这是一种逆转。
*该帖子似乎针对不同的版本产生其首页的不同版本。为了与我的研究保持一致,我在《邮政》中有关奥巴马丑闻报道的文章中使用了Nexis新闻数据库中存档的文章和页码。
学术界往往难以适应变化,但是我认为以下几点想法值得我们考虑,这些想法可以改善我们对学生的评估,进行研究和管理期刊的方式。
1.通过/未通过第一学期
我们在高等教育中面临的两个最重要的问题是年级通胀和学生准备不足。这两个问题都没有简单的答案,但是我见过的最好的方法之一是在第一学期通过/未通过 斯沃斯莫尔学院 (我的母校)。让我引用 博客文章 去年秋天,我在Google上遇到了一位一年级学生写的书,这与我的经历完全一致:
斯瓦特大学大一的第一学期是及格/不及格。我喜欢这个系统,这也是Swarthmore的学术方法如此出色的众多原因之一。
参加课程的通过/不及格强调成绩的重要性。这似乎很明显,而且我们一遍又一遍地从政府,我们的顾问和上流社会的学生那里听到。但是,直到最近我才真正意识到它的重要性。
通过/未通过学期可帮助一年级新生适应大学学习。减轻了学者的压力后,有更多的时间专注于大学的其他方面:结识新朋友,加入有趣的俱乐部,并尝试不致迷路前往健身中心(我对最后一个感到特别烦恼)。我并不是说这第一学期很轻松,或者应该如此。重要的是要学习适合大学的学习习惯,弄清楚如何管理自己的时间显然很重要(例如,每花半个小时花一小时进行网上购物并不能为我工作)。很棒的是即将进行调整,而不必同时强调成绩。
成绩将在下学期开始,但2015届将通过对所学材料的更多赞赏以及对学习过程重要性的理解来解决我们的工作量,而不仅仅是在年底获得成绩。我很高兴Swarthmore给了我们这个调整期。
通过/不及格学期可以帮助学生为学习而兴奋,而不必担心成绩,还可以为未充分准备的学生提供机会,使其在成绩记录下来之前就可以跟上成绩。值得考虑的是,是否应该在达特茅斯和高等教育的其他地方都采用这种做法。
2.预先接受的文章
学术界面临着在顶级期刊上发表新发现的巨大压力。实际上,这些激励措施造成了巨大的出版偏见。社会科学家倾向于认为医学和科学期刊更为严格,但即使是这些期刊上发表的大多数结果也往往会 失败 至 复制。尽管可能会发生一些欺诈行为,但问题很可能是自欺欺人的问题-作为人类,我们只是过于擅长合理化可以产生所需结果的选择。
对这种关注的一种回应是对试验性试验进行预先注册-这种做法在医学的某些领域是强制性的,并且开始由一些进行现场试验(特别是在发展经济学中)的社会科学研究人员自愿进行。想法是作者在收集数据之前已经公开陈述了他或她的假设,因此结果不太可能是虚假的。我知道的最好的例子是俄勒冈健康保险实验, 公开归档 在没有任何数据可用之前明确其分析计划,并在其中明确标记所有未计划的分析 他们的手稿 (PDF)。
不幸的是,仅进行预注册并不能解决出版偏见的问题。首先,除非监管机构或他们所提交的期刊强制要求,否则作者很少有动机参与该实践。此外,作者仍可以在他们如何编码,分析和呈现预注册试验的结果方面做出任意选择。但最根本的是,如果试验结果提供统计学上的重要结果时更有可能发表,那么仍然可能会出现发表偏见。
对于实验数据,更好的做法是期刊接受文章 之前 进行了研究。文章应写到结果部分的重点,然后使用作者提交的预先指定的分析计划进行填充。然后,该期刊将允许作者进行事后分析和解释,该过程将被如此标记并与先前提交的材料区分开。通过提供这种选择,期刊将为预注册创造积极的动力,从而避免文件抽屉的偏见。更多发表的文章将没有发现,但这就是科学应该起作用的方式。转向预先注册的文章系统也会给作者,编辑和审稿人带来健康的压力,以便(a)专注于我们关心零假设的主题; (b)缩短文章; (c)确保研究具有足够的统计能力,以很可能捕获感兴趣的影响(如果是真实的)。
3.复制审核
理想情况下,每个期刊都应遵循《美国经济评论》和 要求 作者必须在发布前提交完整的复制档案。但是我的同事 布莱恩·格林希尔(Brian Greenhill) 提出了一种期刊或专业协会可以进一步鼓励鼓励认真研究的方法:对已发表文章的随机子集进行复制审核。这些审核至少可以验证文章中的所有结果都可以复制。可以想象,在某些情况下,他们可能会走得更远,并尝试在可能的情况下从可公开获得的来源中重新创建作者的数据和结果,重新进行实验室实验等。对于要求提供复制档案的期刊,审计系统当然是最佳的选择-否则,可能会阻止作者共享复制数据。
4.期刊的频繁传单系统
在同行评审过程中,期刊取决于学者提供的自由劳动。复习是一项大体上不费力的任务,其负担不成比例地落在了杰出的,具有公众意识的学者身上,他们对自己所做的工作没有什么贡献。结果,手稿常常被困在评论界,长达数月之久,从而减缓了出版过程,并拖延了知识的产生和有关作者的职业生涯。我们如何做得更好?
一种想法是为每个期刊开发类似于飞行常客里程的积分系统。每次评论都会为学者赢得一定数量的分数,并由编辑给予特别及时或高质量的评论奖励。然后,当他们提交给该期刊时,作者可以利用这些积分来兑现自己的手稿的要求。反过来,该期刊将向那些快速审阅手稿的审稿人提供这些要点,以帮助加快审稿速度。对于不提交有关期刊的审稿人而言,它没有用,但是对于数十年来与该期刊进行交互的审稿人和作者而言,它可以为快速而周到的审阅提供更大的动力。
更新4/27 10:16 AM: 请参阅 我的后续帖子 有关预接受文章的更多信息。
此外,事实证明,大量心理学家正在对在2008年顶级期刊上发表的心理学文章进行协作复制审核, 可再现性项目 -看 本文 有关该项目的更多信息,请参见《高等教育纪事》。
最后,我最近发现美国医学会 优惠 继续向内科医学档案的审阅者提供医学教育学分,他们“在21天或更短的时间内完成了其评价,并获得了良好或较好的评价。” CME学分的诱因可能不如快速审查自己的文章那样有力,但我认为它们总比没有好。
我已经设置好了 Tumblr版本 的博客,以便那些使用该服务的人可以在这里关注我,重新张贴帖子等。如果您是Tumblr用户,请检查一下!
我有 新专栏 在《哥伦比亚新闻评论》上发表了有关无聊的记者和社交媒体如何炒作假冒争议并散布错误信息的报道。它是这样开始的:
里克·桑托勒姆(Rick Santorum)周二中止对共和党总统候选人的提名时,他消除了对罗姆尼(Mitt Romney)将成为共和党总统候选人的任何疑问。结果是新闻真空,很容易通过自旋和错误信息来填补。
考虑一下关于希拉里·罗森(Hilary Rosen)对CNN关于全职妈妈的评论的荒谬辩论,该评论昨天主导了新闻周期和政治推特领域。正如NBC的《第一读》指出的那样,“人为制造的争议在美国政治中并不新鲜,”新事物“是由于Twitter和推动某些事情变得病毒化而变得更快,更专业化了,这些人为制造的争议已经成为事实。”当我们进入“初读”所称的“愚蠢的季节”时,此类争议可能会特别有效。当几乎没有相互竞争的故事,而政治记者都渴望获得材料时,任何丑闻或争议都可能引起疯狂的进食。无聊的媒体对政客是危险的。
阅读整件事 更多。
奥巴马的第一起丑闻已经到来。
去年五月,我写了 一列 关于奥巴马政府如何避免丑闻*的持续时间超过我们预期的:
我的研究 (PDF)关于总统丑闻的报道表明,很少有总统能像他那样回避丑闻。在1977年至2008年期间,总统没有在华盛顿邮报头版刊登丑闻就走了的时间最长为34个月-从布什总统于2001年1月就职到2003年10月瓦莱丽·普拉姆(Valerie Plame)丑闻之间的这段时间尽管缺乏与9月11日恐怖袭击类似的事件,但奥巴马已经做到了几乎一样长的时间。为什么?
我将奥巴马的抵御能力部分归因于他任职期间的“竞争新闻报道的数量和规模”, 我展示 在总统丑闻的可能性和严重性中起关键作用(PDF)。 (请参阅乔纳森·阿尔特的 华盛顿月刊 讨论其他可能的解释。)但是,我预测“在2012年大选之前发生总统或行政部门丑闻的可能性很高”,并且“鉴于奥巴马在人格完整方面的声誉,该争议将可能与行政部门内采取的行动有关。”
自该专栏发表以来,奥巴马的生存时间超出了我的预期。尽管与 索伦德拉 和 速度与激情行动,奥巴马在十月份打破了乔治·W·布什(George W. Bush)在当代时代总统中最长的无丑闻时期的记录,使用了我根据上述研究得出的上述测量结果(《华盛顿邮报》头版的一篇报道集中在丑闻中,将其描述为此类丑闻)。记者自己的声音)-参见《大西洋线报》的Elspeth Reeve的报道 这里 和 这里.
但是今天,我的预言在《华盛顿邮报》发表时得到了验证 头版故事 两次描述在拉斯维加斯举行的美国总务管理局会议上有关所谓的过度支出的争议是“丑闻”。在印刷版中,该故事成为标题 “ GSA因支出丑闻而震惊” (PDF)。尽管这场争论似乎不太可能具有很大的持久力或在政治上破坏奥巴马,但它的出现与我所推进的新闻周期理论相吻合-经济的改善和罗姆尼(Mitt Romney)即将在共和党总统候选人提名竞赛中的胜利降低了两个故事的新闻价值在最近几个月中占据主导地位的新闻,反过来又增加了对不道德或不正当行为的指控进行报道的可能性。现在的问题是,GSA的争议是否标志着华盛顿照例恢复了丑闻政治。
*我将丑闻定义为广泛的精英 知觉 做错事。 我的研究 分析政治和媒体环境对何时丑闻的影响 思想 确实发生过,而不是奥巴马总统或其他总统是否实际从事不当行为(这个问题很难轻易客观地衡量或量化)。