生态研究统计学分析研究.docx
《生态研究统计学分析研究.docx》由会员分享,可在线阅读,更多相关《生态研究统计学分析研究.docx(17页珍藏版)》请在第一文库网上搜索。
1、摘要工在向生态学家教授统计学时,本文的主要作者注意到了常见的统计问题。如果选择在进行这些课程之前所获得的工作(包括科学论文)的随机样本,则一半可能包含违反所采用的统计技术的基本假设。2 .某些侵权行为对结果或生态结论影响不大;还有一些增加了I型或I1型错误,可能导致错误的生态结论。通过应用更好的数据探索,可以避免大多数此类违规情况。在应用生态学中,这些问题尤其棘手,因为在应用生态学中,管理和政策决策经常受到威胁。3 .在这里,我们提供了用于数据探索的协议;讨论用于检测离群值,方差异质性,共线性,观察的依存性,相互作用的问题,多元分析中的双零,广义线性建模中的零膨胀以及因变量和自变量之间的正确关
2、系类型的当前工具;并提供有关如何解决这些问题的建议。我们还将解决对正常性的误解,并提供有关数据转换的建议。4 .数据探索避免了I型和I1型错误以及其他问题,从而减少了做出错误生态结论和不良建议的机会。因此,对于基于统计分析的良好质量管理和政策至关重要。介绍在过去的三十年中,应用生态学家可以使用的统计工具有了巨大的扩展。可用技术的简短列表包括线性回归,广义线性(混合)建模,广义加性(混合)建模,回归树和分类树,生存分析,神经网络,多变量分析及其所有方法,例如主成分分析(PCA),规范对应分析(CCA),(非)度量多维标度(NMDS),各种时间序列和空间技术等。尽管其中一些技术已经存在了一段时间,
3、但快速计算机和免费软件的开发如作为R(RDwHopMe八七COIreTeaMZOOQ),从而可以将常规统计技术常规应用于任何类型的数据。本文与这些方法无关。相反,它是至关重要的步骤,应该但不经常在应用之前。所有统计技术都有一个共同的问题,即“垃圾进,垃圾出1例如,在某些方法中,单个异常值可以确定最终结果和结论。异质性(变异差异)可能会在线性向归和方差模型分析以及某些多元方法(HUSertgIqq4)中引起严重的麻烦。当基本问题是确定哪些协变量正在驱动系统时,分析中最困难的方面可能是如何处理共线性(协变量之间的相关性),这会增加I1型错误(即,在拒绝原假设时无法拒绝它)是不正确的)。在应用于生态
4、群落数据的多元分析中,双零的存在(例如,两个物种在不同地点共同缺失)有助于某些技术(例如PCA)的相似性,而对其他技术则没有相似性。还有其他多变量技术对具有聚集分布和低丰度的物种(例如CCA)敏感。在单变量分析技术(例如用于计数数据的广义线性建模(G1M)中,响应变量的零膨胀可能会导致参数估计值出现偏差(DaMee八&丁片“力.1998)。当多元技术使用置换方法获得产假时,例如在CCA和冗余分析(RDA,terBsak和VwdOnSChotGqqS)或M八te检验(1egenre&1egehdrZqq8)中,观测值之间的时间或空间相关性会增加1型。错误(在原假设为真时拒绝原假设)。应用于时间或
5、空间相关观测的回归类型技术也是如此。亳无疑问,最常用和滥用的技术之一就是线性回归。通常,此技术与线性模式和正态性相关。这两个概念经常被误解。线性回归非常适合拟合非线性关系,例如通过使用交互作用或二次项来实现wg&PeckIqq2)。线性回归中的术语”线性”是指参数在模型中的使用方式,而不是指建模的关系类型。知道我们在响应变量和解释变量之间是否存在线性或非线性模式对于我们如何应用线性回归和相关技术至关重要。在包含交互之前,我们还需要知道数据是否平衡。例如述“,/0和Shtk(JDO7)使用性别,地点和月份的协变量来建模就鱼的性腺躯体指数(性腺重量相对于总体重)。但是,由于采样不均衡,因此并未在每
6、个月的每个位置都对男女进行测量。实际上,数据是如此不平衡,以至于仅分析数据的一个子集并避免包含某些交互更有意义。有了这么多潜在的陷阱,要确保科学家不会发现错误的协变量效应(/型错误),错误地消除具有特定协变量的模型(型错误)或仅产生由少数有影响力的观察结果确定的结果,就要求在进行任何统计分析之前,应先进行详细的数据探索。本文的目的是为识别潜在问题的数据探索提供协议(图上)。根据我们的经验,数据探索最多可占用5。的分析时间。尽管数据探索是任何分析的重要组成部分,但重要的是将其与假设检验明确分开。根据研究人员对系统的生物学理解,先验决定要测试的模型(BUrnham&Anderson2002)。当这
7、种理解非常有限时,可以将数据探索用作假设生成活动,但这与我们在本文中提倡的过程根本不同。使用数据探索的方面来搜索模式(数据挖掘)可以为将来的工作提供指导,但应非常谨慎地查看结果,并应避免对更广泛的人群进行推断。相反,应基于生成的假设和进行独立测试收集新数据。当以这种方式使用数据探索时,应清楚说明所使用的过程和任何推断的局限性。在整篇论文中,我们集中于图形工具的使用(ChatfieId1998;Ge1manPasarica&Dodhia2002),但是在某些情况下,也可以对正态性或同质性进行测试。然而,统计文献对某些测试提出了警告,并提倡图形工具(MomHomerV&Peck1992;DraPe
8、r&Smith1998;QUinn&Kacwh2002)。莱拉(2009)给出了不进行正态性初步测试的七个原因,其中包括:大多数基于正态性的统计技术都可以抵制违规;对于更大的数据集,中心极限理论意味着近似正态性;对于小样本,测试功效低;对于较大的数据集,测试对小偏差敏感(与中心极限理论相反)。所有图形均使用软件包R(RDeVeIOPmemCoreTeam2008)制作。附录S1(支持信息)和http:WWW中提供了本文中使用的所有R代码和数据。步骤1:Y和X中有离群值吗?在某些统计技术中,结果受异常值支配。其他技术会像对待其他任何价值一样对待它们。例如,当结果不是二值时,离群值可能会导致Poi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生态 研究 统计学 分析研究