您现在的位置是:网站首页 > 知识问答

心理测验中的3个标准差”:科学排除异常值

2025-08-29 01:00知识问答已帮助17人

在心理测量学中,我们常常需要分析和解释测验结果。理解数据的分布规律,特别是如何识别和处理异常值,对于获得准确的诊断和有意义的结论至关重要。心理测验排除3个标准差是一个常用的统计学方法,它能够帮助我们科学地界定数据的正常范围,并识别可能存在的极端值。

一、理解“标准差”:数据的离散程度

在深入探讨“3个标准差”之前,我们首先需要理解“标准差”在统计学中的含义。

  • 什么是标准差? 标准差(Standard Deviation, SD)是衡量一组数据离散程度的统计量。它表示数据集中各个数值与其平均数(均值)之间的离散程度。标准差越大,表示数据越分散;标准差越小,表示数据越集中在均值附近。

  • 标准差的计算 标准差的计算过程如下:

    1. 计算数据的算术平均数(均值)。
    2. 计算每个数据点与均值之间的差值(离差)。
    3. 将每个离差平方。
    4. 计算平方差的平均数,即方差(Variance)。
    5. 对方差开平方根,得到标准差。

    公式表示: $$ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}} $$ 其中: * $\sigma$ 代表标准差 * $N$ 是数据的总个数 * $x_i$ 是每一个数据点 * $\mu$ 是数据的均值

    在实际应用中,我们通常会使用样本标准差,其公式略有不同,分母为 $N-1$,以获得对总体标准差更无偏的估计。

  • 标准差的重要性 标准差在心理测量中具有重要意义:

    • 描述数据分布: 帮助我们了解数据的集中趋势和分散程度。
    • 比较不同数据集: 能够比较不同测验或不同群体结果的变异性。
    • 推断和预测: 为统计推断和预测提供基础。
    • 识别异常值: 这是我们本次讨论的核心。

二、正态分布与“68-95-99.7法则”

在许多心理测量中,数据往往呈现出近似正态分布(Normal Distribution)的形态,也称为钟形曲线。正态分布是一种重要的概率分布,其特点是:

  • 对称性: 曲线以均值为中心是对称的。

  • 峰值: 均值处是曲线的最高点。

  • 渐近线: 曲线的两端向横轴渐近,理论上永不触及。

对于服从正态分布的数据,存在一个重要的统计学规律,被称为“68-95-99.7法则”(也称经验法则):

  1. 约68.3%的数据落在均值的一个标准差范围内(即 $\mu \pm 1\sigma$)。

  2. 约95.4%的数据落在均值的两个标准差范围内(即 $\mu \pm 2\sigma$)。

  3. 约99.7%的数据落在均值的三个标准差范围内(即 $\mu \pm 3\sigma$)。

这意味着,在理论上,正态分布中只有极少数(约0.3%)的数据会落在均值三个标准差之外。

正态分布图示

三、心理测验中的“3个标准差”排除法

基于正态分布的“68-95-99.7法则”,心理测验排除3个标准差成为了一种常用的统计学方法,用于识别和处理可能存在的异常值(Outliers)。

1. 什么是异常值?

在数据分析中,异常值是指那些与数据集中其他观测值显著不同的数据点。这些值可能由于以下原因产生:

  • 测量错误: 仪器故障、记录错误等。

  • 数据输入错误: 在数据录入过程中出现打字错误或混淆。

  • 抽样误差: 偶然抽到了不具代表性的样本。

  • 真实的极端值: 数据本身就存在非常规的情况,例如某些特殊心理状态下的个体。

2. “3个标准差”排除法的原理

“3个标准差”排除法的基本原理是:

  • 假设数据大致服从正态分布。

  • 将距离均值超过3个标准差的数据点视为异常值。

具体操作如下:

  1. 计算数据的均值($\mu$)和标准差($\sigma$)。

  2. 确定数据的正常范围:

    • 下限: $\mu - 3\sigma$
    • 上限: $\mu + 3\sigma$
  3. 识别异常值: 任何小于下限或大于上限的数据点,都被认为是异常值。

3. 为什么选择“3个标准差”?

选择“3个标准差”作为排除阈值,主要是基于“68-95-99.7法则”所揭示的概率:

  • 排除的合理性: 约99.7%的数据落在 $\mu \pm 3\sigma$ 范围内。这意味着落在该范围之外的数据只占非常小的比例(约0.3%)。如果一个数据点落在3个标准差之外,它很可能不是由随机误差引起的,而是由于测量错误、输入错误,或者确实是一个极端的、需要特别关注的个案。

  • 避免过度排除: 虽然还有更严格的阈值(如4个或5个标准差),但“3个标准差”在保留大部分有效数据和排除明显错误之间取得了一个较好的平衡。过度排除可能导致信息的丢失,而排除不足则可能让错误数据影响分析结果。

4. 实际应用中的注意事项

在心理测验中应用“3个标准差”排除法时,需要注意以下几点:

  • 数据分布的检验: 在应用此方法之前,最好先对数据进行分布检验(如 Shapiro-Wilk 检验或Kolmogorov-Smirnov 检验),确认数据是否近似服从正态分布。如果数据严重偏离正态分布,3个标准差的意义可能就会受到影响。

  • 异常值的性质: 并非所有落入3个标准差之外的数据都必须被删除。需要具体分析异常值出现的原因:

    • 可疑错误: 如果是明显的录入错误或测量错误,可以考虑修正或删除。
    • 真实但极端的情况: 如果异常值代表了某种真实但非常规的心理状态或行为,删除它可能意味着忽略了重要的信息。在这种情况下,可以考虑使用其他统计方法(如稳健统计量),或者将这些极端个案单独分析。
  • 领域知识: 结合心理学领域的专业知识来判断异常值的意义。例如,在某些特定的心理评估中,某些“异常”分数可能正是研究的目标。

  • 样本量: 在样本量较小时,单个异常值对均值和标准差的影响会更大,可能导致排除标准发生偏差。

四、心理测验中的异常值处理示例

假设我们对一组参与者进行了“情绪稳定性”的心理测验,测验结果(分数)如下:

心理测验中的3个标准差”:科学排除异常值

[85, 92, 78, 88, 95, 72, 81, 90, 85, 98, 65, 82, 89, 75, 80, 93, 150, 87, 79, 83]

我们来演示如何使用“3个标准差”排除法来处理这个数据集。

1. 计算均值

首先,计算这组数据的均值: $$ \mu = \frac{85+92+78+88+95+72+81+90+85+98+65+82+89+75+80+93+150+87+79+83}{20} $$ $$ \mu = \frac{1667}{20} = 83.35 $$

2. 计算标准差

接下来,计算标准差。这需要计算每个数据点与均值的差的平方,然后求平均值的平方根。

| 数据点 ($x_i$) | 离差 ($x_i - \mu$) | 离差平方 ($(x_i - \mu)^2$) | | :------------- | :----------------- | :------------------------- | | 85 | 1.65 | 2.7225 | | 92 | 8.65 | 74.8225 | | 78 | -5.35 | 28.6225 | | 88 | 4.65 | 21.6225 | | 95 | 11.65 | 135.7225 | | 72 | -11.35 | 128.8225 | | 81 | -2.35 | 5.5225 | | 90 | 6.65 | 44.2225 | | 85 | 1.65 | 2.7225 | | 98 | 14.65 | 214.6225 | | 65 | -18.35 | 336.7225 | | 82 | -1.35 | 1.8225 | | 89 | 5.65 | 31.9225 | | 75 | -8.35 | 69.7225 | | 80 | -3.35 | 11.2225 | | 93 | 9.65 | 93.1225 | | 150 | 66.65 | 4442.2225 | | 87 | 3.65 | 13.3225 | | 79 | -4.35 | 18.9225 | | 83 | -0.35 | 0.1225 | | 总计 | | 5708.00 |

方差 ($\sigma^2$) = 总计 / (N-1) = 5708.00 / (20-1) = 5708.00 / 19 ≈ 300.42

标准差 ($\sigma$) = $\sqrt{300.42}$ ≈ 17.33

3. 确定异常值范围

  • 下限 = $\mu - 3\sigma$ = 83.35 - 3 * 17.33 = 83.35 - 51.99 = 31.36

  • 上限 = $\mu + 3\sigma$ = 83.35 + 3 * 17.33 = 83.35 + 51.99 = 135.34

4. 识别异常值

根据计算的范围 (31.36 - 135.34),我们检查数据点:

  • 分数 150 大于上限135.34,因此被视为异常值。

  • 分数 6572 看起来相对较低,但都在正常范围内。

5. 处理异常值

在这个例子中,150 是一个非常明显的异常值。

  • 可能的处理方式:
    • 检查原始数据: 确认150这个分数是否是录入错误。如果确实是错误,可以尝试修正(如果可能)或删除。
    • 进一步分析: 如果150是真实分数,需要考虑这个个体在“情绪稳定性”测验中的特殊性。他可能代表了某种非常规的心理状态。在某些情况下,研究者可能会选择保留这个数据,但需要注意它对整体分析结果的影响,或者使用对异常值不敏感的统计方法。

6. 重新计算(如果删除异常值)

如果决定删除150这个异常值,那么数据集将变为:

[85, 92, 78, 88, 95, 72, 81, 90, 85, 98, 65, 82, 89, 75, 80, 93, 87, 79, 83] (共19个数据)

  • 新的均值: $(\frac{1667 - 150}{19}) = \frac{1517}{19} \approx 79.84$

  • 新的标准差: 需要重新计算,这会使新的均值和标准差都发生变化。

这种迭代处理异常值的方法,在数据分析中非常常见。

五、心理测试评估题:识别你的数据分布情况

请诚实地回答以下问题,用于初步评估你对数据分布和异常值处理的理解。

测试题目:

假设你是一名心理咨询师,你对一组来访者的“生活满意度”评分进行了统计分析。你的原始数据集(共30个分数)计算得出:

  • 平均分(均值):75.0

  • 标准差:10.0

请根据以上信息,回答以下

  1. 根据“68-95-99.7法则”,大约有多少百分比的来访者的生活满意度评分会落在 55 分到 95 分之间?

  2. 计算该数据集的“3个标准差”的正常范围(下限和上限)。

  3. 如果你的数据集中有一个来访者的生活满意度评分是 110 分,这个分数是否可能被视为异常值?请说明理由。

  4. 如果一个来访者的评分为 40 分,这个分数是否可能被视为异常值?请说明理由。

  5. 在处理像110分这样的高分异常值时,你会优先考虑哪两种处理步骤?(请列出)


解答与分析:

  1. 约95.4% 的来访者评分会落在 55 分到 95 分之间。

    • 解释: 55 分是均值 (75) 减去两个标准差 (75 - 210 = 55),95 分是均值 (75) 加上两个标准差 (75 + 210 = 95)。根据“68-95-99.7法则”,约95.4%的数据落在均值两个标准差的范围内。
  2. “3个标准差”的正常范围是:

    • 下限: $75.0 - 3 \times 10.0 = 75.0 - 30.0 = 45.0$
    • 上限: $75.0 + 3 \times 10.0 = 75.0 + 30.0 = 105.0$
    • 范围: [45.0, 105.0]
  3. ,110 分很可能被视为异常值。

    • 理由: 110 分大于计算出的上限105.0(即均值加3个标准差)。根据“3个标准差”的排除法,落在该范围之外的数据通常被认为是异常值。
  4. ,40 分不被视为异常值。

    • 理由: 40 分小于计算出的下限45.0(即均值减3个标准差)。但如果严格按照“3个标准差”来定义异常值(即小于 $\mu - 3\sigma$ 或大于 $\mu + 3\sigma$),那么40分确实落在范围之外,因此应该被视为异常值。 (此处修正上一句的表述,40分确实是异常值。)
    • 修正说明: 40 分小于计算出的下限45.0(即均值减3个标准差)。因此,根据“3个标准差”的排除法,40分确实被视为异常值
  5. 处理110分这样的高分异常值,优先考虑的两种步骤是:

    • a) 检查原始数据源: 仔细核对110分这个数据点在原始记录或录入过程中是否有误。这包括查找原始问卷、确认录入人员、检查录入时间等,以排除人为错误的可能性。
    • b) 评估其代表的实际情况: 如果确认110分是真实分数,需要结合生活满意度测验的具体意义和来访者的情况,判断这个高分是否代表了某种特殊的、极高的生活满意度状态,或者是否是由于对量表的误解(例如,某些量表可能存在天花板效应,但通常分数不会这么极端)。如果它代表真实但非常规的极高满意度,可能需要记录为特殊情况,并分析其对整体数据的影响。

重要提示: 尽管“3个标准差”是一种常用的方法,但它并非适用于所有情况。尤其当数据分布严重偏离正态分布时,或者当异常值本身具有重要的研究意义时,应谨慎使用,并结合领域知识和更专业的统计技术进行处理。

六、结论:科学看待统计工具

心理测验排除3个标准差作为一种统计上的“常识性”规则,为我们提供了一个识别数据中潜在错误或极端情况的有效工具。它基于正态分布的概率特性,能够帮助我们初步筛选出可能需要进一步关注的数据点。

然而,重要的是要记住,统计工具本身是中性的,其价值在于如何被理解和应用。在心理测量和咨询实践中,我们不应机械地删除所有超出3个标准差的数据,而是应该将这些数据视为一个提示,促使我们去深入探究其背后的原因。这可能涉及到对测量过程的审视、对数据录入的复核,或者更重要的是,对个体独特性的理解和关注。

通过科学严谨地分析数据,并结合专业的心理学知识,我们可以更准确地解读心理测验结果,从而为来访者提供更有效的支持和帮助。当需要专业的心理测试和心理咨询时,可以考虑寻找【迈浪心理】。

Tags: 心理测验中心理测验心理咨询

最新文章