Desviación estándar de un conjunto de datos

Definición de la Desviación Estándar

La desviación estándar es una medida de qué tan cerca están los valores de datos en un conjunto de datos de la media. Es una cantidad que es pequeña cuando los datos se distribuyen cerca de la media y grande cuando los datos están lejos de la media.
sea x1, x2, x3 ... xN sea un conjunto de datos con una media μ. Para medir qué tan lejos está el valor de un dato xi de la media, podemos usar la diferencia d i dado por
di = xi - μ
El problema con la definición anterior es que di puede ser negativo o positivo y cuando agrega todos los di para todos los valores de datos para obtener un promedio, pueden cancelarse entre sí. Por lo tanto elevamos di al cuadrado, los promediamos y luego sacamos la raíz cuadrada.
La desviación estándar σ de una población que tiene N elementos está definida por

\( \)\( \)\( \) \[ \sigma =\sqrt {\dfrac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}} \]

donde \( \mu \) es la media dada por

\[\mu = \dfrac{\sum_{i=1}^{N} x_i}{N}\]


En un estudio estadístico, es posible que tengamos grandes poblaciones y, por lo tanto, calcular la desviación estándar para toda la población puede ser costoso y consumir mucho tiempo, de ahí la idea de usar muestras de la población para estimar la desviación estándar.
La desviación estándar s de un conjunto de datos de una muestra que tiene N elementos está definida por

\[s =\sqrt {\dfrac{\sum_{i=1}^{N} (x_i - \overline{x})^2}{N - 1}}\]

dónde

\[\overline{x} = \dfrac{\sum_{i=1}^{N} x_i}{N}\]

La principal diferencia entre las dos fórmulas es la división por N y N - 1. Usamos N - 1 en la fórmula de la desviación estándar para muestras para compensar el hecho de que el número de valores de datos en una población es mucho mayor que el número de valores de datos en una muestra. Tenga en cuenta también que para N muy grande, las dos fórmulas darían valores muy cercanos.
Se incluye una calculadora en línea para calcular la desviación estándar.

Ejemplos de desviación estándar

Ejemplo 1
A continuación se proporcionan tres conjuntos de datos que representan tres poblaciones.
R:{1,1,15,15}     B:{1,7,9,15}     C:{7,7,9,9}
Calcule la media y la desviación estándar para cada conjunto de datos. Compara las medias y la desviación estándar de los tres conjuntos.
Solución al Ejemplo 1
Para el conjunto A \[\mu_A = \dfrac{1 + 1 + 15 + 15 + 11}{4} = 8\]   \[\sigma_A=\sqrt {\dfrac{(1 - 8)^2 + (1 - 8)^2 + (15 - 8)^2 + (15 - 8)^2}{4}} = 7\]
Para el conjunto B \[\mu_B = \dfrac{1 + 7 + 9 + 15}{5} = 8\]   \[\sigma_B =\sqrt {\dfrac{(1 - 8)^2 + (7 - 8)^2 + (9 - 8)^2 + (15 - 8)^2}{4}} = 5\]
Para el conjunto C \[\mu_C = \dfrac{7 + 7 + 9 + 9}{4} = 8\]   \[\sigma_C =\sqrt {\dfrac{(7 - 8)^2 + (7 - 8)^2 + (9 - 8)^2 + (9 - 8)^2}{4}} = 1\] Las medias de los tres conjuntos son iguales a 8 (punto rojo en el gráfico) y las desviaciones estándar son diferentes. Podemos ver en los gráficos en las líneas numéricas debajo de los tres conjuntos. Es gráficamente claro que los valores de datos en el Conjunto C están cerca de la media y es por eso que este conjunto tiene la desviación estándar más pequeña. Los gráficos en la recta numérica del conjunto A y B muestran que los datos del conjunto A están más dispersos que los datos del conjunto B, por lo que la desviación estándar es mayor que la del conjunto B.

Conjunto A, Conjunto B respuesta Conjunto C en una recta numérica


Ejemplo 2
A continuación se proporcionan dos conjuntos de datos que representan dos poblaciones.
R:{2 , 3 , 5 , 8 , 10}     B:{3 , 4 , 6 , 9 , 11}
Calcule la media y la desviación estándar para cada conjunto de datos. Compara las medias y la desviación estándar de los dos conjuntos.
Solución al Ejemplo 2
Para el conjunto A \[ \mu_A = \dfrac{2 + 3 + 5 + 8 + 10}{5} = 5,6\]   \[\sigma_A=\sqrt {\dfrac{(2 - 5.6)^2 + (3 - 5.6)^2 + (5 - 5.6)^2 + (8 - 5.6)^2 + (10 - 5.6)^2}{5}}\] \[=3.0\]
Para el conjunto B \[\mu_B = \dfrac{3 + 4 + 6 + 9 + 11}{5} = 6,6\]   \[\sigma_B =\sqrt {\dfrac{(2 - 5.6)^2 + (3 - 5.6)^2 + (5 - 5.6)^2 + (8 - 5.6)^2 + (10 - 5.6)^2}{5}} \]
=3.0
Las medias son diferentes y la desviación estándar son iguales. Esto significa que los valores de los datos en los dos conjuntos se distribuyen de la misma manera alrededor de la media. Los dos conjuntos A y B se muestran a continuación en rectas numéricas. Aunque los dos conjuntos son diferentes, las distancias entre los valores de los datos y la media son igualmente iguales y eso explica por qué los dos conjuntos tienen desviaciones estándar iguales.

Conjunto A y Conjunto B en una recta numérica


Ejemplo 3
Las puntuaciones en un examen de Física de estudiantes en dos clases A y B tienen las siguientes medias y desviaciones estándar.
Clase A: media = 78 y desviación estándar = 5
Clase A: media = 78 y desviación estándar = 15
¿Qué podemos concluir sobre el desempeño de los estudiantes en las dos clases?
Solución al Ejemplo 3
Los puntajes de las dos clases tienen medias iguales, pero la desviación estándar de la clase B es más alta que la desviación estándar de la clase A. Esto significa que los puntajes en la clase B están más dispersos y, por lo tanto, en la clase B y, por lo tanto, algunos estudiantes podrían haber obtenido muchos puntajes. inferior a la media, mientras que otros estudiantes podrían haber obtenido una puntuación mucho más alta que la media. En general, los estudiantes de la clase A puntuaron más cerca de la media.


Ejemplo 4
La media de un conjunto de valores de datos es igual a μ y su desviación estándar es igual a σ. Si todos los valores de datos en el conjunto aumentan en el mismo valor k, ¿cuál es la media y la desviación estándar después del aumento?
Solución al Ejemplo 4
Si trazas todos los valores de los datos en una recta numérica y sumas k a estos valores y los graficas nuevamente en la misma recta numérica, todos los puntos en la recta numérica se desplazarían la misma distancia k y, por lo tanto, la media también aumenta en k. Sin embargo, la desviación estándar no cambiará porque es una medida de la distancia entre los valores de los datos y la media y todos se desplazaron por el mismo valor k.
La media y la desviación estándar del conjunto { x_1, x_2 ,... x_N } están dadas por \[\mu = \dfrac{\sum_{i=1}^{N} x_i}{N}\] y \[\sigma =\sqrt {\dfrac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}\] Ahora agregamos k a cada valor de datos x_i y calculamos la media y la desviación estándar \[\mu_k = \dfrac{\sum_{i=1}^{N} (x_i + k)}{N} = \dfrac{\sum_{i=1}^{N} x_i}{N} + \dfrac{\sum_{i=1}^{N} k}{N} = \mu + k\] \[\sigma_k =\sqrt {\dfrac{\sum_{i=1}^{N} ((x_i + k) - \mu_A)^2}{N}} = \sqrt {\dfrac{\sum_{i =1}^{N} (x_i + k - (\mu + k))^2}{N}}\] Simplifica el numerador para obtener \[\sigma_k = \sqrt {\dfrac{\sum_{i=1}^{N} (x_i - \mu )^2}{N}}\] Por lo tanto, si aumentamos todos los valores de datos en un conjunto en la misma cantidad k, la media aumenta en k pero la desviación estándar no cambia.

Más referencias y enlaces

Desviación estándar.
Media, mediana y moda
Media y desviación estándar.