Cuartiles y diagramas de caja

Los cuartiles dividen un conjunto de datos dado de números reales x1, x2, x3 ... xN en cuatro grupos, ordenados en orden ascendente, y cada grupo incluye aproximadamente el 25% (o una cuarta parte) de todos los valores de datos incluidos en el conjunto de datos.
Sea Q1 el cuartil inferior, Q2 la mediana y Q3 el cuartil superior. Los cuatro grupos de valores de datos están definidos por los intervalos:
Grupo 1: desde el valor de datos mínimo hasta Q1 , Q1 también se denomina percentil 25 porque el 25 % de los valores de datos en el conjunto de datos están por debajo de Q1
Grupo 2: de Q1 a Q2, Q2 también se denomina percentil 50 porque el 50 % de los valores de datos en el conjunto de datos están por debajo de Q2
Grupo 3: de Q2 a Q3, Q3 también se denomina percentil 75 porque el 75% de los valores de datos en el conjunto de datos están por debajo de Q3
Grupo 4: Desde el tercer trimestre hasta el valor máximo de datos.

 quartiles



Métodos en el cálculo de cuartiles

Existen diferentes métodos para calcular los cuartiles. Se describirán y utilizarán dos métodos, que difieren solo si el número de valores de datos es impar.
Para ambos métodos, comienza por encontrar la mediana que es Q2.
Luego divide el conjunto de datos ordenados en dos mitades: una mitad inferior y una mitad superior. Si el número de valores de datos N es par, la división es sencilla. Sin embargo, si H es impar, hay dos métodos para crear las dos mitades
Primer método
Divide el conjunto de datos en dos mitades sin incluir la mediana. El cuartil inferior Q1 es la mediana de la mitad inferior y el cuartil superior es la mediana de la mitad superior.
Segundo método
Divida el conjunto de datos en dos mitades, incluida la mediana en ambas mitades
El cuartil inferior Q1 es la mediana de la mitad inferior y el cuartil superior es la mediana de la mitad superior.



Ejemplos de cálculo de cuartiles y dibujo de diagramas de caja

Ejemplo 1
Calcula los cuartiles del conjunto de datos: 20 , 2 , 1 , 12 , 4 , 8 , 9 , 6 y dibuja el diagrama de caja.
Solución al Ejemplo 1
Primero ordenamos el conjunto de datos en orden ascendente
1 , 2 , 4 , 6 , 8 , 9 , 12 , 20
Encuentre la mediana Q2 del conjunto de datos dado: Q2 = (6 + 8) / 2 = 7
El número N de valores de datos es igual a 8 y por lo tanto par; dividimos el conjunto de datos en dos mitades
mitad inferior: 1 , 2 , 4 , 6
Mitad superior: 8 , 9 , 12 , 20
El cuartil inferior Q1 es igual a la mediana de la mitad inferior; por lo tanto
Q1 = (2 + 4) / 2 = 3
El cuartil superior Q3 es igual a la mediana de la mitad superior; por lo tanto
Q3 = (9 + 12) / 2 = 10,5
Los cuartiles, los valores de datos mínimos y máximos se trazan juntos junto con los valores de datos (en azul) para crear lo que se llama un diagrama de caja como se muestra a continuación. El conjunto de datos se divide en cuatro grupos como se describe arriba, con los dos grupos en el medio de Q1 a Q3 formando el cuadro y los grupos exteriores desde el mínimo hasta Q1 y desde Q3 hasta el máximo formando los bigotes.
Grupo 1: Desde el valor mínimo de datos hasta Q1
Grupo 2: Del Q1 al Q2
Grupo 3: De Q2 a Q3
Grupo 4: Desde el tercer trimestre hasta el valor máximo de datos.
Podemos verificar fácilmente que cada grupo contiene 2 valores de datos de un total de 8, que es una cuarta parte o el 25% de los valores de datos.
 cuartiles y diagramas de caja del conjunto de datos del ejemplo 1
Los diagramas de caja son un resumen de cinco números que incluye los valores de datos mínimos y máximos, la mediana y los cuartiles inferior y superior. Pueden ser útiles para comprender cómo se distribuyen los datos en un conjunto determinado y brindar información cualitativa sobre la distribución de los datos.



Ejemplo 2
Los puntajes de una clase en un examen de matemáticas son: 55 , 35 , 60 , 86 , 65 , 75 , 83 , 88 , 88 , 90 , 95 , 96 , 98. Calcula los cuartiles de los puntajes y dibuja un diagrama de caja.< br> Solución al Ejemplo 2
Primero ordenamos el conjunto de datos en orden ascendente
35 , 55 , 60 , 65 , 75 , 83 , 86 , 88 , 88 , 90 , 95 , 96 , 98
Encuentre la mediana Q2 del conjunto de datos dado: Q2 = 86
El número N de valores de datos es igual a 13 y por lo tanto impar; Usaremos los dos métodos descritos anteriormente. Método 1: dividir las puntuaciones en dos mitades, incluida la mediana 86
mitad inferior: 35 , 55 , 60 , 65 , 75 , 83 , 86
Mitad superior: 86 , 88 , 88 , 90 , 95 , 96 , 98
El cuartil inferior Q1 es igual a la mediana de la mitad inferior; por lo tanto
Q1 = 65
El cuartil superior Q3 es igual a la mediana de la mitad superior; por lo tanto
Q3 = 90
Los cuartiles, los valores de datos mínimos y máximos se trazan juntos para crear lo que se llama un diagrama de caja como se muestra a continuación. El conjunto de datos se divide en cuatro grupos como se describe anteriormente
Método 2: dividir las puntuaciones en dos mitades sin incluir la mediana 86
mitad inferior: 35 , 55 , 60 , 65 , 75 , 83
Mitad superior: 88 , 88 , 90 , 95 , 96 , 98
El cuartil inferior Q1 es igual a la mediana de la mitad inferior;
Q1 = (60 + 65) / 2 = 62,5
El cuartil superior Q3 es igual a la mediana de la mitad superior; por lo tanto
Q3 = (90 + 95) / 2 = 92,5
Los diagramas de caja con cuartiles, los valores de datos mínimos y máximos se representan a continuación para los dos métodos.
 cuartiles y diagramas de caja de las puntuaciones del ejemplo 2 para los dos métodos


Ejemplos de lectura de cuartiles de diagramas de caja


Ejemplo 3
A continuación se muestran los diagramas de caja de las puntuaciones en un examen de las clases A, B, C y D. El número de alumnos en cada una de las clases A, B, C y D son 12, 19, 22 y 28 respectivamente.

diagramas de caja de las puntuaciones de las clases en el ejemplo 3
Usa los diagramas de caja para responder las siguientes preguntas
a) Determinar las puntuaciones mínima y máxima, los cuartiles inferior y superior, la mediana, el rango y el rango intercuartílico (RIC) de cada clase.
b) ¿Qué clase tiene la puntuación más alta?
c) ¿Qué clase tiene la puntuación más baja?
d) ¿Cuántos estudiantes obtuvieron calificaciones por encima de la mediana en cada clase?
e) ¿Cuántos estudiantes obtuvieron calificaciones por debajo del cuartil inferior en cada clase?
f) ¿Cuántos estudiantes obtuvieron el cuartil inferior y el máximo en cada clase?
h) Utilizando el rango y los rangos intercuartílicos, ¿qué clase tiene la mayor dispersión y qué clase tiene la menor dispersión de puntajes?
Solución al Ejemplo 3
a)
Rango = valor máximo de datos - valor mínimo de datos
Rango intercuartílico (RIC) = Q3 - Q1

mínima maxima Q1 Q3 Q2 Rango IQR
Clase A 50 94 64 90 85 44 26
Clase B 20 100 60 94 76 80 34
Clase C 41 98 65 90 85 57 25
Clase D 30 98 60 90 82 68 30


b)
La clase B tiene la puntuación más alta de 100

c)
La clase B tiene la puntuación más baja de 20

d)
La mediana divide las puntuaciones ordenadas en dos mitades y, por lo tanto, la mitad de las puntuaciones de clase por encima de la mediana
clase A: (1/2) total = (1/2) 12 = 6 estudiantes
clase B: (1/2) total = (1/2) 19 = 9,5 , redondear a 10 estudiantes (el número de estudiantes debe ser un número entero)
clase C: (1/2) total = (1/2) 22 = 11 estudiantes
clase D: (1/2) total = (1/2) 28 = 14 estudiantes

e)
Cuartiles divide el conjunto de datos (puntuaciones en este ejemplo) en 4 grupos con 1/4 cada uno. Por lo tanto, para cada clase, una cuarta parte de las puntuaciones están por debajo del cuartil inferior
clase A: (1/4) total = (1/4) 12 = 3 estudiantes
clase B: (1/4) total = (1/4) 19 = 4,75 , redondear a 5 estudiantes (el número de estudiantes debe ser un número entero)
clase C: (1/4) total = (1/4) 22 = 5,5 , redondear a 6 estudiantes (el número de estudiantes debe ser un número entero)
clase D: (1/4) total = (1/4) 28 = 7 estudiantes

f)
Cuartiles divide el conjunto de datos (puntuaciones en este ejemplo) en 4 grupos con 1/4 cada uno. Por lo tanto, para cada clase, 3/4 cuartas partes de las puntuaciones se encuentran entre el cuartil inferior y el máximo (o por encima del cuartil inferior)
clase A: (3/4) total = (3/4) 12 = 9 estudiantes
clase B: (3/4) total = (3/4) 19 = 14,25, redondear a 14 estudiantes (el número de estudiantes debe ser un número entero)
clase C: (3/4) total = (3/4) 22 = 16,5 , redondeado a 17 estudiantes (el número de estudiantes debe ser un número entero|)
clase D: (3/4) total = (3/4) 28 = 21 estudiantes

h)
La clase A tiene el rango más pequeño y el rango intercuartílico; 44 y 26 respectivamente.
La clase B tiene el mayor rango y rango intercuartílicop; 80 y 34 respectivamente.
Usando los diagramas de caja y el rango y el rango intercuartílico, podemos concluir que los puntajes en la clase A tienen la dispersión más pequeña y los puntajes en la clase B tienen la dispersión más grande.

Más referencias y enlaces

Cuartil
Media, mediana y moda
desviación estándar
Media y desviación estándar .
John W. Tukey (1977). Exploratory Data Analysis. Addison-Wesley.
{ezoic-ad-1}
 
 
{ez_footer_ads}