«

»

Oct 17 2016

Imprimir esta Entrada

Estadística descriptiva en una cáscara de nuez

La estadística descriptiva es la parte de la estadística que se ocupa únicamente de hacer una representación de un conjunto de datos para poder así mostrar toda la información que estos nos pueden conceder. Estos datos de los que realizamos la descripción pueden ser una población (p. ej. los 46,77 millones de españoles), una muestra (p. ej. los datos de la Encuesta Nacional de Salud de España) o un subconjunto (p. ej. los datos de los pacientes de Hepatitis ingresados en un hospital).

Es necesario hacer hincapié en la naturaleza descriptiva de este tipo de medidas. La estadística descriptiva no se lanza en ningún caso a confirmar o desmentir hipótesis sobre los datos; simplemente se realiza un cálculo de un estadístico resumen de un conjunto de datos. Si los datos provienen de una población, no hay hipótesis que contrastar: lo que se ve es lo que hay. Si obtenemos una media a partir de un censo, esa media no ofrece incertidumbre ninguna. En cambio, si obtenemos esa media a partir de una muestra de esa población censada, la media muestral tampoco ofrece incertidumbre, pero sí la media poblacional (no la conocemos). Para cuantificar esta incertidumbre, tendríamos que asumir que los datos poblacionales se distribuyen según una distribución de probabilidad conocida, lo que pertenece al campo de la estadística inferencial.

Por lo tanto, en inferencia se trabaja siempre sobre los parámetros descriptivos calculados, para los cuales se asume que o ellos o sus transformaciones se distribuyen probabilísticamente. Es decir, mientras que la estadística inferencial se nutre de la descriptiva, la estadística descriptiva no utiliza ni toca para nada la inferencial.

La forma en la que se puede representar la información contenida en nuestros datos se divide en varios tipos de medidas, siendo los más importantes las medidas de centralización (¿dónde están situados mis datos?) y las de dispersión (¿cómo de separados están entre ellos?). La importancia reside en que la mayoría de pruebas estadísticas utilizadas en artículos científicos emplean este tipo de medidas.

Su naturaleza y forma de calcularlas, sin embargo, depende del tipo de variables del que dispongamos. Para el análisis estadístico, generalmente son de dos tipos: cualitativo y cuantitativo. Las medidas que se pueden obtener según estos tipos pueden observarse en el siguiente diagrama:

EsquemaDescriptiva

Cada una de las medidas presentes en el diagrama es importante a su manera, pero para continuar este artículo nos centraremos en las más utilizadas y en los problemas derivados de su uso. Sin embargo, en caso de que el lector se quede con ganas de más, dejo unos enlaces a las entradas del blog de Picanúmeros donde se hace una descripción más pormenorizada de la mayoría de las medidas descritas en el diagrama:

Medidas de centralización y dispersión

Medidas de forma y concentración

Representaciones gráficas

Como ya decimos, lo más común en datos numéricos es utilizar la media aritmética como resumen del conjunto. Recordemos que la media es el centro de gravedad de todos los puntos (datos), por lo que es lógico pensar que los puntos no estarán demasiado alejados de ese centro y que, por lo tanto, es una buena (y rápida) forma de saber “por dónde andan” los valores de nuestros datos.

Todo esto se viene abajo en algunas situaciones:

  • La más común: elevada dispersión o asimetría de los datos. Si tenemos un conjunto donde todas las cifras están concentradas salvo una o varias que son muy grandes o muy pequeñas, o si el conjunto presenta muchos valores pequeños y pocos grandes (como si hiciera una curva exponencial al revés) el centro de gravedad tendrá que desplazarse hacia esos valores más exóticos a pesar de que en realidad los puntos se acercan más a los valores “normales”. Cuando esto sucede, suele utilizarse la mediana como medida representativa, la cual es mucho más robusta ante estos valores tan molestos (que los estadísticos conocemos como valores extremos o outliers), aunque también sería válido aplicar la media geométrica, que da más importancia a los valores pequeños.
  • Pocos valores únicos. Esto se da principalmente en datos de tipo ordinal (valores discretos ordenados), como por ejemplo en escalas de Likert muy estrechas, donde el rango de valores es tan pequeño que el promedio poco nos puede decir sobre ellos. En estos casos, la principal solución es tratar los datos como cualitativos y emplear la moda y las proporciones como resumen de los mismos.

La otra gran medida de la estadística descriptiva es la varianza y su hermana pequeña, la desviación típica (raíz cuadrada de aquella). Estas medidas generalmente son un buen indicador de cómo de dispersos están los datos. Aun así, con ellas también surgen problemas cuando los datos poseen valores extremos. En estos casos, la varianza les da más importancia a esos valores extremos que a los que están próximos a la media. Por lo tanto, sería mucho mejor utilizar otras medidas de dispersión algo más “alternativas” como la desviación absoluta mediana (mediana de las diferencias –en valor absoluto– de cada valor respecto a la mediana) o la desviación media absoluta (media de las diferencias –en valor absoluto– de todos los pares de valores).

Las variables cualitativas presentan generalmente menores problemas para su descripción. La medida más utilizada para su representación es la proporción de cada clase o etiqueta (nº de casos de la clase X / nº total de datos). Además de la moda (el valor más repetido en una variable de un conjunto de datos), no puede describirse mucho más de este tipo de variables, a excepción de si se va a inferir con ellas. En ese caso, será necesario utilizar la varianza de la proporción, que se calcula de forma aún más simple: px * (1 – px), donde px es la proporción de la clase X.

Esta varianza, al igual que la de las variables cuantitativas, juega un papel muy importante en la estadística inferencial, en concreto para la estimación de las medias y las proporciones que se dan en la población a partir de una muestra. En los próximos capítulos de este rincón se describirá el por qué, empezando por la definición de las distribuciones de probabilidad para posteriormente pasar a describir las herramientas disponibles en la estadística inferencial que permiten hacer experimentos con los que la ciencia avanza a través de la evidencia.

Referencias:

  • Carifio, J., Perla, R. (2007). Ten Common Misunderstandings, Misconceptions, Persistent Myths and Urban Legends about Likert Scales and Likert Response Formats and their Antidotes. Journal of Social Sciences, 2, 106-116.
  • Gutiérrez, J. C. Á. (2012). La correcta utilización de los promedios. Revista Universidad EAFIT, 31(98), 77-86.
  • Sabadías, A. V. (1995). Estadística descriptiva e inferencial (Vol. 8). Universidad de Castilla La Mancha.

Por Picanúmeros

el rincon de picanumeros

Acerca del autor

Azucena Santillán

Enfermera. "Máster en Gestión y Administración de Enfermería" , "MBA en Dirección y Gestión Integrada de Clínicas, Centros Médicos y Hospitales" y "Máster TIC en Enfermería". Doctoranda.

Enlace permanente a este artículo: http://ebevidencia.com/archivos/3629

4 comentarios

Ir al formulario de comentarios

  1. Teresa Barrón gómez

    Gracias, Azucena. Por esta transmisión de conocimientos. Sirven para aplicarlos con nuestros alumnos de Enfermería. Saludos. Teresa Barrón Gómez

  2. Maria Elena Reyes Mosqueda

    Gracias muy interesante el articulo

  3. Guillermina Valeriano Ensaldo

    Hola Azucena, muy interesante el artículo, para aplicarlo con los alumnos que hacen tesis. Guillermina Valeriano Ensaldo

  4. Jordi

    Hola Azucena,

    Una foto de estadística descriptiva muy interesante.

    Me ha gustado el esquema que has planteado. Añado un propiedad muy interesante para cuantificar la dispersión: el rango intercuartílico. (Q3-Q1). Es una buena medida de dispersión teniendo en cuenta el orden.

    ¡Saludos y gracias!

Y tus amigos, ¿conocen este blog?... Be nice, tell your friends!

%d bloggers like this: