Aplicación de técnicas estadísticas multivariantes en el análisis de datos

TRABAJO ORIGINAL

 

Aplicación de técnicas estadísticas multivariantes en el análisis de datos

 

Application of multivariate statistical methods in the data analysis

 

 

Yuneisys Coronados Valladares,I Víctor Miguel Viltres Martínez,I Vivian Sistach VegaII

 

IHospital de Rehabilitación Julio Díaz González. La Habana, Cuba.
IIUniversidad de Ciencias Médicas de La Habana. Facultad de Matemática. La Habana, Cuba.

 

 


RESUMEN

Introducción: En diferentes campos del conocimiento, el análisis numérico de la información con frecuencia se realiza por medio de distintos cálculos estadísticos. En la actualidad se encuentran disponibles métodos que otorgan nuevas posibilidades de tratamiento cuantitativo. Estos métodos, integrados por una serie de técnicas de análisis de datos que forman parte de la rama de la estadística conocida como análisis multivariante, resultan de gran utilidad para llevar adelante estudios tanto de dependencia como de interdependencia entre variables.
Objetivo: Mostrar la aplicación de algunas técnicas estadísticas multivariantes (análisis de componentes principales y análisis discriminante) en el análisis de datos.
Método: Se aplicaron algunas técnicas de análisis multivariante a un conjunto de datos provenientes de un estudio experimental que se realizó en 60 pacientes con diagnóstico de gonartrosis ingresados en el Hospital de Rehabilitación Julio Díaz González de enero de 2015 a enero de 2016. Todos los pacientes fueron evaluados antes y después del tratamiento mediante escala analógica visual, escala de Likert y escala de Womac.
Resultados: Se demostró la existencia de diferencias estadísticamente significativas entre los valores de las variables analizadas. Las variables se agruparon en dos componentes que explican el 62,9 % de la variación de los datos. La función discriminante encontrada logra clasificar correctamente el 98,3 % de los casos agrupados al inicio.
Conclusiones: El análisis de componentes principales y el análisis discriminante son técnicas multivariantes útiles en el análisis exploratorio de datos.

Palabras clave: análisis multivariante; análisis de componentes principales; análisis discriminante.


ABSTRACT

Introduction: In different fields of knowledge, the numerical analysis of the information is frequently performed through different statistical calculations. Methods are now available that provide new possibilities for quantitative treatment. These methods, integrated by a series of techniques of data analysis that are part of the branch of statistics known as multivariate analysis, are very useful to carry out studies of both dependence and interdependence between variables.
Objective: To show the application of some techniques of multivariate analysis (principal component analysis and discriminant analysis).
Method: Several techniques of multivariate analysis were applied to a set of data from an experimental study that was performed in 60 patients with diagnosed gonarthrosis admitted at Hospital Julio Díaz, during January 2015 to January 2016. All patients were evaluated before and after treatment using Visual Analogue Scale, Likert Scale and Womac Scale.
Results: The existence of statistically significant differences between the values of the analyzed variables has been demonstrated. The variables were grouped into two components that explain 62,9 % of the variation of the data. The discriminant function found successfully classifies 98,3 % of the cases originally grouped.
Conclusions:
The ACP and the discriminate analysis are useful multivariate techniques in the exploratory data analysis.

Keywords: multivariate analysis; principal component analysis; discriminant analysis.


 

 

INTRODUCCIÓN

El análisis multivariante (AM) es la parte de la estadística y del análisisde datos que estudia, analiza, representa e interpreta los datos que resultan de observar más de una variable estadística sobre una muestra de individuos. Las variables observables son homogéneas y correlacionadas, sin que alguna predomine sobre las demás. 1,2

La información estadística en AM es de carácter multidimensional, por tanto, la geometría, el cálculo matricial y las distribuciones multivariantes juegan un papel fundamental. La información multivariante es una matriz de datos, pero a menudo, en AM la información de entrada consiste en matrices de distancias o similaridades que miden el grado de discrepancia entre los individuos. 1,2

Cualquier análisis simultáneo de más de dos variables, puede considerarse análisis multivariable. De hecho, muchas técnicas multivariable son la simple extensión de análisis univariados o bivariados. Así, por ejemplo, la regresión simple (con una sola variable independiente), es una técnica multivariable cuando se extiende a varios regresores. Otras técnicas, sin embargo, como el análisis factorial o el análisis discriminante, están específicamente diseñadas para trabajar solo con estructuras multivariables.3,4

El análisis de componentes principales (ACP) representa una técnica matemática que no requiere un modelo estadístico para aplicar la estructura probabilística de los errores. Este análisis es aplicado cuando se desea conocer la relación entre elementos de una población y se sospeche que en dicha relación influye de manera desconocida un conjunto de variables o propiedades de los elementos. Se caracteriza por analizar la varianza total del conjunto de variables observadas. Se trata de descubrir las componentes principales que definen al conjunto de variables observadas.2

El análisis discriminante es una técnica estadística que se utiliza para clasificar a distintos individuos en grupos, o poblaciones, alternativos a partir de los valores de un conjunto de variables sobre los individuos a los que se pretende clasificar. Cada individuo puede pertenecer a un solo grupo. Persigue explicar la pertenencia de cada individuo original a uno u otro grupo preestablecido, en función de las variables de su perfil, y a la vez que cuantificar el peso de cada una de ellas en la discriminación. Es la prueba estadística apropiada para seleccionar qué variables independientes o predictivas permiten diferenciar grupos y cuántas de estas variables son necesarias para alcanzar la mejor clasificación posible. 5,6

Además, permite cuantificar su poder de discriminación en la relación de pertenencia de un sujeto u objeto a un grupo u otro. Por ello esta técnica es considerada, además de una prueba de clasificación, una prueba de dependencia. De hecho, su propósito es similar al análisis de regresión logística, la diferencia radica en que solo admite variables cuantitativas.7

Con el presente trabajo se pretende mostrar la aplicación de algunas técnicas de análisis multivariante (análisis de componentes principales y análisis discriminante) para el correcto estudio y empleo de técnicas estadísticas en investigaciones médicas.

 

MÉTODOS

Se aplicaron algunas técnicas de análisis multivariante a un conjunto de datos provenientes de un estudio experimental que se realizó en 60 pacientes con diagnóstico de gonartrosis ingresados en el Hospital de Rehabilitación Julio Díaz González de enero de 2015 a enero de 2016. Todos los pacientes fueron evaluados antes y después del tratamiento mediante escala analógica visual (EVA), escala de Likert y escala de Womac. Se utilizaron técnicas de reducción de dimensiones como el ACP con correlación de Pearson, adecuación muestral de Kaiser-Meyer-Olkin (KMO), el test de esfericidad de Bartlett y el análisis discriminante.

 

Análisis de los resultados

  • Análisis de componentes principales

Como el ACP difiere de otras técnicas multivariadas en relación a los supuestos, solo se exploró si existen correlaciones mayores de 0,30 entre las variables que justifiquen la realización de esta técnica.

En la tabla 1 se aprecia que existían correlaciones superiores a 0,30 entre algunas de las variables analizadas. La intensidad del dolor por EVA correlaciona muy alto con la intensidad del dolor por Likert y la escala de Womac, mientras que la edad tuvo correlaciones muy bajas con la intensidad del dolor por Likert y por EVA. Esto puede indicar que serán dos los factores a extraer.

En el ACP se utilizó el método de extracción, componentes principales y el método de rotación Varimax. Se introdujeron todas las variables propuestas (edad, intensidad del dolor por EVA, intensidad del dolor por Likert y evaluación funcional de la rodilla por escala de Womac). Como parte de los resultados obtenidos en la tabla 2, el estadígrafo KMO (medida de adecuación muestral) tuvo un valor superior a 0,5. Esto indicó que es posible factorizar las variables originales de forma eficiente con los datos muestrales que se estuvo analizando.

La prueba de esfericidad de Bartlett permite rechazar el H0 de que la matriz de correlaciones sea una matriz de identidad, por lo tanto, procede realizar un análisis factorial. El análisis del valor KMO (0,6) y el test de esfericidad de Bartlett (1,684), muestra una cierta estructura de correlación entre las variables.

Un indicador complementario al anterior es la matriz anti-imagen como se pudo ver en la tabla 3, que contiene el complemento de las correlaciones parciales. La interpretación es entonces simétrica a la anterior. En este caso se encontró una proporción alta de anti-imágenes bajas.

Al observar la matriz de comunalidades (tabla 4), se puede ir ajustando el modelo eliminando las variables que tienen una extracción menor o cercana a 0,32 (evaluación pobre). Si otras variables presentan una extracción menor que 0,45 (evaluación regular) quedan en observación. Al sacar del análisis las variables con evaluación pobre, las variables en observación pueden aumentar su poder explicativo. En caso de no hacerlo, se las elimina del análisis. De las variables incluidas en el análisis, la que peor explica el modelo es la intensidad del dolor por EVA, solo el 38,2 % de su variabilidad y las mejores explicadas son la edad y el estado funcional por escala Womac (100 %).

Si se fueran a extraer algunas variables del modelo se eliminaría la intensidad del dolor por EVA.

En la tabla 5 se aprecia que existen dos componentes que logran explicar el 62,9 % de la varianza total de los datos originales. En el cuadro rojo se observa cuáles son los dos factores en los que se puede simplificar el análisis. Al realizar la extracción de las variables con menor puntuación no observa mejoría del modelo por lo que se decide dejar las cuatro variables propuestas.La varianza total explicada varía después de la rotación y cambia la varianza explicada por cada componente.

A continuación se muestran las matrices de componentes (original y rotada) como se observan en las tablas 6 y 7, donde se aprecia que la variable edad mejora su saturación en el componente 1, después de la rotación, la intensidad del dolor por EVA disminuye su saturación en el componente 2, al igual que la intensidad del dolor por Likert. Por otro lado, la evaluación funcional de la rodilla mejora considerablemente su saturación en el componente 2.

Es interesante cómo la edad desplaza su saturación del componente 2 al 1. Por tanto, las variables quedan distribuidas de la forma siguiente:

Componente 1: edad, intensidad del dolor por EVA e intensidad del dolor por Likert. A este componente podría colocársele la etiqueta de edad e intensidad del dolor.

Componente 2: evaluación funcional de la rodilla. Este componente podría llamarse capacidad funcional.

  • Análisis discriminante

En la tabla 8 se decidió elaborar una función discriminante para los grupos de pacientes según respuesta al tratamiento.

Multicolinealidad: las variables intensidad del dolor por EVA e intensidad del dolor por Likert son las únicas que se encuentran correlacionadas (p<0,01), esta llega a ser fuerte o alta (r=0,957). (Ver análisis de las correlaciones realizadas en ACP).

Con ayuda de la prueba de igualdad de las medias (tabla 9) de los grupos se ve que todas las variables (edad, intensidad del dolor por EVA, intensidad del dolor por escala Likert y estado funcional por escala Womac) tienen poder discriminante, (p<0,05).

En la tabla 10 se muestra el estadístico Lambda de Wilks. El estadígrafo Lambda de Wilks es bajo, lo que significa que la función logra discriminar entre los grupos. Este criterio permite al investigador determinar si el modelo es válido. De acuerdo al criterio del valor p, se puede asumir que el modelo es estadísticamente válido, debido a que Sig. = 0,000, lo que es menor que 0,05. La significación asociada al cálculo de Chi-cuadrado con 2 gl, permite rechazar la H0 y plantear que los grupos tienen promedios diferentes en las variables discriminantes.

Al analizar en la tabla 11 los coeficientes estandarizados se constatan que la variable intensidad del dolor por Likert es la que realiza mayor contribución a la función discriminante. La intensidad del dolor por EVA es otra variable importante en la capacidad discriminativa de la función.

La tabla 12 (tabla de centroides) ofrece información sobre los puntajes de los grupos en la función discriminante; aquellos sujetos con evolución satisfactoria tienden a obtener puntajes negativos, mientras que las pacientes con evolución no satisfactoria se encuentran ubicadas en las puntuaciones positivas.

Como el valor de corte calculado es igual a uno, se puede decir entonces que se clasificará a un individuo en el grupo 1 (evolución satisfactoria), si su resultado discriminante es menor que uno, y se clasificaría dentro del grupo 2 (evolución no satisfactoria), si su resultado discriminante es mayor que uno.

En la tabla 13 se analiza la matriz de estructura, donde se revela que la intensidad del dolor por escala Likert y la intensidad del dolor por EVA correlacionan altamente con la función discriminante (1,000 y 0,918), mientras que la edad y la evaluación funcional por escala Womac tienen correlaciones bajas con la función discriminante.

 

La tabla 14 muestra los resultados de la clasificación donde indica que la función discriminante antes elaborada es capaz de clasificar correctamente un 98,3 % de los casos. Los pacientes con evaluación no satisfactoria fueron mejor clasificados por la función que aquellos con evaluación satisfactoria (100 % versus 97,6 %).

Correlaciones intragrupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas. Variables ordenadas por el tamaño de la correlación con la función.

 

DISCUSIÓN

El objeto del ACP consiste en encontrar las sucesivas combinaciones lineales de las variables de partida, de modo que expliquen la mayor variabilidad posible. El procedimiento de análisis reside en calcular los autovectores y autovalores de la matriz de varianza-covarianza.

Los autovectores se eligen de forma que su módulo sea 1 (de forma que la suma del cuadrado de sus componentes sea 1). La primera componente principal es la combinación lineal correspondiente al mayor autovalor y su varianza es precisamente dicho autovalor. La segunda componente principal es la asociada al segundo mayor autovalor y así en lo sucesivo.8-9

Del estudio de correlaciones lineales se observan muchas significativamente distintas a cero. Así, entre las variables estudiadas se observan correlaciones positivas entre sí. Por ejemplo, la intensidad del dolor por EVA correlaciona muy alto con la intensidad del dolor por Likert y la escala de Womac, mientras que la edad tiene correlaciones muy bajas. El contraste de esfericidad de Bartlett informa sobre la esfericidad de las variables, es decir, sobre la relación de las variables analizadas. En este caso se ha obtenido un p-valor delcontraste deBartlett de 0,000, lo que indica que las variables no son incorreladas. La tabla 5 muestra todos los autovalores, el porcentaje de varianza que explica cada componente y sus valores acumulados, se observa que con tan solo dos componentes se puede explicar el 62,9 % de la variabilidad de los datos.

Por otra parte, la técnica de análisis discriminante pretende encontrar una regla de clasificación que permita asignar, lo más confiable posible, una futura observación a uno de los grupos preestablecidos en una población, utilizando solo la información suministrada por un conjunto de variables auxiliares. El procedimiento consiste en calcular los factores discriminantes y encontrar los centroides de cada grupo, que no son más que los vectores formados por las medias de cada uno de los factores discriminantes para el grupo en cuestión.5,7 En el análisis el contraste de igualdad de grupos de la lambda de Wilk ha mostrado como todos los factores tienen poder discriminante, (p<0,05). Esto implica que existen diferencias estadísticamente significativas entre las variables.

 

CONCLUSIONES

El ACP y el análisis discriminante son técnicas multivariantes útiles en el análisis exploratorio de datos.

 

Conflicto de intereses

Los autores de este trabajo no hemos recibido ayuda económica para su realización; no hemos firmado acuerdo por el que recibamos beneficios u honorarios por parte de alguna entidad comercial. Tampoco alguna entidad comercial ha pagado ni pagará a fundaciones, instituciones educativas u otras organizaciones sin ánimo de lucro a las que estamos afiliados.

 

REFERENCIAS BIBLIOGRÁFICAS

1. Cuadras CM. Nuevos métodos de análisis multivariante. Barcelona: CMC Ed.[Internet]. 2014 [citado 2017 15 jul]: aprox. 125 p. Disponible en: http://www.ub.edu/stat/personal/cuadras/metodos.pdf.

2. Aldás Manzano J. El análisis multivariable: conceptos básicos. Universitat de València Departamento de Dirección de Empresas "Juan José Renau Piqueras" [Internet]. 2016 [citado 2017 15 jul]:aprox. 23 p. Disponible en: https://wwwyyy.files.wordpress.com/2013/03/multivariante-conceptos-bc3a1sicos.pdf.

3. López Roldán P, Fachelli S. Metodología de la investigación social cuantitativa. Barcelona: Edición digital [Internet]. 2015 [citado 2017 15 jul]: aprox. 30 p. Disponible en: http://files.especializacion-tig.webnode.com/2000006233293a338e1/INTRODUCCI%C3%93N%20AL%20AN%C3%81LISIS%20MULTIVARIADO.pdf.

4. Crespín Elías E. Análisis multivariante: Aplicaciones con SPSS. 1 ed. San Salvador- El Salvador: Instituto de Ciencia, Tecnología e inovación [Internet]. 2016 [citado 2017 15 jul]: aprox. 304 p. Disponible en: http://icti.ufg.edu.sv/doc/metodos.estadisticos.web.pdf.

5. Berrendero JR. Técnicas de Análisis Discriminante. Departamento de Matemáticas. Universidad Autónoma de Madrid [Internet]. 2016 [citado 2017 12 jul]: aprox. 40 p. Disponible en: http://www.uam.es/personal_pdi/ciencias/joser/docencia/adatoslic/adtr2_0708.pdf.

6. Torrado Fonseca M, Berlanga Silvente V. Análisis Discriminante mediante SPSS. REIRE [Internet]. 2013 [citado 2017 12 jul]; 6(2): aprox. 17 p. Disponible en: http://diposit.ub.edu/dspace/bitstream/2445/45344/1/627683.pdf.

7. Chávez Mancia JE, Santos Nolasco MI. Aplicación del análisis discriminante para la detección de factores de riesgo en pacientes con diabetes mellitus en la región del bajo Lempa, El Salvador [Tesis de grado]. El Salvador: Universidad de El Salvador. Facultad de Ciencias Naturales y Matemáticas [Internet]. 2015 [citado 2017 12 jul]: aprox. 83 p. Disponible en: http://ri.ues.edu.sv/9413/1/19201019.pdf.

8. Olivares B. Aplicación del Análisis de Componentes Principales (ACP) en el diagnóstico socioambiental. Caso: sector Campo Alegre, municipio Simón Rodríguez de Anzoátegu. Multiciencias [Internet]. 2014 [citado 12 jul 2017]; 14(4): aprox. 12 p. Disponible en: http://www.redalyc.org/pdf/904/90433839011.pdf.

9. Ávila Pérez H, García Ibañez S, Rosas Acevedo JL. Análisis de Componentes Principales, como herramienta para interrelaciones entre variables fisicoquímicas y biológicas en un ecosistema léntico de Guerrero, México. Revista Iberoamericana de Ciencias [Internet]. 2015 [citado 2017 12 jul]; 2(3): aprox. 11 p. Disponible en: http://www.reibci.org/publicados/2015/mayo/0900106.pdf.

 

 

Recibido: 1 septiembre 2017
Aceptado: 30 septiembre 2017

 

 

Yuneisys Coronados Valladares. Hospital de Rehabilitación Julio Díaz González. Centro de Referencia Nacional. La Habana, Cuba. Email: yuneisyscv86@gmail.com

Enlaces refback

  • No hay ningún enlace refback.


Copyright (c) 2017 Yuneisys Coronados Valladares, Victor Miguel Viltres Martínez, Vivian Sistach Vega

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional.