PAQUETES ESTADISTICOS GUIA DE MANEJO DE STATA _____________________________________________________________________ Ma. Constanza Camargo Bohórquez Maestría en Ciencias de la Salud con Área de Concentración en Epidemiología El presente documento resume los principales comandos utilizados para el análisis de bases de datos en STATA 1. ADMINISTRACIÓN GENERAL DE BASES DE DATOS
COMANDOS PARA ABRIR BASE DE DATOS:
COMANDO using unidad:/nombre de la base.dta use a:/ nombre de la base.dta
Click a file - Archivo Open – Abrir Seleccionar el archivo a ejecutar Abrir Icono de carpeta Seleccionar el archivo a ejecutar Abrir
COMANDOS PARA GUARDAR INFORMACIÓN – ARCHIVO LOG
COMANDO Click al icono (pergamino) Elegir localización para guardar el archivo Asignar nombre al archivo con extensión log Abrir Para cerrar click en el icono y en close log file Log using a:/nombre del archivo.log Click al icono (pergamino) Elegir localización del archivo Elegir el archivo Click a la opción de append to existing file Para cerrar click en el icono y en close log file
USO Estos comando se utilizan para abrir una base de datos. Es importante mencionar que STATA solo puede ejecutar bases con extensión dta. Para transformar las bases se utiliza un paquete anexo denominado STATA TRANSFER. Esta opción hace uso del menu propuesto por el programa
USO Para abrir archivo log que permite grabar automáticamente toda la información de comandos y resultados generados en el análisis de la base de datos. Puede ser leído en el procesador de texto word.
Para abrir un archivo log ya existente en el cual se quieren anexar nuevos resultados.
COMANDO PARA DESCRIPCIÓN DE LA BASE DE DATOS
COMANDO (DIFERENTES OPCIONES) describe de desc d
USO Se utiliza para describir las generalidades de la base de datos (numero de observaciones, numero de variables y tamaño de la base)
1
codebook
Se utiliza para ubicar valores perdidos o faltantes y observar generalidades de las variables list if Se utiliza para listar cualquier observación Ej. list if edad==. contenida en la base de datos. En este caso se List if edad <. ejemplifica la búsqueda de valores faltantes de la variable edad COMANDOS PARA EDICIÓN DE LA BASE DE DATOS COMANDO browse Icono data browser edit list label var variable Ej. label var edad “edad en años” label define Ej. label define edad 1”0/20” 2”21/40” 3”41/max” label value Ej. label value edad edad generate gen gene gener Ej. gen edad2=edad recode rec reco recod Ej. recode edad2 min/45=1 45/max=2 replace rep repl Ej. replace edad=1 if edad<=20 Keep drop Ej. drop all (borra todas las variables) drop edad (borra la variable edad) Sort Ej. sort folio (ordena numéricamente por folio la base de datos) order Ej. order edad talla genero Move Ej move peso save as save, replace clear
USO Se utiliza para ver la hoja con los datos (tabla) Para edición de la base de datos Para listar observaciones y las variables de cada individuo Para etiquetar variables Para cambiar la codificación de la variable Para asignar los valor etiquetados a las variables Para genera una nueva variable idéntica a partir de una existente en la base de datos. En este caso se ejemplifica la generación de una variable idéntica a la edad
Para recodificar los valores o categorías de una variable. En este caso se ejemplifica la recategorización de variable edad2 generada. Para reemplazar valores o categorías de una variable. En este caso se ejemplifica el reemplazo de las edades menores o iguales a 20 por el valor 1 en la variable edad. Para guardar variables, principalmente con el fin de construir una nueva base de datos a partir de una existente Para borrar variables Para ordenar las variables de la base de datos Para cambiar orden de las variables dentro de la base de datos Para mover o ubicar una variable en la hoja de datos al comienzo Para guardar los cambios de la base de datos Para guardar los cambios de la base de datos Para cerrar base de datos o limpiar comandos anteriores
COMANDOS PARA PEGAR BASES DE DATOS
2
PASOS COMANDO 1 using a:/nombre de la base principal.dta 2 sort folio 3
Keep folio var1 var2.... varp
4
6
save as a:/nombre de la base de datos hija.dta using a:/nombre de la base.dta Sort folio
7
merge folio using a:/
8
tab_merge
9
save, replace
10 11
describe drop _merge
5
nombre de la base de datos hija.dta
USO Para abrir una base genérica localizada en A Organizar esta base de datos de acuerdo con el número de folio Selección de las variables que se desean conservar Guardar archivo de las variable seleccionadas en el punto anterior Para abrir la base a la cual deseamos pegar las variables seleccionadas archivo: nombre de la base de datos hija.dta Organizar esta base de datos con base en la variable folio. La variable folio debe ser igual en todos los archivos Para unir las variables al archivo en uso. La unión se evidencia por la creación automática de la variable _merge Para verificar la unión. Debe observarse una sola categoría (3) con el total de las observaciones Para guardar los cambios hechos en la base de datos
nombre de la base principal.dta
Para revisar que la nuevas variables fueron incluidas Para borrar la variable creada _merge, dejando posibilidad de nueva uniones
la
CREACIÓN DE UN ARCHIVO DO
Es un archivo que construye incluye la relación de todos los comandos necesarios para abrir, ejecutar y analizar una base de datos. Es una rutina de comandos. 2. ANALISIS DE BASES DE DATOS
COMANDOS DESCRIPCIÓN UNIVARIADA
COMANDO summarize summ sum Ej. summ edad peso talla summarize summ sum adicionando var, detail Ej. summ edad,de tabulate tab Ej. tab raza tabulate1 tab1 Ej. tab1 raza nivelsoc genero
USO Para estimar de una o más variables continuas numero de observaciones, media, desviación estándar y rango. En el ejemplo se describirán las variables edad, peso y talla Para estimar de una o mas variables continuas numero de observaciones, medidas de tendencia central, valores mínimos y máximos, medidas de dispersión, Percentiles, curtosis y sesgo (mayor detalle). Para estimar en una variable categórica número de observaciones, porcentaje y frecuencia acumulada Para estimar simultáneamente en mas de una variable categórica número de observaciones, porcentaje y frecuencia acumulada
3
lv
Para observar dispersión de los datos y valores aberrantes Para ver la distribución de una variable continua Para ver la distribución en caja de una variable continua Para ver la distribución de una variable continua comparada con el patrón de distribución normal Para realizar la prueba estadística de normalidad de una variable continua (Ho: distribución normal). Ofrece los datos de curtosis y sesgo (la distribución normal tiene una curtosis de 3 y un sesgo de cero) Prueba de Shapiro Wilk para probar normalidad de una variable continua (Ho: la variable tiene distribución normal) Para comprobar objetivamente la normalidad de una variable continua y evaluar sus posibles trasformaciones en búsqueda de normalidad en su distribución. Ho: la variable continua transformada tiene distribución normal
graph var Graph var, box graph var, norm qnorm var Sktest var
swilk var ladder var
COMADOS PARA ANÁLISIS BIVARIADO COMANDO
USO
RELACIÓN VARIABLE CONTINUA VS. DICOTÓMICA sdtest var, by(var) Ej. sdtest edad, by(genero) ttest var, by(var) ttest var, by(var) unequal tab var, summ (var) Ej. tab genero, summ (edad) regress reg reg vardep varindep
Se utiliza para comparar las varianzas una variable continua con una dicotómica. Ho: las varianzas son iguales Si las varianzas son iguales. Compara las medias una variable continua con una dicotómica. Ho: las medias de las categóricas son iguales. Si las varianzas no son iguales. Compara las medias una variable continua con una dicotómica. Ho: las medias de las categóricas son iguales. Muestra una tabla de contingencia que relaciona una variable dicotómica con una continua Regresión lineal con un sólo regresor
RELACIÓN VARIABLE DICOTÓMICA VS. DICOTÓMICA tab var var,chi2 tab var var, row cell exact, all
tabi a b c d cc var var cci a b c d
Relaciona dos variables dicotómicas mediante una prueba de chi2 Relaciona dos variables categóricas, calcula porcentaje dentro de las filas y las columnas, además de la prueba exacta de Fisher cuando se tiene una celda con menos de 5 observaciones. Realiza una tabla de contingencia con los valores exactos de las celdas, además de la prueba de chi2 Permite obtener la razón de momios relacionando dos variables dicotómicas Relaciona una tabla de contingencia con los valores exactos de las celdas, además de la prueba de chi2. Ofrece el OR
4
cs var var csi a b c d logit vardep varindep Logistic vardep varindep
Permite obtener RR relacionando dos variables dicotómicas Para realizar una tabla de contingencia con los valores de agrupados de la tabla. Calcula el RR Permite realizar una regresión logística con un sólo regresor
RELACIÓN VARIABLE CONTINUA VS. CATEGÓRICA DE MAS DE DOS CATEGORIAS tab var, summ (var) anova Ej. tab genero, summ (edad) oneway var var, means bonferroni
Realiza una tabla de contingencia que relaciona una variable categórica con una continua. Ofrece diferencia de medias y varianza entre las categorías Permite comparar medias y varianzas entre los grupos. Para medias: Ho: Las medias son diferentes H1: Al menos una media es diferente. Prueba Barttlet (varianzas): Ho: Las varianzas son iguales H1: Al menos una varianza es diferente.
RELACIÓN VARIABLE CONTINUA VS. CONTINUA
pwcorr var var, sig corr var var, sig
pcorr var var plot var1 var2 ksm var1 var2, lox
Correlación de Pearsón. Esta correlación ajusta por el numero de regresores. El calculo toma en cuenta el numero de observaciones completas. Correlación parcial. El calculo se realiza sin ponderar por otras variables Permite graficar en diagrama de dispersión dos variables continuas Permite graficar en diagrama de dispersión dos variables continuas con técnica de suavizamiento
CONTRUCCIÓN DE VARIABLES DUMMY PARA VARIABLES DE MAS DE DOS CATEGORIAS COMANDO tab var,gen (var)
USO Para generar variables indicadoras de una variable de más de dos categorías
ANÁLISIS MULTIVARIADO
COMANDO pwcorr vardep varindep1 varindep2….. varindepp, sig
USO Correlación de Pearsón. Esta correlación ajusta por el numero de regresores. Solo se usa para variables continuas pcorr vardep varindep1 varindep2….. varindepp Correlación parcial. Sin ponderación por otras variables. Solo se usa para variables continuas Opciones: regress/reg Comando para regresión lineal múltiple para reg vardep varindep1 varindep2 análisis multivariado con una variable dependiente varindep3..........varindepp continua y n variables independientes de cualquier tipo
5
logit vardep varindep1 varindep2…. varindepp
Logistic vardep varindep1 varindep2…. Varindepp
glm vardep varindep1 varindep2.... varindepp, family (poisson) link (log) lnoff(exposure) nolog Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog
Poisson vardep varindep1 varindep2..... varindepp, exp(exposure) nolog irr
sw Ej. sw logit vardep varindep1 varindep2.... varindepp, pr(0.2) Forward = pe Backward = pr
Comando para regresión logística múltiple con una variable dependiente dicotómica y n variables independientes de cualquier tipo. Los resultados estimados están en escala logarítmica, lo que permite estimar probabilidades y proporciones ajustadas en estudios de cohorte y transversales respectivamente Comando para regresión logística múltiple con una variable dependiente dicotómica y n variables independientes de cualquier tipo. Los resultados estimados están en escala real (razones de momios en estudios de casos y controles y razones de momios de prevalencia en estudios transversales). Comando para usar el modelo lineal generalizado para una variable con distribución poisson medida como conteo (regresión poisson) y n variables independientes de cualquier tipo Comando para regresión poisson múltiple para análisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados están en escala logarítmica Comando para regresión poisson múltiple para análisis multivariado con una variable dependiente de conteo y n variables independientes de cualquier tipo. Los resultados están en escala real (riesgos relativos) Nota: la variable exposure se utiliza para ajustar, cuando los denominadores no son iguales El uso de nolog es opcional, omite las iteraciones de realiza el paquete estadístico. El stepwise es un comando que le solicita al paquete estadístico la búsqueda de un modelo perfecto estadísticamente. Se ajusta con los valores de p esperados en las relaciones. Usado para cualquier tipo de regresión
3. DIAGNOSTICO DE MODELOS MULTIVARIADOS
REGRESIÓN LINEAL MULTIPLE COMANDO
USO
VERIFICACIÓN DE SUPUESTOS / ANÁLISIS DE RESIDUOS predict nombre de la variable de residuos, Una vez corrido el modelo propuesto, generar rstudent rvpplot varind1
qnorm nombre de la variable de residuos swilk nombre de la variable de residuos rvfplot, yline(0)
residuos estudentizados Permite graficar los residuos estudentizados con cada variable independiente Permite comprobar la normalidad de los residuos generados Permite comprobar el supuesto de que la media de los residuos es cero y la varianza es constante
6
Hettest
Esta prueba es la de heterocedasticidad (CookWeisberg), se usa para comprobar el supuesto de que los residuos tienen varianza constante. Ho: los residuos no tienen varianza constante
DETERMINACIÓN DE PUNTOS INFLUYENTES
predict nombre de la variable, hat Para predecir los valores de la matriz sombrero count nombre de la variable >2*p/n Para contra los valores mayores a 2p/n List if nombre de la variable >2*p/n Para listar los folios de los puntos mayores de 2p/n PUNTOS INFLUYENTES EN EL VECTOR BETA (distancia de Cook) predict nombre del archivo, cooksd Habiendo corrido el modelo propuesto se predicen los valores entre cada observación y la nube de puntos Count nombre de la variable >1 Para contar los puntos fuera con una distancia mayor de 1
PUNTOS INFLUYENTES EN CADA BETA dfbeta sum dfvarind1 dfvarind2..... dfvarindp
Permite calcular los dbeta de cada regresor Permite observar el rango y la media de los dbeta de cada regresor for var dfvarind1 dfvarind2....... Permite identificar los puntos influyentes de cada dfvarindp:count if abs(X)>2/sqrt(n) regresor Nota: Cuando hay una incongruencia de detectar puntos influyentes en cada beta, pero no en el vector se calculan los puntos influyentes en los valores predichos Dfit predict nombre de la variable, dfits Permite predecir los valores predichos sum nombre de la variable Permite la observación de los rangos y la media de los valores predichos count if abs(dfit)>2*sqrt(p/n) Permite contar los valores predichos mayores de 2sqrt(p/n) list vardep varind1 varind2….varindp if Permite listar los valores predichos mayores de abs(dfit)>2**sqrt(p/n) 2sqrt(p/n) Nota: luego de omitir los puntos influyentes debe correrse nuevamente el modelo.
ANÁLISIS DE MULTICOLINEALIDAD vif
Una vez corrido el modelo propuesto se calcula el factor de inflación de la varianza. Valores mayores de 10 indican multicolinealidad
REGRESIÓN POISSON COMANDO
USO
PRUEBAS DE BONDAD DE AJUSTE poisgof
Lrtest, s(0)
Una vez corrido el modelo propuesto y posteriormente el modelo nulo se realiza esta prueba de bondad de ajuste que compara estos modelos. Ho: el modelo propuesto ajusta los datos (los regresores incluidos explican a Y). Una vez corrido el modelo propuesto se escribe el comando “lrtest, s(0)”, luego se corre el modelo nulo y el comando “lrtest”. Esta prueba de bondad de ajuste compara los dos modelos, bajo la Ho: los dos modelos explican igualmente el comportamiento de Y
ANÁLISIS DE RESIDUOS
7
glmpred nombre de la variable de los residuos, dev sum nombre de la variable de los residuos qnorm nombre de la variable de los residuos swilk var
Permite generar los residuos de devianza Permite la observación de las características de los residuos de devianza Permite determinar la distribución de los residuos de devianza Prueba de Shapiro Wilk para probar normalidad de los residuos de devianza (Ho: los residuos de devianza tiene distribución normal)
REGRESIÓN LOGISTICA COMANDO
USO
PRUEBAS DE BONDAD DE AJUSTE lfit
Una vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos Modificación propuesta por Hosmer y Lemeshow. Ua vez corrido el modelo propuesto se utiliza esta prueba para verificar si el modelo ajusta los datos. Ho: el modelo ajusta los datos Permite evaluar sensibilidad y especificidad del modelo, además de los falsos positivos y negativos.
lfit, group(10)
lstat
GRAFICAS DIAGNOSTICAS lroc lsens
Permite evaluar el valor predicitvo del modelo. Un modelo sin valor predictivo tiene área 0.5 y un modelo perfecto tendría área 1 A través de una grafica, relaciona sensibilidad y especificidad del modelo.
ANÁLISIS DE RESIDUOS
lpredict nombre de la variable de los residuos graph res nombre de la variable de los
residuos
graph res nombre de la variable de los residuos, yline(0) sum nombre de la variable de los residuos lpredict dbetas, dbeta sum dbeta graph res nombre de la variable de los residuos, twoway oneway box border yline(0)
Permite generar residuos estandarizados Permite graficar los residuos
Permite la observación del rango y la media de los residuos estandarizados Permite generar dbetas, en búsqueda de puntos influyentes de cada regresor (beta) Permite observar el rango y la media de los dbetas
4. ANALISIS DE SUPERVIVENCIA la estimación de supervivencia se hace con métodos no paramétricos, usaremos Kaplan Meier. Análisis utilizado para estudios longitudinales. Tiene las siguientes características: Presencia fundamental de censura Presencia de fallas (evento)
8
La variable dependiente o respuesta es el tiempo El evento esta medido categóricamente
COMANDO stset tiemdd censura1 tab censura1 . sum tiemdd, detail . sts list
. sts list, by(pap)
. sts graph . sts graph, by(etapa) . sts test etapa,logrank
USO Prepara a STATA para el análisis de supervivencia. Se le indica la variable tiempo y censura Permite la observación de la variable censura Permite la observación de los valores máximos y mínimos de la variable tiempo. Incluye fallas y censuras La descripción se hace mediante la construcción de tablas de vida. Los principales parámetros son: Time: tiempo de supervivencia Begtotal= individuos vivos justo antes de este tiempo. fail=Numero de fallas fail/beg total= probabilidad estimada de supervivencia en el tiempo S estimada= producto de el No. de sujetos vivos antes del tiempo - No. de fallas / No. de individuos que están vivos antes del tiempo. S estimada es la función de supervivencia. Este analisis esta ajustado por el tiempo de las censuras. Permite la construcción de una tabla de vida estratificando por una variable. En este ejemplo vemos la supervivencia de las mujeres con antecedente de pap Nota: No se pueden hacer análisis de inferencias en bivariados. Los anteriores comandos grafican. las rayas horizontales muestran las censuras y las verticales las fallas. Logrank se usa para ver diferencias en las curvas de supervivencia observadas en Kapplan M. Ho= no hay diferencia entre las líneas
NOTA: El análisis bivariado y multivariado se hace mediante el modelo de riesgos proporcionales de cox.
9
Comandos y su descripción:
Ma. Esperanza Lucas Resendiz Append. Este comando permite unir a las observaciones de dos bases de datos y no a través de variables completas. Browse. Favorece la visualización de datos de la base en la hoja de captura sin la posible opción de modificación. by var: sum var, detail Como variante del sum condiciona por cualquier variable la descripción en detalle de cualquier otra centile Permite observar los percentiles que se deseen de X variable con característica de continua para que de esta forma pueda ser poder dividirla en categorías. Clear Este comando oculta la base de datos sin que se salve y sin que sea necesario salir del programa Codebook A través de este comando se explora una variable X ayudando a recordar sus valores. corr var var A través de este comando se establece la correlación entre dos o más variables count if abs (cook)>1 Se despliega el valor entre los residuos y beta count if abs(dfits)>2*sqrt(p/n) Cuenta los puntos influyentes de los valores predichos mismos que no deben sobrepasar de 2*sqrt(p/n). count if abs(DFvar1)>2/sqrt(n) Cuenta los puntos influyentes en cada una de las variables independientes (X) del modelo, mostrando el número de ellos, que no debe sobrepasar de 2/sqrt(n) count if abs(resid)>1.96 Presente el conteo de residuales mayores a 1.96 describe Es la descripción de una base de datos en general y de una variable (X) en particular dfbeta Se generan las distancias de diferentes variables independientes incluidas en el modelo (X), es decir las distancias entre residuos y el beta-j display Este comando sirve para realizar cualquier operación matemática. drop Borra variables a indicación del investigador. drop var-var Borra desde una variable inicial hasta una variable final. edit Este comando permite la visualización de los datos de la base en la hoja de captura con opción de algún tipo de modificación. exit, clear Este comando se emplea para salir del programa preservando el log pero sin salvar la base. fpredict dfits, dfits A través de este comando se generan las distancias existentes entre los valores observados o predichos y los esperados. gen
10
Se genera una nueva variable que puede ser independiente o bien ser origen de otra. graph DFvar1 DFvar2, box yline Permite realizar un gráfico de caja condicionado con la finalidad de visualizar puntos influyentes. graph res pred Se grafican los residuos estandarizados graph res pred, yline twoway onaway box border Se grafican los residuos estandarizados, con una línea paralela al eje de las x´s perpendicular al eje de las (y), incluyendo además, a un box plot paralelo a ambos ejes, mostrando valores aberrantes. graph res pred, yline(0) Esta grafica permite ver los residuos estandarizados, con una línea paralela al eje de las X perpendicular al eje de las Y. graph var Permite realizar de forma sencilla, un histograma de una variable(X, Y). graph var var Permite realizar un gráfico de correlación entre dos variables visualizando la tendencia graph var var, connect(l) Se realiza un gráfico de correlación entre dos variables con una línea que permite unir todas las observaciones. graph var, box Diagrama o gráfico de caja. graph var, box by Diagrama o gráfico de caja condicionado por valores de cualquier otra variable graph var, box by(var) yline Presenta una línea paralela al eje de las (X) y compatible en valores con eje de las (Y) en diagrama de caja que compara dos variables. graph var, his Se realiza un histograma sencillo de la variable solicitada. graph var, his norm Permite realizar un histograma con línea de distribución visible. graph var, his norm noaxis Permite realizar un diagrama de frecuencias con línea de distribución visible. graph var, his ylabel xlabel Etiqueta un diagrama de frecuencias(histograma) en sus ejes de manera automática. Keep Retiene en la base de datos, solo las variables que se deseen, eliminando automáticamente todas aquellas variables que no se escribieron posterior al comando. keep if Retiene los valores de una variable (X) de forma condicionada. ksm var var Permite realiza una diagrama de correlación entre dos variables continuas, presentando una línea suavizada que se emplea para hacer un promedio de los valores de ambas variables, pudiendo observarse una tendencia. label data Etiqueta la base de datos completa con el nombre que el investigador asigne. label define Este comando permite etiquetar categorías de exposición o grupos previamente re-codificados. label values A través de este comando es posible observar como fueron nombradas las categorías de exposición y sus valores después de haberse etiquetado. label var Etiqueta variables. ladder
11
Permite visualizar los diferentes tipos de transformaciones de una variable para así, poder elegir la mejor transformación. lfit A través de este comando se permite evaluar la prueba de Hosmer Lemeshow y ver si los datos se ajustan al modelo. lincom var-var Realiza un prueba de asociación (OR, p, IC) entre las diferentes categorías de una variable evaluando su igualdad y de esta forma se agrupen con la condición de haber corrido previamente un modelo de regresión. List Permite explorar a la variable. list folio if abs (DFvar1)>2/sqrt(n) Enlista los folios con puntos influyentes de una variable DF en particular. list folio if cook>1 Indica folios de valores influyentes. list folio if dfits>2*sqrt(p/n) Muestra a los folios con valores influyentes. list folio if resid>1.96 Muestra folios que contienen los residuos condicionados a >1.96. list if Condiciona la observación a un valor específico. list if abs(dfits)>2*sqrt(p/n Lista puntos influyentes en los valores predichos. list if abs(DFvar1)>2/sqrt(n) Lista puntos influyentes de la primera variable DF mostrando los datos de todas las variables de la base, incluyendo las nuevas variables que recién fueron generadas. list if abs(resid)>1.96 Lista los residuos mayores a 1.96. list var-var if Lista las variables desde una inicial hasta una final (condicional). log off Deshabilitar el log. log on Habilita el log. logistic var var Realiza un modelo de regresión logística bivariado así como multivariado. lpredict dbet, dbeta Sirve para generar residuos generando las distancias de diferentes variables independientes incluidas en el modelo. lpredict res, rstandard Muestra los residuos estandarizados. lpredict stand Genera los residuos estandarizados. lroc Diagnóstico del modelo através de la interpretación del área bajo la curva condicionado por puntos de corte en su sensibilidad así como de su especificidad. lstat Hace diagnóstico del modelo a través de una prueba de tamiz. lv var Gráfico de letras, mostrando valores aberrantes. merge Permite reunir dos bases de datos que tienen al menos una variable en común. predict cook, cooksd
12
Puntos influyentes en beta por la distancia de cook. predict r_stu, rstu Genera los residuos estudentizados posterior a correr un modelo de regresión múltiple. pwcorr var var Correlación entre dos o más variables. pwcorr var var if A través de este comando se puede establecer una correlación condicionada entre dos o más variables por valor(es) de una de ellas con o sin significancia estadística. pwcorr var var, sig Permite establecer correlación entre dos o más variables, con valor de significancia estadística. qnorm resid Gráfica de los residuos ajustándolos a una línea de distribución normal. qnorm var Gráficos que muestran el ajuste en una curva de distribución normal a los datos por observacion. recode Recodifica los valores de una variable (grupos o categorías de exposición) de acuerdo a determinados puntos de corte biológicamente plausibles o por estadística. regress Realiza una regresión lineal simple o múltiple. regress var var if Realiza una regresión lineal simple o múltiple de manera condicionada. rename Cambia el nombre a una variable. replace Reemplaza/modifica categorías de una variable. replace var if Reemplaza/modifica categorías de una variable(condicionada) por la misma o por otra variable. save, replace Salva la base de datos por las últimas modificaciones. sort Ordena los datos de una variable que pueden evaluarse con la indicación " by" stem var Diagramas de tallo y hoja. sum cook Resumen de datos que permiten observar el tamaño de la distancia a la beta siendo deseable que esta distancia de cook <1. sum dfit Visualiza las distancias entre valores predichos y esperados. sum DFvar1 DFvar2 DFvar3 Visualiza los puntos influyentes en beta-j. sum var if Descripción de la variable acotada a valor(es) considerados por el investigador. sumarize A través de este comando se pueden describir una-mas variables resumiendo medidas de tendencia central y la distribución. sumarize var, detail Describe una-mas variables resumiendo sus medidas de tendencia central y su distribución. tab var if Permite a través de este comando observar datos de una variable acotados a cierto valor(es). tab var var Explora dos variables. tab var, gen (var)
13
A través de este comando se producen a las variables indicadoras o dummies para cada una de las categorías de la variable. tab var, sum var Cruza datos descriptivos (medidas de tendencia central de la segunda variable) por categorías de la primera variable permitiendo hacer un análisis de las variables por grupos. tab_merge Visualiza la variable generada del comando merge. tabulate Explora variable(s). tabulate var, nolabel Borra la etiqueta de las categorías que tenga la variable. ttes var if Prueba de t de student condicionada por un valor(es). ttest Prueba de t de student de comparación de dos medias muestrales. ttest var, by(var) Prueba de t de student condicionada a la variable dependiente vif Inflación de la varianza (multicolinealidad). Para descartar multicolinealidad el vif debe ser <10.
14