Primera Ediciรณn
27/01/2021
Probabilidad y Estadística Primera Edición. Última Evaluación – Revista Interactiva. Universidad Nacional Experimental Politécnica de las Fuerzas Armadas Nacional Bolivariana.
Formato: 210 x 297 mm Paginas:
Diseño y maquetación: Jesús Vielma Arte de la portada: Conformado por un collage de imágenes referentes a la catedra de probabilidad y estadística, cada imagen tiene su respectivo dueño así que los créditos van a quien corresponda, por su parte el collage y creación del arte total de la portada es del autor: Jesús Vielma.
Escritores: Anarus Vellorin Jesús Vielma Ausbel Rivera
Editores: Jesús Vielma Ausbel Rivera
SOBRE EL DERECHO DE AUTOR: Sobre la revista: La presente revista es puesta a disposición por el Grupo Vielma, con el fin de realizar una evaluación de la asignatura además de ofrecer contenido para uso parcial en investigaciones y estudios académicos, así como la prueba simple de la calidad de la revista. Queda expresamente prohibido la venta, el alquiler o cualquier uso para fines comerciales.
Sobre nosotros: Somos un equipo de estudiantes conformado para realizar las evaluaciones correspondientes en la catedra de Probabilidad y Estadística durante este semestre. Hacemos un análisis y explicamos contenidos de la asignatura, ofreciéndolo bajo dominio público y la propiedad intelectual está disponible de forma gratuita, ya que consideramos que el conocimiento y la educación deben de ser accesibles, gratuitos y libres para todos y cada uno.
“El conocimiento es libre” Anonymous.
Copyright © 2021 por Grupo Vielma Derechos reservados. UNEFA / Clases Virtuales
MARACAY / VENEZUELA
CONTENIDOS:
1
Introducción…………………………………………………………………………... 5
2
Diagrama de Dispersión………………………………………………………………. 6
2.1 Definición……………………………………………...……………………………. 6 2.2 Características……………………………………………………………………….. 7
3
Correlación……………………………………………………………………………. 8
3.1 Correlación Lineal…………………..………………………………………………. 8 3.1.1 Definición y Características……………………… …..….………………………… 8 3.2 Correlación No Lineal………………………………………………………………. 9 3.2.1 Definición y Características……………………… ….…………………………… 10
4
Coeficiente de Correlación de Pearson……………………………………………… 11 4.1.1 Definición………………………….. …. …………………………………… ……. 11 4.1.2 Características……………………… …………………………………… ……….. 12
5
Bibliografía…………………………………………………………………………... 21
INTRODUCCIÓN: El principal objetivo de las empresas, en un mercado global con mayores competidores, es ofrecer productos y servicios de calidad a sus clientes finales. Para averiguar si están cumpliendo con los mejores estándares de calidad, las compañías recurren a diversas herramientas para detectar posibles contingencias. Una de las más usadas es el diagrama de dispersión.
Conocido también como “gráfico de puntos” o “diagrama XY”, es una de las siete herramientas básicas de control de calidad utilizadas en la mejora de procesos y la implementación de proyectos lean con Six Sigma. Estas incluyen el histograma, el gráfico de Pareto, la hoja de verificación, el gráfico de control, el diagrama de causa-efecto y el diagrama de flujo.
DIAGRAMA DE DISPERSIÓN: Definición: El diagrama de dispersión se usa comúnmente para mostrar cómo dos variables se relacionan entre sí. De este modo, permite estudiar las relaciones que existen entre dos factores, problemas o causas relacionadas con la calidad, o un problema de calidad y su posible causa. Su objetivo es analizar estas variables para determinar la forma en que se relacionan o qué tan independientes son una de la otra. Esto se llama correlación y existen tres tipos: 1- Correlación positiva: Se da cuando hay una relación proporcional entre ambas variables; es decir, las dos disminuyen o aumentan a la vez. 2- Correlación negativa: Se produce cuando el comportamiento de una variable es diferente a la otra. Por ejemplo, mientras una aumenta, la otra disminuye. 3- Correlación nula: No existe algún tipo de comportamiento entre ambas variables.
Pasos para elaborar un diagrama de dispersión: 1- Identificar la situación y las variables: Lo primero que deben hacer las organizaciones es detectar el problema en cuestión. Luego, determinar las variables que permitan caracterizar la situación. 2- Recolectar los datos de las variables: Se recopilan los datos que se analizarán para verificar la relación entre las variables. Es importante que estos datos se encuentren dentro del mismo periodo de tiempo. 3- Dibujar el plano cartesiano: En el eje X se encuentra la variable independiente (que no es influenciada por la otra) y en el eje Y se coloca la variable dependiente (aquella que se encuentra afectada por la otra variable). 4- Trazar las variables pareadas: Las variables son representadas por círculos. Si los dos pares de datos tienen el mismo valor, ambos deben ser dibujados uno al costado del otro o trazar el segundo punto a corta distancia.
5- Analizar los datos: Colocados los datos en el diagrama, se analiza el diagrama para determinar la correlación que existe entre las variables. Siempre se debe buscar la causa raíz del problema.
El diagrama de dispersión: es una herramienta muy útil con la capacidad de mostrar relaciones no lineales entre variables, y es usado ampliamente en los planes de Six Sigma. Conociendo estas correlaciones, se puede determinar la estrategia a usar para controlar y supervisar el proceso de manera eficiente, mejorando así la calidad.
Características: Impacto visual: Un diagrama de dispersión muestra la posibilidad de la existencia de correlación entre dos variables de un vistazo. Comunicación. Simplifica el análisis de situaciones numéricas complejas Guía en la investigación. El análisis de datos mediante esta herramienta proporciona mayor información que el simple análisis matemático de correlación, sugiriendo posibilidades y alternativas de estudio, basadas en la necesidad de conjugar datos y procesos en su utilización. Estratificación. Separar un conjunto de datos en diferentes grupos o categorías, de forma que los datos pertenecientes a cada grupo comparten características comunes que definen la categoría.
CORRELACIÓN: Definición: La Correlación se puede encontrar en distintos campos de la ciencia en los que puede aplicar las matemáticas; desde la Biología a la Química o la Economía, y/o en nuestro caso a cualquier rama ligada a la Ingeniería. Consiste en encontrar un vínculo o relación entre 2 elementos o variables, el cual se puede encontrar si comparamos gráficamente las variables. Es una forma numérica en la que la estadística mide la dependencia de una variable con respecto de otra variable independiente, refleja la medida de asociación entre variables.
Tipos de Correlación: Existen 2 tipos de variables para las Correlaciones las lineales y las no lineales.
1- Lineales: Se Definen por mantener la recta ya se en sentido diagonal, vertical, inclinada o con pendientes u Horizontal.
2- No Lineales: Se Diferencia por presentarse en Parábolas o Hipérbolas, se pueden Presentar en Correlación Positiva y Negativa Mediante los llamados Diagramas de Dispersión Ejemplo de Diagrama de Dispersión:
Por ejemplo; como vemos en las imágenes en el caso 1 la Correlación dice que Y es positiva cuando X aumenta y Y Crece, por lo tanto, es una Correlación Lineal Positiva, Pero en Cambio en el Segundo Ejemplo Y es negativa Cuando X Crece, por lo tanto, sería una correlación Negativa Lineal, en el caso de ambas las 2 son pendientes. Y presentan una Fuerza Fuerte.
Determinar la fuerza de una correlación: Esta se mide según el nivel de dispersión que tengan los puntos con respecto a la recta trazada, pero sin embargo necesitamos una medida que nos diga que tan fuerte es la asociación lineal y la dirección que toma la relación lineal, la cual es el coeficiente de correlación
Coeficiente de correlación lineal: Mide la fuerza y el sentido de la relación lineal que existe entre dos variables cuantitativas, se denomina con la letra Griega Ro= ρ . el cual es igual a Ro entre las Covarianzas de X y Y Dividido por la desviación estándar de la variable X multiplicado por la desviación estándar de la variable Y.
¿Como se interpreta?: Estos pueden tomar valores de -1 y 1 pasando por el 0, siendo en el caso de que si pasa por -1 se convierte en asociación lineal perfecta negativa y en el caso de 1 sería una asociación lineal perfecta positiva, pero cuando toma el valor 0 la relación lineal es nula.
Presentando la siguiente tabla se puede determinar la fuerza de una correlación:
Regresión Cuadrática: Estos casos se presentan solo cuando se quiere determinar una Ecuación no lineal que presente una parábola o una hipérbole, su fórmula es la siguiente:
Donde Yi representa la variable de la pendiente, y A,B y C son los parámetros de la ecuación ósea que son valores que no van a ser conocidos, La X va a ser la observación de la variable independiente, y la E va a ser el error asociado al modelo. Cabe Mencionar que es muy importante tener la tabla de valores.
Breve repaso introductorio a la correlación lineal y la regresión lineal: Son métodos que estudian una relación lineal existente entre dos variables, Antes de empezar a profundizar en cada uno de ellos, nos conviene destacar algunas diferencias entre ellas:
La correlación cuantifica como de relacionadas están dos variables, mientras que la regresión consiste en generar una ecuación que, basándose en la relación existente entre ambas variables, permita predecir el valor de una a partir de otra
El cálculo de la correlación entre dos variables es independiente del orden o asignación de cada variable a X e Y, la cual mide únicamente la relación entre ambas sin considerar dependencias. En el caso de la regresión lineal, el modelo varía según qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).
A un nivel experimental, la correlación se suele emplear cuando ninguna de las variables se ha controlado, simplemente se han medido ambas y se desea saber si
están relacionadas. En el caso de estudios de regresión lineal, es más común que una de las variables se controle (tiempo, concentración de reactivo, temperatura…) y se mida la otra
los estudios de correlación lineal preceden a la generación de modelos de regresión lineal. Primero se analiza si ambas variables están correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.
Ahora si ya habiendo echo una base sobre la correlación y la regresión pasaremos a definir sus conceptos sus características y un ejercicio de ejemplo:
Que es la correlación lineal: Para poder estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.
Covarianza muestral=Cov(X,Y)=
∑∋¿1(xi−x ¯ ¯ ¯ )( yi− y ¯ ¯ ¯ )N −1 n−1
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es comparable entre distintos pares de variables. Para poder hacer comparaciones se estandariza la covarianza, generando lo que se conoce como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall. Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta. Se emplean como medida de fuerza de asociación (tamaño del efecto): 0: asociación nula. 0.1: asociación pequeña. 0.3: asociación mediana. 0.5: asociación moderada. 0.7: asociación alta. 0.9: asociación muy alta.
Las principales características entre los tres coeficientes son: La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas. La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien cuando no se satisface la condición de normalidad para variables continuas y los datos se pueden transformar a rangos. Es un método no paramétrico. La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango
Además del valor obtenido para el coeficiente de correlación, es necesario calcular su significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de correlación a +1 o −1, si no es significativo, se ha de interpretar que la correlación de ambas variables es 0, ya que el valor observado puede deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras, por un lado, está el parámetro estimado (en este caso el coeficiente de correlación) y por otro su significancia a la hora de considerar la población entera. Si se calcula el coeficiente de correlación entre XX e YY en diferentes muestras de una misma población, el valor va a variar dependiendo de las muestras utilizadas. Por esta razón se tiene que calcular la significancia de la correlación obtenida y su intervalo de confianza.
Para este test de hipótesis, H0 considera que las variables son independientes (coeficiente de correlación poblacional = 0) mientras que, la HaHa, considera que existe relación (coeficiente de correlación poblacional ≠ 0).
La correlación lineal entre dos variables, además del valor del coeficiente de correlación y de sus significancias, también tiene un tamaño de efecto asociado. Se conoce como coeficiente de determinación R2. Se interpreta como la cantidad de varianza de YY explicada por XX. En el caso del coeficiente de Pearson y el de Spearman, R2 se obtiene elevando al cuadrado el coeficiente de correlación. En el caso de Kendall no se puede calcular de este modo. (No he encontrado como se calcula).
Ejercicio 1: Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los siguientes datos:
X representa la renta nacional en millones de euros e Y representa las ventas de la compañía en miles de euros en el periodo que va desde hasta (ambos inclusive). Calcular: 1.La recta de regresión de Y sobre X. 2.El coeficiente de correlación lineal e interpretarlo. 3.Si en la renta nacional del país fue de millones de euros. ¿Cuál será la predicción para las ventas de la compañía en este año?
A continuación, está la solución: 1 La recta de regresión de Y sobre X.
2 El Coeficiente de correlación lineal e interpretarlo.
Es un coeficiente de correlación positivo y cercano a uno, por lo que la correlación es directa y fuerte.
Si en la renta nacional del país fue de millones de euros. ¿Cuál será la predicción para las ventas de la compañía en este año?
RELACION LINEAL EN EL AREA DE PROBABILIDAD Y ESTADISTICA En estadística, el análisis de la regresión es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una variable dependiente y una o más variables independientes (o predictoras). Más específicamente, el análisis de regresión ayuda a entender cómo el valor de la variable dependiente varía al cambiar el valor de una de las variables independientes, manteniendo el valor de las otras variables independientes fijas. Más comúnmente, el análisis de regresión estima la esperanza condicional de la variable dependiente dadas las variables independientes - es decir, el valor promedio de la variable dependiente cuando se fijan las variables independientes. Con menor frecuencia, la atención se centra en un cuantil, u otro parámetro de localización de la distribución condicional de la variable dependiente dadas las variables independientes. En todos los casos, el objetivo de la estimación es una función de las variables independientes llamada la función de regresión. En el análisis de regresión, también es de interés caracterizar la variación de la variable dependiente en torno a la función de regresión, la cual puede ser descrita por una distribución de probabilidad.
El análisis de regresión es ampliamente utilizado para la predicción y previsión, donde su uso tiene superposición sustancial en el campo de aprendizaje automático. El análisis de regresión se utiliza también para comprender cuales de las variables independientes están relacionadas con la variable dependiente, y explorar las formas de estas relaciones. En circunstancias limitadas, el análisis de regresión puede utilizarse para inferir relaciones causales entre las variables independientes y dependientes. Sin embargo, esto puede llevar a ilusiones o relaciones falsas, por lo que se recomienda precaución, por ejemplo, la correlación no implica causalidad. Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión. Métodos familiares tales como la regresión lineal y la regresión por cuadrados mínimos ordinarios son paramétricos, en que la función de regresión se define en términos de un número finito de parámetros desconocidos que se estiman a partir de los datos. La regresión no paramétrica se refiere a las técnicas que permiten que la función de regresión consista en un conjunto específico de funciones, que puede ser de dimensión infinita. El desempeño de los métodos de análisis de regresión en la práctica depende de la forma del proceso de generación de datos, y cómo se relaciona con el método de regresión que se utiliza. Dado que la forma verdadera del proceso de generación de datos generalmente no se conoce, el análisis de regresión depende a menudo hasta cierto punto de hacer suposiciones acerca de este proceso. Estos supuestos son a veces comprobables si una cantidad suficiente de datos está disponible. Los modelos de regresión para la predicción son frecuentemente útiles, aunque los supuestos sean violados moderadamente, aunque no pueden funcionar de manera óptima. Sin embargo, en muchas aplicaciones, sobre todo con pequeños efectos o las cuestiones de causalidad sobre la base de datos observacionales, los métodos de regresión pueden dar resultados engañosos.
EJEMPLO RELACIONADO A LA INGENIERIA DE SISTEMA Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
1- Hallar la ecuación de la recta de regresión de la edad sobre el peso.
2- ¿Cuál sería el peso aproximado de un niño de seis años?
Respuesta: Hacemos la siguiente tabla
Calculamos los promedios
Calculamos la covarianza y la varianza de
La recta de regresiรณn de la edad sobre el peso es aquella que pasa por el punto tiene pendiente
y
Despejamos y obtenemos la recta de regresión
Para encontrar el peso aproximado de un niño de seis años, sustituimos ecuación de regresión y obtenemos:
en la
BIBLIOGRAFÍA: Referencias de Autores: http://jaramose.blogspot.com/2008/06/regresion-cuadratica-la-regresin.html https://es.slideshare.net/darlenisv/diagrama-de-dispersin-y-regresion-cuadratica https://youtu.be/AZnyVbwyONg https://youtu.be/n9odGHfgL8s https://youtu.be/aKsjilxc5ww https://es.slideshare.net/daemon1309/regresion-ycorrelacion https://bookdown.org/dietrichson/metodos-cuantitativos/coeficientes-de-correlacion.html