Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria
INSTALACIÓN, AMPLIACIÓN Y MEJORAMIENTO DE LOS SERVICIOS DE INTERNET DE ALTA CAPACIDAD EN LAS CAPITALES DE DISTRITO Y LOCALIDADES ADYACENTES DE LA
REGIÓN HUÁNUCO
Anexo IV [Detalle Metodológico del Proyecto] TEMAS ABARCADOS:
Desarrollo Econométrico [Regresión Multivariable, Gompertz]
Huánuco – Enero de 2013
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
DIRECCIÓN DE TELECOMUNICACIONES
Página
2
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Desarrollo Econométrico del Proyecto Durante el desarrollo del estudio de campo del proyecto, se hizo necesario contar con un análisis sistémico de pronóstico de oferta y demanda futura de los servicios públicos de telecomunicaciones, las cuales desde el punto de vista metodológico se han clasificado en tres categorías [5]: •
Modelos Cualitativos
•
Modelos de Series de Tiempo
•
Modelos Causales
Técnicas de Pronóstico
Modelos Cualitativos
Modelos de Series de Tiempo
Modelos Causales
Método de Entrevista Delphi
Promedio Móvil
Regresión Simple
Consultas a Proveedores
Suavizamiento Exponencial
Regresión Múltiple
Método de Encuestas
Proyección de Tendencias
Figura A-IV.1: Modelos de pronósticos utilizados para el análisis de la oferta y demanda futura de servicios de Telecomunicaciones. A continuación, una breve explicación de las técnicas más representativas del modelo cualitativo: 1) Método de Entrevista Delphi: Este proceso de grupo iterativo permite realizar pronósticos a los expertos, quienes se encuentran ubicados en diferentes lugares DIRECCIÓN DE TELECOMUNICACIONES
Página
3
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
dentro de la estructura organizacional de las Municipalidades Provinciales, Distritales y Locales. Hay tres tipos diferentes de participantes en el proceso Delphi: quienes toman las decisiones del pronóstico, el equipo de analistas de campo y quienes responden las entrevistas. El grupo que toma las decisiones generalmente de un grupo reducido de expertos que llevan a cabo el pronóstico. El personal de equipo de analistas de campo, ayuda a quienes toman las decisiones mediante la preparación, distribución, recolección y resumen de una serie de cuestionarios y resultados de entrevistas. Quienes responden son un grupo de personas cuyo juicio se valora y se solicita. Este grupo proporciona aportes a quienes toman las decisiones del modelado del pronóstico. Para nuestro estudio de campo se utilizó esta técnica para recabar información de las autoridades Municipales a través de Entrevistas, quienes definieron las matrices FODA para cada distrito, conjuntamente con su apreciación respecto a los alcances del proyecto. 2) Consultas a Proveedores: De acuerdo con ese enfoque, cada empresa proveedora de servicios de Telecomunicaciones estima cuál será el nivel de ventas en su zona de operaciones, así como las tecnologías emergentes de mayor aceptación en el mercado; estos pronósticos se revisan para asegurarse de que son realistas y entonces se combinan a nivel distrital, regional y nacional para llegar a un pronóstico general. En nuestro caso, se utilizó este enfoque con la finalidad de recabar las tendencias tecnológicas en lo que respecta a la red de acceso inalámbrico con tecnología 4G-LTE y su evolución futura a la integración de las Redes de Nueva Generación NGN. Entre los principales proveedores consultados figuran: a. Huawei Technologies b. ZTE Corporation c. Cisco Systems 3) Método de Encuestas: Cuando se aplica este método, se solicitan aportaciones de los consumidores actuales o potenciales con relación a sus planes futuros de compra. Esta técnica no sólo puede ayudar a preparar un pronóstico sino también a mejorar el diseño del producto o servicio y a planear nuevos. Para el presente estudio de campo, se desarrollaron encuestas de campo tanto socio económicos, como de servicios de telecomunicaciones.
DIRECCIÓN DE TELECOMUNICACIONES
Página
4
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Modelos de Pronósticos de Series de Tiempo: Tratan de pronosticar el futuro mediante el empleo de datos históricos. Suponen que lo que sucederá en el futuro es una función de lo que ha sucedido en el pasado. En otras palabras, los modelos de series de tiempo observan lo que ha sucedido durante un periodo y utilizan una serie de datos pasados para realizar el pronóstico. En consecuencia, si tratamos de pronosticar la demanda del servicio de consultoría TIC para el desarrollo de Micro Controladores en las PYMES, utilizamos la información de tendencia de la demanda de las semanas anteriores para realizar el pronóstico. 1) Promedio Móvil: Los promedios móviles son útiles si se puede suponer que las demandas del mercado mantendrán una cierta estabilidad a lo largo del tiempo. Este procedimiento tiende a ponderar las irregularidades en el corto plazo de las series de tiempo. Un pronóstico de promedio móvil para el periodo n, el cual sirve como una estimación de la demanda del siguiente periodo, se expresa de la siguiente manera:
Pronóstico de promedio móvil
ó
Ecuación A-IV.1: Pronóstico de Promedio Móvil.
Lo cual equivale a escribir matemáticamente lo siguiente: F!
"!#$ % "!#& %⋅⋅⋅ %"!#(
Ecuación A-IV.2: Cálculo del Promedio Móvil.
Dónde: Ft = Pronóstico para el periodo t. Yt = Valor real en el período t. n = número de periodos para promediar.
DIRECCIÓN DE TELECOMUNICACIONES
Página
5
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
2) Suavizado Exponencial: Es un método de pronóstico fácil de utilizar y que se maneja eficientemente mediante el uso de aplicaciones ofimáticas orientadas hacia temas de econometría, tales como Excel, SPSS, Matlab, entre otros. Existen varias variantes referido a las fórmulas de suavizado exponencial utilizado en el análisis de regresión, entre las más utilizadas se destacan: Tipo de Pronóstico de
Aplicaciones Típicas en
Característica
Series de
el Estudio de Campo
Tiempo Regresión Lineal
Si la relación entre las dos Pronóstico
de
PBI,
variables está determinada por usuarios de telefonía fija, una
recta
de
la
forma: telefonía pública, etc.
y=mx+b=b0+b1*X. Regresión
Si la relación entre las dos Pronóstico de crecimiento
Exponencial
variables está determinada por poblacional,
Semi/Logarítmica una expresión de la forma: "
)* + ó
"
)
,-
Índice
de
Penetración de Servicios, etc.
.
Regresión
Si la relación entre las dos Pronóstico
Exponencial
variables está determinada por públicos telefonía móvil,
Gompertz
una expresión de la forma: internet, etc. "!
./#012 3 4
de
servicios
.
Cuadro A-IV.1: Detalle de Variantes de Pronóstico utilizadas en el Suavizado Exponencial. 3) Proyección de Tendencias: Esta técnica ajusta una línea de tendencia a una serie de puntos de datos históricos y entonces proyecta la línea hacia el futuro para pronósticos de mediano y largo plazo. Existen varias ecuaciones matemáticas de tendencias que pueden desarrollarse por ejemplo la aproximación lineal, exponencial, cuadrática, etc. En nuestro caso de estudio se ha utilizado una línea de tendencia
DIRECCIÓN DE TELECOMUNICACIONES
Página
6
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
lineal, en el cual la variable independiente (X) es el período considerado. El modelo se describe a continuación: 6 Y
b8 % b$ *
Ecuación A-IV.3: Cálculo de la Proyección de Tendencia.
Dónde: 6 = Valor pronosticado. Y
b8
b$ X
Ordenada al origen.
Pendiente de la línea. Período (X=1, 2, 3,…, n).
Usualmente se aplica el método de mínimos cuadrados, para encontrar la línea que minimiza la suma de los errores cuadrados. Este enfoque produce una línea recta que minimiza la suma de los cuadrados de las distancias verticales desde la línea hasta cualquiera de las observaciones reales a pronosticar. El método de mínimos cuadrados es una técnica de análisis de regresión que no debe entenderse como un procedimiento para establecer una relación de causa y efecto entre las variables. Este procedimiento solo indica cómo o en qué medida las variables están relacionadas una con otra. Para efectuar conclusiones acerca de una relación de causa y efecto, el especialista debe basarse técnicas de pruebas de significancia tales como Prueba t, Prueba F, Intervalo de confianza, entre otros. Modelos de Pronósticos Causales: Incorporan las variables o factores que podrían influir en la cantidad pronosticada por el modelo. En nuestro caso de estudio, la ofertademanda de los servicios públicos de Telecomunicaciones en los Distritos y Localidades adyacentes, depende de la infraestructura existente, tipo de tecnología (2G, 3G, 4G, 5G), estación del año, de los proyectos financiados por el MTC-FITEL, número de convenios suscritos con las instituciones académicas entre otras. De esta forma, un modelo causal intentaría incluir factores que consideren estos parámetros. Este tipo de modelos también podría incluir datos de oferta-demanda anteriores como las de series de tiempo, pero también incluyen otros factores. La función del analista consiste en desarrollar la mejor DIRECCIÓN DE TELECOMUNICACIONES
Página
7
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
relación estadística entre la oferta-demanda o la variable que se desea pronosticar y el grupo de variables independientes. El modelo causal cuantitativo más común es el análisis de regresión simple. 1) Regresión Simple: El análisis de regresión lineal simple (RLS) permite estudiar una relación estocástica entre dos variables X e Y, donde los valores posibles de Y se pueden asociar con cualquier valor de X.
A continuación se detalla el modelo
poblacional de la regresión lineal simple: ":
;8 % ;$ *: % <:
Ecuación A-IV.4: Modelo de Regresión Lineal Simple. Dónde: β8 , β$ : Coeficientes de regresión a estimarse; β8 es denominado intercepto y β$ es
denominado pendiente.
": : Variable respuesta, explicada, variable pronosticada para la i-ésima observación.
*: : Variable independiente, explicativa, predictora, regresora, etc.
<: : Variable aleatoria no observable que puede tomar cualquier valor, se le conoce
como variable perturbadora o error estadístico. Esta variable representa a las demás variables no consideradas en el modelo, a los errores de muestreo y cualquier otro aspecto no especificado en el modelo. El supuesto es que la variable aleatoria Y está formada por una parte predecible la cual es función lineal de X y una parte no predecible que es el error aleatorio, este error aleatorio (<: ) incluye efectos de todos los otros factores no considerados en
el modelo. Asimismo se debe tener en cuenta que la variable explicativa X debe ser considerada como fija, es decir, X es una variable matemática medida sin error. A continuación se listan los supuestos asumidos en el modelo de regresión lineal simple:
DIRECCIÓN DE TELECOMUNICACIONES
Página
8
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Supuesto N° 1: En promedio el valor esperado de los errores <: es Cero (0), es decir, hay errores por exceso y por defecto que en promedio se anulan. @A<: |*: C
0
Ecuación A-IV.5: Valor Esperado de los Errores < .
Supuesto N° 2: El error en la i-ésima observación no depende del error cometido en la j-ésima observación, cuando esta suposición no es satisfecha se tiene un problema de autocorrelación.
EFGHIJHKLH M
EFGN< , <O P
QR.< S @.< 44N<O S @.<O 4PT
QN< <O P
U,
JVW
Ecuación A-IV.6: Covarianza.
Esto quiere decir que <: y <X no están correlacionados. También se conoce como la independencia de las observaciones.
Supuesto N° 3: La varianza de los errores para cada, es un número constante; representa el supuesto de homo cedasticidad o igual dispersión, es decir, que las poblaciones tienen igual varianza. Esto es:
Y.< |* 4
@Z< S @.< 4[&
@Z< [&
\&
Ecuación A-IV.7: Varianza de los errores < para cada * .
En situaciones prácticas, lo que está al alcance del investigador de campo es una muestra de valores de Y correspondiente a las X’s fijos, por consiguiente la tarea ]8 y ; ]$ utilizando la información de la muestra es la estimación de los parámetros ;
recopilada.
El modelo de regresión lineal de la muestra se describe a continuación:
DIRECCIÓN DE TELECOMUNICACIONES
Página
9
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
]8 % ; ]$ *: % ;
6^ "
:
Ecuación A-IV.8: Modelo de Regresión de Muestra Estimada.
Dónde: ]8 : Término constante, es la ordenada en el origen o intercepto y se interpreta β como el valor estimado o predicho de Y cuando X es 0.
]$ : Pendiente, es el cambio pronosticado en Y cuando hay un cambio unitario en β
X.
: : Término
Residual.
6^ : Variable respuesta, variable de la i-ésima muestra de campo. "
*: : Variable independiente, explicativa, predictora, regresora, etc.
]8 y ; ]$ se emplea el método de los Para la estimación de los parámetros de regresión ;
mínimos cuadrados ordinarios (MCO), que consiste en minimizar las sumas de los cuadrados residuales. Se sabe que: 6^ % "
":
: ⇒ :
6^ ": S "
Ecuación A-IV.9: Error Residual de la Regresión de Muestra Estimada. Esto requiere decir que el error de la muestra es la diferencia entre el valor observado y el valor estimado. Con el método de mínimos cuadrados ordinarios se desea minimizar la siguiente expresión: `
(
a :b$
:
&
(
]8 S ; ]$ *: P& aN": S ; :b$
Ecuación A-IV.10: Error Cuadrático Medio.
DIRECCIÓN DE TELECOMUNICACIONES
Página
10
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
]8 y ; ]$ se obtiene: Derivando la expresión respecto a ; c` ]8 c;
c` ]$ c;
(
]8 S ; ]$ *: P S2 aN": S ; (
:b$
]8 S ; ]$ *: & P S2 aN*: ": S *: ; :b$
]8 y ; ]$ . Ecuación A-IV.11: Primeras Derivadas Parciales de Q respecto a ; Igualando a cero las expresiones de la ecuación anterior, y luego lo ordenamos para obtener las siguientes ecuaciones normales: (
(
a ": :b$
(
a *: ": :b$
]8 % ; ]$ a.*: 4 ; :b$
(
(
]8 a.*: 4 % ; ]$ aN*: & P ; :b$
:b$
Ecuación A-IV.12: Ecuaciones Normales. ]8 y ; ]$ de las expresiones de la ecuación anterior se tiene: Al despejar los valores de ; ]$ ;
∑(:b$.*: ": 4 S ∑(:b$.*: 4 ∑(:b$.": 4 ∑(:b$N*: & P S N∑(:b$.*: 4P
&
]8 ;
]$ h̅ fg S ;
]8 y ; ]$ . Ecuación A-IV.13Valores de ;
Para verificar si los valores hallados son mínimos, se obtiene la segunda derivada: c&` ]8 c&;
c&` ]$ c&;
2 j0
(
2 aN*: & P j 0 :b$
]8 y ; ]$ . Ecuación A-IV.14: Segundas Derivadas Parciales de Q respecto a ; Como los valores son siempre positivos, entonces los valores de los estimadores hallados son mínimos. De acuerdo con el teorema de Gauss-Markov [27, 28], se puede concluir que los estimadores mínimos cuadrados hallados son óptimos o de mínima
DIRECCIÓN DE TELECOMUNICACIONES
Página
11
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
varianza dentro de la clase de estimadores insesgados que son funciones lineales de las observaciones. A continuación se detallan las ecuaciones matemáticas más útiles respecto a los parámetros econométricos relevantes para el cálculo de la verificación del modelo de regresión lineal simple: ]8 P YN;
n
: \k
\k &
]$ P YN;
&
k
&
\k & m n o. @ á ∑(:b$.h: S h̅ 4& \k & n o. @ á ∑(:b$.h: S h̅ 4&
% h̅ & l
∑(:b$. : 4& S2
]8 P N; ]$ P N;
]8 P rYN;
]$ P rYN;
]8 ∑(:b$ ": S ; ]$ ∑(:b$ *: ": ∑(:b$ ": & S ; S2
6^ P& ∑(:b$N": S " S2
Ecuación A-IV.15: Cálculo de la Varianza y la Desviación Estándar de los ]8 y ; ]$ . Estimadores ;
]8 y ; ]$ vienen dados por las siguientes Los intervalos de confianza para los parámetros ;
expresiones basadas en la función de distribución de T Student: ]8 ∓ ;8 ∈ 〈; ]$ ∓ ;$ ∈ 〈;
.$#v/&,(#&4
.$#v/&,(#&4
]8 4〉 .; ]$ 4〉 .;
Ecuación A-IV.16: Cálculo del Intervalo de confianza para el Término Constante ;8 y la Pendiente ;$
Con la finalidad de saber que tan bien predice la variable estímulo a la variable respuesta, es importante analizar la variación de la variable Y. La variación total de los valores observados de Y alrededor de su media puede ser dividida en dos: una atribuible al modelo de regresión (variación explicable) y la otra a factores aleatorios (variación no explicable), tal como se muestra en la siguiente expresión: ∑(:b$.": S "g4& ⇓ = Y ó z { Y . |z4
6^ S "gP ∑(:b$N" ⇓ ó @h { . |}4
&
∑(:b$N": S "~P ⇓ ó • @h { . |@4 &
+ Y
DIRECCIÓN DE TELECOMUNICACIONES
Página
12
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Ecuación A-IV.17: Variación Total de los Valores Observados de Y alrededor de su Media. Dónde: ∑(:b$.": S "g4& : Suma de Cuadrados Total (SCT). Expresa las desviaciones
|z
de las observaciones respecto al promedio total. Si SCT tiende al valor cero, se concluye que no existe variabilidad en la variable respuesta. 6^ S "gP : Suma de Cuadrados de la Regresión (SCR). Expresa las ∑(:b$N" &
|}
desviaciones de los valores ajustados respecto al promedio de los valores de Y. Si el valor de SCR se aproxima al valor de SCT, se concluye que le modelo propuesto es adecuado. & ∑(:b$N": S "~P : Suma de Cuadrados del Error (SCE). Expresa las
|@
desviaciones de los valores observados respecto a los valores ajustados. Si SCE tiende a cero, entonces todas las observaciones caen en la línea de regresión, por consiguiente el modelo es adecuado.
Usualmente esta partición se representa en una tabla llamada Tabla de Análisis de Varianza, conocida también como Anova ó Anva, la cual se muestra a continuación:
Fuente de
Grados
Variación
de
Suma de Cuadrados
€U
Cuadrado Medio
Libertad Debido
a
la 1
Regresión Debido al Error
n-2
|} |@
(
6^ S "gP& aN" :b$ (
aN": S "~P :b$
&
|•} |•@
|} 1 |@ S2
k
&
DIRECCIÓN DE TELECOMUNICACIONES
ƒ8
|•} |•@
Página
13
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Total
n-1
|z
(
a.": S "g4& :b$
Cuadro A-IV.2: Tabla de Análisis de Varianza (Anova) para el Modelo de Regresión Simple.
Para verificar la validez estadística del modelo de regresión lineal simple propuesto, se utiliza lo siguiente: a) Coeficiente de determinación: } &. b) Coeficiente de Correlación Lineal Simple: r. c) Pruebas de Significación: Pruebas T y F. a) Coeficiente de Determinación („…
†E„ ): †E‡
Indica en qué porcentaje la variable estímulo
explica a la variable respuesta. Este coeficiente expresa la relación entre dos tipos de variación: •
V1=Variación de los valores de Y alrededor de la línea de regresión.
•
V2=Variación de los valores de Y alrededor de su propia media.
Por consiguiente } & expresado en porcentaje, mide la variación total en Y explicada
por el modelo de regresión. Por ser } & cociente entre dos sumas de cuadrados, luego
de multiplicarlo por 100 %, el mínimo valor que puede tomar es 0 y el máximo valor que puede tomar es 100%. } & 1 100%
|} 1 100% |z
Y1 1 100% Y2
Ecuación A-IV.18: Coeficiente de Determinación } &.
b) Coeficiente de Correlación Lineal Simple: (r): Es una medida que indica el grado de asociación lineal entre dos variables; se obtiene de la siguiente expresión:
DIRECCIÓN DE TELECOMUNICACIONES
Página
14
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
∑(:b$ *: ": S
.∑(:b$ *: 4.∑(:b$ ": 4 &
‰∑( * & S N∑:b$ *: P ‰∑( " & S N∑:b$ ": P :b$ : :b$ : (
(
&
Ecuación A-IV.19: Coeficiente de Correlación Lineal Simple . En el caso de la regresión lineal simple, se cumple que
Š√} &. En un modelo de
regresión lineal simple, el signo del coeficiente de correlación corresponde al signo de la ]$ . El rango de r es: S1 Œ pendiente ;
Œ 1.
Si el coeficiente de correlación es positivo y tiende a 1, se dice que hay una relación directa y significativa entre las variables, si el coeficiente de correlación es negativo y tiende a -1, se dice que hay una relación inversa y significativa entre las variables, si el coeficiente es cero no existe relación entre las variables. c) Pruebas de Significación de las Variables (Pruebas T y F):
i.
Prueba T: Las pruebas individuales o pruebas T son independientes para cada parámetro del modelo de regresión lineal simple. El procedimiento se detalla a continuación: i. Hipótesis: •8 : ;:
0 (la variable Xi no es significativa en el modelo)
•$ : ;: V 0 (la variable Xi si es significativa en el modelo)
ii. Especificación del nivel de significación o riesgo: Ž y suposiciones iii. Obtención de la estadística de prueba: 8
;6^ S ;: N;6^ P
;6^ N;6^ P
Tal que Ho es verdadera, donde:
DIRECCIÓN DE TELECOMUNICACIONES
Página
15
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
β6^ : Estimador.
Nβ6^ P: Error estándar del estimador.
iv. Región crítica (RC) y regla de decisión (RD) }| Rechazar Ho si
8
〈S∞,
〉∪ ∝ • ,(#&’ &
〈
, ∞〉 ∝ •$# ,(#&’ &
⊂ }|, es decir, si se cumple: 8
•
ó ∝ • ,(#&’ &
8
j
∝ •$# ,(#&’ &
También se puede calcular y utilizar el P_value definido como: –_o { v. Si
8,
2 1 –N
.(#&4
j
8 P.
valor de la estadística de prueba, pertenece a la región crítica, se
rechaza la hipótesis nula; en caso contrario no se rechaza (•8 ). ii.
Prueba F: Esta prueba nos permite determinar si el modelo lineal es apropiado o aceptable para explicar la relación entre las variables de estudio. El procedimiento se detalla a continuación: i. Hipótesis por probar: •8 : ;:
0 (el modelo no es apropiado)
•$ : ;: V 0 (el modelo si es apropiado)
ii. Especificación del nivel de significación o riesgo: Ž y suposiciones iii. Obtención de la estadística de prueba: ƒ8
|•} ∼ ƒ.$,(#&4 |•@
Tal que Ho es verdadera. iv. Región crítica (RC) y regla de decisión (RD) DIRECCIÓN DE TELECOMUNICACIONES
Página
16
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
〈ƒ.$#v,$,(#&4 , ∞〉 .–
}|
ƒ›2í!:•ž
™
š 4
| { { n
ƒ.$#v,$,(#&4
También se puede calcular y utilizar el P_value definido como: –_o {
–Nƒ.$,(#&4 j ƒ8 P.
v. Si ƒ8 j ƒ›2í!:•ž se rechaza la hipótesis nula (•8 ); en caso contrario no se rechaza (•8 ). Si –_o {
•∝, entonces se rechaza la hipótesis nula (•8 ).
2) Regresión Múltiple (Variante Lineal): En este modelo de análisis de regresión lineal múltiple (RLM), la variable dependiente se encuentra relacionada en forma lineal con dos o más variables regresoras o independientes. El modelo de RLM con k variables regresoras se puede representar de la siguiente manera: ":
;8 % ;$ *:$ % ;& *:& % ⋯ % ; *: % <: 1,2, … ,
Ecuación A-IV.20: Modelo de Regresión Poblacional Lineal Múltiple. Dónde: β8 : Intercepto.
β$ , … , β : Coeficientes de regresión. n: Tamaño de la muestra.
*: : Variable independiente, explicativa, predictora, regresora, etc.
<: : Variable aleatoria no observable que puede tomar cualquier valor, se le conoce
como variable perturbadora o error estadístico. Esta variable representa a las demás variables no consideradas en el modelo, a los errores de muestreo y cualquier otro aspecto no especificado en el modelo. La función de regresión población se debe interpretar como la media o valor esperado de Y condicionado a los valores fijos de X. Como se considera una
DIRECCIÓN DE TELECOMUNICACIONES
Página
17
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
muestra de n observaciones, donde cada observación considera a las k variables regresoras, se obtiene entonces un conjunto de ecuaciones lineales, como a continuación se detalla: "$ "& "(
;8 % ;$ *$$ % ;& *$& % ⋯ % ; *$ % <$ ;8 % ;$ *&$ % ;& *&& % ⋯ % ; *& % <& ;8 % ;$ *($ % ;& *(& % ⋯ % ; *( % <(
Ecuación A-IV.21: Conjunto de Ecuaciones Lineales del Modelo de Regresión Lineal Múltiple. En forma abreviada se tiene: ":
nó
;8 % a ;X *:X % <: Xb$
:
1,2, … ,
Ecuación A-IV.22: Modelo Abreviado de Regresión Poblacional Lineal Múltiple. Este sistema de ecuaciones se puede expresar usando un sistema de ecuaciones matriciales, dónde: Y: Vector columna de observaciones de la variable respuesta de orden (nx1). X: Matriz
1 .¢ % 14 de las variables explicativas.
;: Vector .¢ % 14 1 1de parámetros desconocidos.
<: Vector columna de variables de perturbación de orden
1 1.
En forma abreviada se tiene:
Yn11 Xn1.k%14 β.k%1411 %Un11 Ecuación A-IV.23: Modelo Abreviado Matricial de Regresión Lineal Múltiple.
DIRECCIÓN DE TELECOMUNICACIONES
Página
18
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
A continuación se listan los supuestos asumidos en el modelo de regresión lineal múltiple (RLM): Supuesto N° 1: En promedio el valor esperado de los errores < es Cero (0), es
decir, hay errores por exceso y por defecto que en promedio se anulan. @.<: 4
0
Ecuación A-IV.24: Valor Esperado de los Errores < .
Supuesto N° 2: Los errores <$ , <& , … , <( son independientes y tienen varianza
constante.
¥HI.¦4
Q.¦¦§ 4
¨… ©
Ecuación A-IV.25: Matriz de Varianza - Covarianza.
Supuesto N° 3: La matriz *(1.
formada por números fijos.
ª$4
es no estocástica, lo cual implica que está
Supuesto N° 4: La matriz * tiene un rango igual al número de columnas de la
matriz, en este caso es ¢ % 1. Esto significa que tiene ¢ % 1 columnas linealmente independientes; es decir, que no existe una relación lineal exacta entre las variables X.
La variabilidad de los valores observados de Y alrededor de su media, puede ser atribuida a dos causas: una atribuible al modelo de regresión (variación explicable) y la otra a factores aleatorios (variación no explicable), tal como se muestra en la siguiente expresión: (
(
a.": S "g4&
6^ S "gP aN"
Y
Y
:b$
⇓ ™{
{ {
:b$
⇓ ™{ ™ {
&
%
(
& aN": S "~P :b$
⇓ ™{ ™ { « ó
Y
DIRECCIÓN DE TELECOMUNICACIONES
Página
19
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Ecuación A-IV.26: Detalle de Variabilidad de Y alrededor de su Media. Dónde: |z
∑(:b$.": S "g4& : Suma de Cuadrados Total (SCT). Expresa las desviaciones
de las observaciones respecto al promedio total. Si SCT tiende al valor cero, se concluye que no existe variabilidad en la variable respuesta. |}
6^ S "gP& : Suma de Cuadrados de la Regresión (SCR). Expresa las ∑(:b$N"
desviaciones de los valores ajustados respecto al promedio de los valores de Y. Si el valor de SCR se aproxima al valor de SCT, se concluye que le modelo propuesto es adecuado. |@
& ∑(:b$N": S "~P : Suma de Cuadrados del Error (SCE). Expresa las
desviaciones de los valores observados respecto a los valores ajustados. Si SCE tiende a cero, entonces todas las observaciones caen en la línea de regresión, por consiguiente el modelo es adecuado. Usualmente esta partición se representa en una tabla llamada Tabla de Análisis de Varianza, conocida también como Anova ó Anva, la cual se muestra a continuación:
Fuente de
Grados
Suma de
Variación
de
Cuadrados
Debido a la K Regresión Debido Error
al n-k-1
€U
Cuadrado Medio
Libertad |} |@
(
|•}
6^ S "gP& aN" :b$ (
aN": S "~P :b$
&
|•@
|} ¢
|@ S¢S1
k
&
DIRECCIÓN DE TELECOMUNICACIONES
ƒ8
P_Value –.ƒ j ƒ8 4
|•} |•@
Página
20
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Fuente de
Grados
Suma de
Variación
de
Cuadrados
Total
n-1
€U
Cuadrado Medio
Libertad |z
P_Value
(
a.": S "g4& :b$
Cuadro A-IV.3: Tabla de Análisis de Varianza (Anova) para el Modelo de Regresión Múltiple.
Para obtener los estimados del modelo de regresión lineal múltiple, la información disponible al investigador del estudio de campo, es una muestra de valores de Y correspondiente a X’s fijos, por consiguiente la tarea es la estimación de los parámetros basándose en la información de la muestra. ]8 % ; ]$ *:$ % ; ]& *:& % ⋯ % ; ] *: % ; 6^ % : ": " 1,2, … ,
":
:
Ecuación A-IV.27: Estimadores del Modelo de Regresión Lineal Múltiple. Por consiguiente, la ecuación de regresión estimada es: 6^ "
]8 % ; ]$ *:$ % ; ]& *:& % ⋯ % ; ] *: ; 6^ "
]8 % a ;6¬ *:X ; Xb$
6^ P N": S " : 1,2, … , " *;- %
Ecuación A-IV.28: Detalle de los Estimadores del Modelo de Regresión Lineal Múltiple.
DIRECCIÓN DE TELECOMUNICACIONES
Página
21
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Dónde: ;- : Vector de estimadores del vector de parámetros (k+1)x1. : Vector de residuales o errores.
El objetivo es determinar los valores del vector ;- de tal manera que los residuales
sean los más pequeños posibles, el método más adecuado para lograrlo es el de mínimos cuadrados. Luego de la aplicación del método se obtiene la siguiente expresión matricial para los estimadores:
6 ®
.¯§ ¯4#° ¯§ ±
Ecuación A-IV.29: Estimadores con el Método de Mínimos Cuadrados del Modelo de Regresión Lineal Múltiple. Dónde: ;- : Vector de estimadores de mínimos cuadrados.
.¯§ ¯4: Matriz simétrica, para que tenga inversa su determinante debe ser diferente de
cero.
Las propiedades de los estimadores obtenidos por el método de mínimos cuadrados, según el teorema de Gauss-Markov [27] son: Propiedades (RLM)
Detalle @N;- P
Insesgamiento
YN;- P
Varianza Mínima Estimación
de
la
Varianza Poblacional a partir de la Varianza de
k
&
∑(:b$ : & S¢S1
;
\ & .* § *4#$
|@ S¢S1
|•@
la Muestra
DIRECCIÓN DE TELECOMUNICACIONES
Página
22
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
Propiedades (RLM)
Detalle ;6^ S
Intervalos de Confianza
v •$# ,(# #$’ &
N;6^ P • ;: • ;6^ %
ó ;: ∈ 〈;6^ ∓
v •$# ,(# #$’ &
v •$# ,(# #$’ &
.;6^ 4〉
N;6^ P
Cuadro A-IV.4: Tabla de Propiedades de los Estimadores del Modelo de Regresión Múltiple.
Para verificar la validez estadística del modelo de regresión lineal múltiple propuesto, se utiliza lo siguiente: a) Coeficiente de determinación múltiple: } &. b) Prueba Global o prueba del modelo de regresión lineal múltiple: Prueba F. c) Prueba Individual o prueba de cada coeficiente ;: : Prueba T.
a) Coeficiente de Determinación Múltiple („…
†E„ ): †E‡
Se define como el porcentaje de la
variación total de los valores de la variable respuesta Y, que es explicada por el conjunto de variables *$ , *& , *² , … , * .
Como se sabe, 0 Œ } & Œ 1; cuando toma valores cercanos a cero (0) peor será el ajuste
del plano de regresión a los datos; cuanto más se acerque a la unidad, o al 100% en caso de } & 1 100%, mejor será el ajuste.
} 1 100% &
|} 1 100% |z
6^ P& ∑(:b$N": S " 1 100% ∑(:b$.": S "g4&
Ecuación A-IV.30: Coeficiente de Determinación Múltiple } &.
DIRECCIÓN DE TELECOMUNICACIONES
Página
23
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
b) Prueba de Significación del Modelo – Prueba F: La prueba de significación del modelo sirve para determinar si el modelo de regresión lineal múltiple, con las variables independientes utilizadas, es apropiado o no. El procedimiento de esta prueba se detalla a continuación: i. Las Hipótesis por probar: •8 : ;$
•$ : ³{
;&
⋯
;
0 (el modelo no es apropiado)
;: V 0 (el modelo si es apropiado), i=1,.,k
ii. Especificación del nivel de significación o riesgo: Ž y suposiciones de la distribución de la variable iii. Obtención de la estadística de prueba: ƒ8
|•} ∼ ƒ. |•@
,(# #$4 ,
•8 o
iv. Región crítica (RC) y regla de decisión (RD) }|
〈ƒ.$#v,
ƒ›2í!:•ž
,(# #$4 , ∞〉
ƒ.$#v,
,(# #$4
También se puede calcular y utilizar el P_value definido como: –_o {
–Nƒ.
,(# #$4
j ƒ8 P.
v. Valor del estadístico empleando Anova y la regla de decisión: Si ƒ8 j ƒ›2í!:•ž se rechaza la hipótesis nula (•8 ); Si –_o {
•∝, entonces se rechaza la hipótesis nula (•8 ).
c) Prueba Individual de las Variables - Prueba T:
DIRECCIÓN DE TELECOMUNICACIONES
Página
24
“Año de la Inversión para el Desarrollo Rural y la Seguridad Alimentaria” DIRECCIÓN REGIONAL DE TRANSPORTES Y COMUNICACIONES HUÁNUCO
La prueba individual conocida también como la prueba de significación de las variables, tiene el siguiente procedimiento: i.
Hipótesis: •8 : ;:
0 (la variable Xi no influye en el modelo)
•$ : ;: V 0 (la variable Xi si influye en el modelo) ii.
Especificación del nivel de significación o riesgo: Ž y suposiciones de la distribución de la variable.
iii.
Obtención de la estadística de prueba: 8
;6^ S ;: ∽ N;6^ P
.(# #$4
Tal que Ho es verdadera, donde: β6^ : Estimador.
Nβ6^ P: Error estándar del estimador.
iv.
Región crítica (RC): }|
v.
〈S∞,
〉∪ ∝ • ,(# #$’ &
〈
Regla de Decisión (RD): Rechazar Ho si 8
•
ó ∝ • ,(# #$’ &
8
, ∞〉 ∝ •$# ,(# #$’ & 8
⊂ }|, es decir, si se cumple:
j
∝ •$# ,(# #$’ &
También se puede calcular y utilizar el P_value definido como: –_o {
2 1 –N
.(# #$4
j
8 P.
En resumen, en este anexo se ha desarrollado a detalle las ecuaciones matemáticas de los métodos econométricos más relevantes utilizados en el estudio de campo.
DIRECCIÓN DE TELECOMUNICACIONES
Página
25