3 minute read
9.1.2. Análisis del fichero de log
Como podemos observar, cada una de las líneas del fichero de registro tiene el siguiente formato:
Tabla 20.
Advertisement
Nombre Descripción cliente remoto Dirección IP o nombre del cliente remoto que ha realizado la petición rfc931 Identificador de usuario remoto si éste se ha definido, - si no está definido
usuario
Identificador de usuario que se ha validado contra nuestro servidor, - si no está definido fecha Fecha de la petición petición Petición (método y URL) enviada por el cliente estatus Código numérico del resultado bytes Tamaño en bytes del resultado (0 si no procede)
El formato común extendido
Existe una variante extendida del Common Log Format, denominada Extended Common Log Format o más conocida como Combined Log Format, que añade al formato anterior dos campos adicionales:
65.61.162.188 - - [14/Dec/2003:04:10:38 +0100] “GET /exec/rss HTTP/1.1” 200 9356 “http://www.google.com” Mozilla/4.5[en] 66.150.40.79 - - [14/Dec/2003:04:18:46 +0100] “HEAD / HTTP/1.1” 302 0 “http://www.altavista.com” Mozilla/3.1[en]
Los campos adicionales que añade esta extensión son:
Tabla 21.
Nombre
Descripción referer La dirección de la que proviene el cliente. Si no está definida usaremos –Agente de usuario La versión de software del navegador que utiliza nuestro cliente. En caso de no poder determinarse, usaremos –9.1.2. Análisis del fichero de log Los ficheros de log nos van a proporcionar una información muy útil que nos permitirá conocer algunos datos importantes sobre los visitantes de nuestro sitio web. No obstante, muchos datos relevantes no los podremos encontrar en nuestros ficheros de log, por lo que de-
beremos inferirlos de forma aproximada a partir de la información de éstos.
Los datos que vamos a poder encontrar en el fichero de log son:
• Número de peticiones recibidas (hits).
• Volumne total en bytes de datos y ficheros servidos.
• Número de peticiones por tipo de fichero (por ejemplo, HTML).
• Direcciones de clientes diferentes atendidas y peticiones para cada una de ellas.
• Número de peticiones por dominio (a partir de dirección IP).
• Número de peticiones por directorio o fichero.
• Número de peticiones por código de retorno HTTP.
• Direcciones de procedencia (referrer).
• Navegadores y versiones de éstos usados.
A pesar de que las informaciones que podemos obtener del análisis de los ficheros de log son numerosas, hay unas cuantas que no podemos obtener. De ellas, algunas resultarían de especial interés:
• Identidad de los usuarios, excepto en aquellos casos en los que el usuario se identifique por petición del servidor.
• Número de usuarios. A pesar de tener el número de direcciones
IP distintas, no podemos saber de forma absoluta el número de usuarios, y más si tenemos en cuenta la existencia de servidores proxy-cache. Una dirección IP puede representar:
– Un robot, araña u otro programa de navegación automático (por ejemplo, los usados por los buscadores como Google).
– Un usuario individual con un navegador en su ordenador.
– Un servidor proxy-cache, que puede ser usado por cientos de usuarios.
• Datos cualitativos: motivaciones de los usuarios, reacciones al contenido, uso de los datos obtenidos, etc.
• Ficheros no vistos.
• Qué visitó el usuario al salir de nuestro servidor. Este dato quedará recogido en los log del servidor donde el usuario fue después del nuestro.
Hay otra información que sí queda registrada pero de forma parcial, por lo que puede llevarnos a interpretaciones erróneas de los datos. Gran parte de dichas inconsistencias proceden del cache que realizan los propios navegadores, del que realizan servidores proxy-cache intermedios, etc.
Errores comunes en la interpretación de los logs
La información contenida en los ficheros de log no permite inferir las siguientes informaciones, a pesar de que, por norma general, la mayoría de programas de análisis de log lo hacen:
• Los hits no equivalen a visitas. Una página puede generar más de un hit, ya que contiene imágenes, hojas de estilo, etc., que corresponden a otro hit.
• Las sesiones de usuario son fáciles de aislar y contar. Las sesiones, si no existe un mecanismo específico de seguimiento (cookies, etc.), se obtienen normalmente considerando todos los accesos provenientes de la misma dirección durante un lapso de tiempo consecutivo como perteneciente a la
• misma sesión. Esto no tiene en cuenta, ni la existencia de servidores proxy-cache, ni la posibilidad de que un usuario se mantenga