Ejemplo deaplicación del análisis de datos en el scouting de jugadores.

Page 1

Javier Martín ¿CÓMO APLICAR EL ANÁLISIS DE DATOS AL SCOUTING DE JUGADORES? BREVE EJEMPLO DE CASO DE USO

En las siguientes líneas, pretendo mostrar un ejemplo de uso de distintas herramientas de análisis de datos, y cómo éstas nos pueden ayudar en el proceso de scouting de jugadores. Antes de entrar en profundidad, me gustaría aclarar mi idea sobre el análisis de datos en las dos ramas más habituales del scouting/análisis: el análisis de jugadores o perfiles individuales para la incorporación a un club; o el análisis técnico-táctico de un rival o del equipo propio. Mi opinión al respecto es que el proceso en dichos casos ha de ser inverso:

SCOUTING DE JUGADORES DATOS

OJO Filtrado

ANÁLISIS DE EQUIPO OJO

DATOS Contraste

En el caso del scouting de jugadores, creo que el primer paso puede ser apoyarnos en el dato para realizar un primer filtrado de la extensísima lista de jugadores posibles que van a aparecer para el determinado perfil que queremos. Si de esa lista podemos reducir la muestra, la labor de scouting tradicional será mucho más sencilla y sobre todo, nos puede poner en la pista de jugadores que quizás no conocíamos o a los que no llegaríamos a través del scouting tradicional. Por supuesto, el ojo humano siempre va a tener un papel preponderante a la hora de acometer una decisión; pero el filtrado con datos puede jugar un papel realmente interesante en este proceso. En el caso de análisis de equipos, creo que el ojo siempre ha de ir primero. Si tengo que analizar un rival en sus últimos 5 partidos, el ojo tiene que ser el que interprete qué dinámicas, fortalezas, debilidades; tiene dicho equipo en cada una de las fases del juego, el balón parado o incluso también, en perfiles individuales. Una vez el ojo ha hecho su trabajo, el dato nos puede permitir contrastar si lo que nuestro ojo nos ha dicho, los datos lo confirman. Datos simples como perfiles de construcción, finalización; herramientas más complejas como las redes de pases, mapas de disparos,…; pueden ser muy útiles para complementar nuestro primer análisis, o en caso de dudas, para ponernos en la pista de posibles dinámicas que se hayan podido escapar a nuestro análisis tradicional. Lo que creo fundamental, es considerar que el dato no ha venido a sustituir al ojo humano; pero puede ser un complemento magnífico a lo que ya teníamos establecido a la hora de analizar el fútbol. Scouting de jugadores Para ayudar en el scouting de jugadores, en el PFM del Máster en Big Data deportivo que he estado realizando en el último año, diseñé una herramienta de valoración de jugadores a través de datos; así como un modelo de similitud entre jugadores; con la intención de realizar ese primer filtrado que comentábamos con anterioridad. La base del proyecto se centra en obtener una valoración entre 0-100 para cada jugador, en el contexto en el que está jugando. Básicamente, la idea de analizar al jugador sólo en su contexto, se hacer para evitar el falseamiento de datos. No será lo mismo anotar 0.80 goles por 90 en la liga española, que hacerlo en la liga de Letonia por ejemplo, por lo que carece de sentido introducir en la misma muestra a jugadores de ambas ligas. Es por ello que el primer paso para la elaboración del modelo fue elaborar una clasificación propia de ligas de las que tenemos datos. En esta clasificación, cada torneo se agrupa con los otros 4 más similares que consideramos en nuestra muestra de ligas. Cada muestra pertenecerá a un Tier, de modo


Javier Martín que, por ejemplo; las ligas TOP Europa (España, Inglaterra, Italia, Francia y Alemania), serán el Tier 1. Los datos de los jugadores de la liga española, irán siempre en el contexto de las cinco grandes ligas. Los datos se podrán obtener también de un solo torneo (el contexto más cercano aún); por lo que cada jugador tiene dos valoraciones: contexto de liga y contexto de Tier; al que considero más interesante ya que cuantos más datos se estudian, la fiabilidad tiende a ser mayor. A la hora de inferir datos de un Tier a otro, es un proceso que aún tengo que desarrollar, ya que por su profundidad, no podía acometerlo en las pocas semanas con las que contaba para preparar el modelo en el PFM. Una vez categorizadas las ligas, creamos los distintos KPIS por posición. Obviamente, igual que no podemos analizar diferentes ligas de la misma forma, tampoco podemos analizar diferentes posiciones con los mismos datos estadísticos. Para un defensor central, no me importará lo más mínimo el número de centros al área por 90 acertados; sin embargo, para un lateral o un extremo será un estadístico importante. A partir de las estadísticas seleccionadas como importantes para cada posición, se eligen una serie de indicadores que tendrán una valoración 0-100 en la muestra también. El valor en los diferentes KPIS darán a cada jugador su rating final 0-100. Finalmente, obtenemos los datos, los procesamos con una serie de programas y lenguajes (normalización de variables para favorecer contexto y visualizaciones posteriores) y los datos obtenidos los cargamos a la herramienta final diseñada. Estaríamos en disposición de usar la herramienta para nuestro scouting particular. Para completar esta herramienta, tenemos un modelo de similitud que nos devolverá los x jugadores más similares al buscado en la muestra de ligas similares; y otras herramientas con eventos, visualizaciones,… que completarán nuestros informes.

EJEMPLO DE USO [datos a 30/01/20] (caso hipotético) El mercado de Invierno para el Lech Poznan ha significado la pérdida de su mediapunta Darko Jevtic, titular habitual en un 4-2-3-1 como MP. Necesita reemplazarlo ya que no cuenta con ningún otro jugador en el equipo de similares características, y el jugador que llega tiene que ser asequible para la economía del club. Por ello, acotamos una primera búsqueda a la liga polaca, en la que jugamos, y las 4 ligas similares con las que procesamos los datos de la Ekstraklasa: Ucrania, Croacia, Grecia y Suiza. En la herramienta tenemos datos de más de 700 jugadores que han jugado más de 800 minutos en la actualidad, pero cualquier jugador con menos de esos minutos puede ser procesado fácilmente cargando sus datos en el código. Podemos hacer búsquedas a través de los filtros de nuestra herramienta, pero la muestra sería aún así grande, por lo que vamos a usar nuestro modelo de similitud para ver que jugadores nos devuelve, como primera toma de contacto con el caso. Elegimos nuestro jugador, Jevtic, y nos devuelve que Ramírez, del Lodzki KS, es el jugador más similar según este modelo.


Javier Martín Otra manera interesante de buscar jugadores asequibles, es filtrar por valor de mercado, y ver si existen jugadores con mejor valoración en nuestra herramienta, que tengan menor valor que Ramírez y que el modelo no nos ha devuelto [el modelo toma en cuenta numerosas estadísticas, por lo que un jugador puede no aparecer como cercano pero obtener puntuación similar en la posición]. Buscamos sobre todo jugadores infravalorados. Filtramos con la herramienta:

Vemos que nos aparecen tres jugadores con un valor de mercado igual o menor a 800.000 euros con un a puntuación similar a Ramírez, pero aún ligeramente superior. Es importante ir al dashboard de OM, ya que extremos y mediapuntas son procesados de manera conjunta, pero obtienen una puntuación diferente para ambos roles. Por lo que alguno de estos jugadores podrían tener una puntuación inferior como mediapuntas (en el Home aparece por defecto el valor como extremos, ya que el número de extremos es mayor). Consultamos Mak, Riera y Schonbachler en Mediapuntas: Schonbachler obtiene peor puntuación que Ramírez; Mak similar, pero al ser del Wisla Cracovia es difícil poder acometer su fichaje; mientras que Riera parece una opción también interesante para ojear aunque nuestro modelo de similitud no nos haya ofrecido su nombre. Iniciamos nuestra herramienta y buscamos a Ramírez para conocer más información sobre el jugador, nos vamos a centrar en él de momento ya que es el que nos devolvió el modelo de similitud. Nos aparecerá información básica y sus puntuaciones en la posición Winger/OM en los distintos KPIS, así como su rating final. Vemos además, en sus similares, que Jevtic es también el jugador más similar a Ramírez en toda la muestra. Su valor de mercado es asequible y sobre todo, juega en un equipo de la zona baja de nuestra división, por lo que parece que podría ser fácil que el jugador quiera venir. Obviamente, no nos podemos quedar sólo con uno o dos nombres, pero vamos a ver ahora cómo podríamos actuar desde el departamento de análisis de datos, creando diferentes visualizaciones de datos sobre Ramírez a través de nuestras herramientas; que será el complemento al informe final realizado por el departamento encargado del scouting tradicional.


Javier Martín Vamos al dashboard de mediapuntas para ver la posición de Ramírez y de Jevtic en los estadísticos más importantes para esa posición:


Javier Martín Como era de esperar, los datos son bastante similares. Ramírez supera a Jevtic en construcción de juego y habilidades individuales; mientras que Jevtic ha superado a Ramírez en contribución goleadora (no sólo goles, cuenta también contribución a goles anotados por el equipo o generación de goles). Vamos a los radares para obtener otra visualización comparativa más clara aún de ambos jugadores, con 12 estadísticos que consideramos claves para MP:

Vemos de nuevo como ambos son bastante similares, pero Ramírez supera a Jevtic sobre todo en los valores de construcción de juego y habilidades individuales. Vemos también, como ambos se encuentran en casi todos los estadísticos en la zona central de la muestra del Tier 4 (cada cuadrante de cada variable del radar sería un 25% de la muestra tras normalización). En el radar tenemos el valor normalizado, pero en la columna de la derecha podemos ver el valor real de cada uno de los valores. La petición del club puede ser más concreta, y que le den un valor mayor a determinado KPI o determinadas estadísticas. Por ejemplo, el Lech Poznan quiere un jugador que participe en la construcción del juego y sea sobre todo buen asistente, no les importa que sea un mediapunta goleador ya que cuentan con buenos extremos y delanteros en esa faceta. Tenemos otro tipo de herramientas para analizar a los jugadores en estadísticos aún más concretos. Vemos, por ejemplo, un análisis más profundo de las Asistencias/xA de ambos jugadores:


Javier Martín El gráfico es bastante interesante, ya que nos muestra cómo Jevtic ha dado un par de asistencias más que Ramírez; pero hemos de fijarnos en el dato de xA de Ramírez. El español es, de la muestra TOP 50, el jugador con mayor diferencia negativa entre xA-Asistencias. ¿Es positivo o negativo? Para mí, esto es claramente positivo ya que, a diferencia de los xG, el transformar un xA en Asistencia, no depende sólo del pasador, sino también del receptor de la potencial asistencia. Si el delantero no está acertado, el número de asistencias será bajo, pero el xA nos indicará que las asistencias están generadas. Por lo tanto, volviendo al ejemplo, Ramírez tiene prácticamente el mismo número de asistencias esperadas que Jevtic, lo que seguramente signifique que, con un delantero con mejor olfato de gol; las asistencias de Ramírez van a crecer, ya que él ya las está generando. Vamos más lejos, y comparamos los delanteros de los dos equipos implicados, Lech y Lodz, para cerciorarnos de que esto es cierto: Gytkjaer y Sekulski son los más habituales:


Javier Martín Efectivamente, Sekulski arroja una cifra de xG mayor que de Goles por 90, es decir, lleva menos goles de los esperados, mientras que Gytkjaer tiene una cifra positiva (pequeña) y un rating de Eye for goal superior en casi 10 puntos a Sekulski (bastante importante en este tipo de fórmula). El radar nos lo muestra también de forma clara; por lo que parece claro que una potencial sociedad Ramírez-Gyetkjaer debería hacer subir el número de asistencias de Ramírez ya que él ya las está generando en un equipo con peor finalizador:

Podemos hacer algo similar en términos de progresión de balón, algo que consideramos clave para un mediapunta. Vamos a ver en qué lugar se encuentran ambos jugadores en la muestra del Tier 4.


Javier Martín Ramírez es jugador TOP en la muestra en este sentido, sólo Taison, que es superior por bastante a cualquier otro jugador; supera al español en Progressive runs y progressive passes; y Ramírez supera en ambas a Jevtic, que se encuentra en la parte media-superior de la muestra. En este sentido, parece que Ramírez mejora bastante a nuestro antiguo jugador. Vamos a ver ahora un par de mapas de disparos de ambos jugadores, para comparar sus tendencias en finalización:


Javier Martín

(versión xG, el tamaño de los iconos depende del xG de cada disparo)

Vemos como Ramírez ha disparado muchísimas veces desde fuera del área con escaso éxito, mientras que Jevtic es menos finalizador (casi la mitad de disparos), pero tiene un porcentaje de éxito mayor, tanto en disparos cercanos como en disparos lejanos. Las zonas de finalización son similares dentro del área, a la izquierda del punto de penalty, y también en los disparos desde fuera del área vemos una tendencia clara de ambos jugadores a la diagonal, con el disparo desde el perfil derecho del ataque (ambos son zurdos). Hay que señalar que el mayor número de disparos de Ramírez tiene clara relación con el nivel global de su equipo, en el que es claramente el atacante más destacado, mientras que en el caso de Jevtic, los jugadores que le rodean tienen mayor nivel por lo que es natural que las finalizaciones se repartan. Estos mapas podríamos hacerlos para muchas acciones. Para otras posiciones nos puede interesar por ejemplo intercepciones (dónde recuperan el balón), centros,… En mediapunta, por ejemplo, los pases clave, dónde los dan y dónde suelen fallarlos:


Javier Martín Vamos a ver el mapa de calor de ambos jugadores en esta temporada. Al ver el perfil de Ramírez, veíamos que era un jugador que había jugado también por banda. El mapa de calor nos puede mostrar de forma clara cuál es la tendencia del jugador, qué espacios ocupa,… Ambos jugadores cuentan con mapas muy similares; y vemos que aunque Ramírez haya partido como teórico extremo en ocasiones en su equipo, su zona de influencia es muy parecida a la de Jevtic.


Javier Martín La similitud entre ambos jugadores queda tremendamente clara en otro tipo de gráfico, el de posición media: tenemos las coordenadas de todas las acciones con balón de ambos jugadores, seleccionamos los pases y calculamos la posición media de todos los que han dado en la liga. Vemos el resultado: ambos tienen una posición media de sus pases prácticamente idéntica:

Un tipo de gráfico muy interesante es el denominado convex hull: creación de área convexa a partir de los datos de una determinada acción. Es ideal para conocer el radio de acción más habitual de un jugador. En el ejemplo, vemos como el radio de acción de key passes acertados de Jevtic, es algo mayor que el de Ramírez, que acumula sus pases más peligrosos siempre desde la frontal, a pesar de que ha jugado más en banda que Jevtic. Esto nos inclina a pensar definitivamente en Ramírez como un jugador que crece por dentro, la posición para la que queremos que firme por nuestro equipo.


Javier Martín Volvamos al inicio para finalizar, ya que habíamos dejado a Riera en el tintero. Con nuestro radar podemos comparar a Ramírez y Riera. El primer dato que llama la atención es que Riera ha jugado sólo 10,8 p90 (noventa minutos), por lo que podemos interpretar que sus datos podrían no ser del todo reales con la mitad de minutos jugados que Ramírez. Es por ello que sus datos p90 pueden ser muy buenos en algunas variables (xA por ejemplo, pero si vamos al xA acumulado, Ramírez es bastante superior a Riera, que de hecho tiene más asistencias de las esperadas (ver gráfico arriba); pero personalmente los datos de Ramírez me parecen suficientemente sólidos en comparación a los de Ramírez, que lo ha jugado prácticamente todo.

Como se puede observar, los gráficos y las comparaciones entre jugadores pueden ser casi infinitos, y una base en la que apoyarse como paso previo a realizar un scouting tradicional. Obviamente, en un caso completo, este mismo tratamiento de datos habría de realizarse a gran escala con un número de jugadores mayor; para este documento he querido centrarme en un solo ejemplo para mostrar cómo se podría trabajar con las herramientas creadas.

*Datos de origen obtenidos de InStat y WyScout, todas las imágenes y ratings son obtenidas/os con códigos o diseños propios.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.