Es justo lo que buscábamos

Que el análisis de datos en el fútbol ha llegado es algo que pocos pueden discutir, pero lo que debemos asumir es que el análisis de datos en el fútbol no se está haciendo correctamente o al menos no está sabiendo abrirse hueco en los cuerpos de analistas de un club, hablando de analistas en la parte técnico-táctica, dejando a un lado la dirección deportiva donde tradicionalmente si está sacando más valor del dato. Y es que esta es la parte sustancial del dato, ¿qué valor aporta el dato dentro de un cuerpo de analistas tácticos?

El valor que aportamos desde el dato es muy complejo de medir según el sector donde lo apliquemos. Pueden existir retornos económicos tanto por incremento de ingresos como reducción de costes, optimizar procesos para incluso reduciendo costes aumentar los ingresos, pero, ¿cómo medimos el valor aportado por el dato en el fútbol desde la perspectiva táctica? ¿podemos medir que gracias a los datos hemos ganado x puntos? En un juego con tanta incertidumbre, ¿qué peso tienen los datos en todo este proceso? Quizás la perspectiva desde la que estamos viendo el aporte de los datos al fútbol no es el mas óptimo. Debido quizás mas a la ficción que a otras cosas, las expectativas del mundo sobre la tecnología es la de crear máquinas que sustituyan a los humanos en el 100% de sus labores, y esto es aplicable a lo que se espera de los datos: este equipo usando los datos va a ganar la próxima liga. Nada mas lejos de la realidad, los datos vienen a aportar, a ser uno mas dentro de los diversos grupos de trabajo y en especial a asentar o desechar ideas subjetivas que podamos tener.

Muchos sabéis que somos de los que hemos llegado al fútbol por la puerta equivocada, no somos exfutbolistas, no hemos jugado en la élite, no pertenecíamos a ese mundo, mas allá de nuestra afición, Jesús con un bagaje importante en el dato y Mario con años como entrenador de fútbol base.

Cuando Jesus llegó a este mundo lo primero que se planteó fue , ¿qué puedo aportar con el dato? Y no fue de fácil respuesta. Le llevó mucho tiempo, sobre todo el tiempo que llevó empezar a conocer gente en el sector, primero fueron analistas de clubes amateurs, luego llegaron los profesionales, cuerpos técnicos que me brindaron la oportunidad de conocer su trabajo y finalmente las direcciones deportivas, empezando con los scouters y ahora colaborando con varias direcciones deportivas de diferente nivel.

Cuando Mario comenzó a aventurase en este mundo desconocía lo que era un proveedor de datos como OPTA o Statsbomb, él recogía datos en su planilla en sus equipos infantiles y los mostraba en cuadros de mandos rudimentarios. Hasta que poco a poco tuvo la fortuna de ir creciendo.

En este proceso empezaron a surgir términos que los que trabajáis de alguna manera con datos en el futbol tenéis interiorizados, hablábamos de métricas avanzadas, machine learning, predicciones, etc. Todos términos ajenos a día de hoy a la realidad del fútbol. Seguro que ahora pensaréis, Jesús y Mario, pero si muchos clubes punteros están contratando especialistas, como el City, Liverpool y Barcelona. Os lanzamos una pregunta, ¿qué están aportando realmente?

La respuesta es sencilla pero quizás no es tan evidente y viene a colación de lo hablado mas arriba. El dato aporta una de las principales necesidades de un cuerpo técnico, la falta de tiempo. Así es, el dato ahorra tiempo, y con ese ahorro podemos analizar más y mejor, tener en cuenta más factores, detectar más patrones, analizar más jugadores, más equipos, diferentes contextos. Por supuesto nuestro discurso es éste, y es lo que ofrecemos con nuestros análisis, ayudar a las personas a ser más eficiente en tus procesos, para poder tener mayor profundidad de análisis. Incidimos, el dato no viene a trabajar solo, viene a complementar, el dato no va a darnos el jugador al que fichar sin margen de error, pero puede ayudarnos a ahorrar tiempo de filtrado y poder ser mucho mas eficientes en nuestras tareas.

Y el como hemos llegado a este punto es parte importante del fin. Es importante que conozcamos las necesidades de los cuerpos técnicos, y aportemos desde los datos la solución a las mismas, o al menos una aproximación descriptiva del problema a resolver. Y es aquí donde queremos hacer hincapié en este artículo. ¿Realmente los análisis de datos que vemos, o podéis ver, aportan valor en tiempo o conocimiento a un cuerpo técnico?

Si habláis con cualquier analista profesional, tened por seguro que conoce mejor al rival en líneas generales de lo que los conoces tú con datos, de la misma manera que un scouter ya conoce y mucho mejor a ese chaval que tú has visto en esa liga tan rara. Y no es que nos lo inventemos, es que es así. En nuestra experiencia en este tiempo en el mundo de los datos en el fútbol lo hemos visto con nuestros  propios ojos, con multitud de ejemplos. Pero os contaremos uno que vivió Jesús hace poco y que es muy recurrente:

“En los procesos de Scouting con mis herramientas siempre hago ejercicios con los colaboradores para enseñarles las herramientas, como se parametrizan y como sacarle el máximo partido, y claro, siempre ponen casos reales. Estamos buscando un jugador con un determinado rol, que tiene que hacer esto y lo otro, con estas características, etc. En 10’ parametrizamos y seleccionamos métricas, cuales limitan y cuales no, que ligas, y resto de filtros. Y sale el resultado. Ese resultado casi siempre levanta 2 sonrisas, la mía y la de Mario. La mía porque suelo acertar con los jugadores que tienen en mente, lo que dice que mi manera de analizar el rol es correcta. La de Mario, al ver que él sin datos ha llegado a resultados similares y es cuando suele pasar el momento de los 10 segundos incómodos, hasta que llega la pregunta, ¿si yo sin datos puedo llegar a ese resultado que me aporta un análisis de datos? Tiempo, hemos tardado 10’ en sacar la lista, ¿cuánto has tardado tú y tu equipo en llegar a esa lista?”

Puede parecer baladí, pero el tiempo es oro y sobre todo cuando vivimos en un ambiente como es el fútbol profesional en el que los partidos se amontonan, en el mejor de los casos cada semana, con entrenamientos diarios, con input de información de forma constante: informes para jugadores, para el entrenador, para el preparador de porteros, para preparador físico, el balón parado para el segundo entrenador. No podremos poner un robot para que de la charla táctica a los jugadores por ti, pero si podemos ahorrar tiempo para que el proceso de elaboración de esa charla sea mucho mas automatizado y con ello puedas dedicar mas tiempo a tener preparada las diapositivas, donde hacer énfasis, donde parar, etc. Las prisas, nunca so buenas y en la élite, todo se resuelve por pequeños detalles.

Pero, ¿qué ocurre cuando no somos capaces de mostrar ese valor ni siquiera en tiempo? Aquí recurrimos a otro tópico de frases de datos “no hay buenos y malos análisis, hay buenos y malos analistas”

Con esto no queremos señalar a nadie en particular, pero es otro de los problemas que vemos mucho. La falta de rigor analítico y de poco valor. Y aquí es donde queremos empezar a hablar de datos.

Vamos a centrarnos en el análisis de rival que todo cuerpo de analistas hace, jueguen contra quien jueguen. Pero pensad en un equipo profesional, ya lo hemos indicado antes, los partidos se amontonan, se juega Domingo, Miércoles, Domingo. Tienen escasos días para hacer un informe de rival, y llegamos al análisis de la fase defensiva, y vamos a usar como ejemplo una métrica de todos conocida, nada avanzada como tal, pero de vital importancia, ¿cuánto y dónde presionan los equipos? Por ejemplo, imaginemos que vamos a jugar contra el Villarreal, ¿cómo presiona el equipo de Emery? Empezamos:

Cuando hablamos de las zonas de presión podemos contar con mucha información, pero hay una que destaca por encima de todas dado su carácter gratuito. El número de presiones que realizan los equipos por tercios del campo publicado en la web de fbref con datos de Statsbomb. Esto hace que sea muy común ver muchos análisis al respecto sobre esta métrica, y las presiones son un muy buen indicador de la altura del bloque defensivo, y si lo unimos con los contactos de balón del rival en los mismos tercios de campo podemos incluso analizar la intencionalidad, puesto que no es lo mismo estar que ir, es decir, no es lo mismo situarse en bloque alto que presionar en bloque alto, la intencionalidad cambia y por lo tanto nuestro análisis también.

Y aquí empieza nuestro trabajo como analistas de datos. ¿podemos decir que un equipo que realiza un 28% de sus presiones es un bloque alto defensivo presionante? Veamos el ejemplo del Villarreal que hemos comentado y vamos a ir jugando con los números.

Partimos de varios datos, el primero el más sencillo que ofrece la web, tanto a nivel de adquisición automática, que serían el total de presiones en 34 partidos y los datos de presiones por cada partido. Si queremos calcular dicho porcentaje de presiones por tercios del campo ¿qué datos debemos usar? Por ejemplo el Villarreal usando el total de presiones de los 34 partidos analizados realiza un 24% en el tercio rival y un 12.64% más de acciones de presión en el último tercio respecto al promedio de los equipos de la liga normalizado por posesión defensiva.

Si calculamos el promedio a partir de los porcentajes de cada partido el resultado en este caso es muy similar, con porcentajes de 31.41% en el primer tercio del campo, 45.41% en el segundo, y 23.18% en el último (primer tercio rival). ¿pero estamos seguros que esto ocurre siempre así?

Personalmente siempre hemos creído que es mucho más interesante analizar los porcentajes por partido, dado que nos va a ayudar a analizar las distribuciones de porcentajes por zonas. Pero ¿es el promedio el mejor valor estadístico de centralidad para estos casos? ¿Podemos usar la moda o la mediana? ¿En qué casos debemos usar cada uno? Es evidente que en este tipo de distribuciones continuas no podemos usar la moda, caso contrario por ejemplo de calcular el número de cambios por partido donde creo que es más apropiado usar la moda. ¿Y la mediana? Usar la mediana es interesante cuando por ejemplo en la distribución de valores hay observaciones (partidos) con valores extremos que afectan al promedio.

Por ejemplo, en este caso el promedio y la mediana de los porcentajes por partido son los siguientes

 % 1er Tercio% 2er Tercio% 3er Tercio
Promedio Total30.67%45.33%23.99%
Promedio % Por partido31.41%45.41%23.18%
Mediana % Por Partido29.58%46.39%23.49%

Pero el promedio es solo una medida de centralidad, es decir, sobre que valor se agrupan los datos, pero ¿cómo es la dispersión de estos? ¿cómo se encuentran de agrupados sobre el promedio? Y pensaréis, ¿esto es importante? Muchísimo. ¿Todos los equipos presionan siempre igual? Intentad imaginar las fases dentro de un partido, como cambia un equipo cuando por ejemplo va ganando 2-0 o cuando va perdiendo por un gol, sus métricas cambiarán de forma drástica según el momento y la situación del partido. ¿El Villarreal de Emery presiona siempre en tercio rival entre un 23% y un 24%? Si analizamos la desviación estándar (no entraremos en la diferenciación de muestra y población) vemos que la desviación por tercios del campo es del 10.2%, 6.4% y 7.9%. De los 34 partidos analizados hay 12 que están dentro de un rango de presiones en el último tercio de [22%-26%] ¿qué ha pasado en los otros 22 partidos? ¿podemos afirmar de manera categórica que el Villarreal presiona un 24% en el último tercio?

Vamos a ver un tipo de gráfico de los que denominamos “para nosotros”, es decir, debemos verlo para analizar, pero nunca mostrar a un cuerpo técnico, dado que lo que ellos necesitan son las conclusiones del mismo, no que ellos lo analicen. Esto es el boxplot. Aquí podemos ver como se distribuyen las observaciones de un valor, en este caso presiones en el último tercio:

Y nos encontramos por ejemplo que el rango de presiones va desde partidos por debajo del 10% al 40%. Pero nosotros somos analistas de datos y debemos analizar. Normalmente un equipo de analistas se centraría en los últimos 5 partidos del Villarreal, o los últimos partidos contra rivales de similares a nosotros para poder entender ese bloque cuando juguemos contra ellos.

Aquí, volvemos al principio, el tiempo. Un analista táctico tendrá que visualizar esos 5 partidos y etiquetarlo, o seleccionar ciertos partidos, y hacer ese análisis. Nosotros podemos analizar los 34, centrarnos en qué ocurrió en cada uno de ellos en función de nuestros intereses, ¿por qué un día la presión se fue al 40% y otro al 10%? ¿Nosotros estaremos arriba o abajo en esas cifras? ¿como influyó el estado del partido? ¿qué ocurrirá si nos ponemos por delante? ¿y si marcan ellos antes? ¿Cómo influyen esos números en función del modelo de juego del rival? ¿y del nivel del equipo contrario? Pensad en todas las casuísticas posibles y ahora como analistas, buscad cortes de video en partidos para mostrar a tu cuerpo técnico que puede pasar o que ocurrió. Imaginad todo el tiempo que se emplea para finalmente reducir el valor del análisis a una charla de no más de 15’.

Por ejemplo, veamos diferentes posibilidades. La primera es la distribución en función del resultado del partido.

Vemos como cuando el equipo perdió, las presiones en el último tercio se agruparon en valores muy altos con un rango muy pequeño. Puede parecer evidente que cuando un equipo pierde intenta al menos empatar, adelantar sus líneas y presionar más arriba. A veces las obviedades son importantes, porque no olvidemos que somos analistas de datos, y nuestras conclusiones y análisis deben ser reflejo de la realidad, y hablar de que el Villarreal presiona un 24% en promedio en tercio rival está muy lejos de la realidad.

Centrándonos en las derrotas, vemos que incluso hubo partidos donde la presión fue inferior al 20%. ¿es importante? Mucho. ¿Qué ocurrió en ese partido para perder el Villarreal y no presionara tan arriba? Veamos esos partidos. Fueron dos derrotas ajustadas, Valencia-Villarreal y Villarreal-Barcelona, con un 2-1 y un 1-2 respectivamente.

Si vemos el partido del Valencia nos encontramos con un partido donde el Villarreal se puso 0-1, el Valencia se volcó en campo rival, y acabó remontando 2-1. Aquí surge un nuevo concepto, ¿debemos usar un resultado de un partido para analizar? A nosotros nos gusta más hablar de estados de partido. Por ello, debemos analizar los datos en función del resultado en cada instante, pero para este artículo contamos solo con los datos gratuitos de fbref y no tenemos tal desagregación y por tanto no alcanzamos ese detalle, pero cuando lo hacemos con datos de eventing de statsbomb si podemos hacerlo, y debemos. Pero, ¿realmente se hace?

Volvamos al partido, lo clasificamos con un estado de “modelo de juego con situación favorable en el marcador”.

El siguiente partido fue el del Barcelona con un 1-2. Mismo porcentaje, pero ante una situación muy diferente. El estado del partido fue que el Villarreal estuvo en situación negativa la mayor parte del tiempo. ¿qué mecanismos usó el Barcelona para hacer que ante un equipo como el Villarreal que cuando va perdiendo adelanta líneas de presión no pudiera hacer efectivo los principios de juego que llegan a ese porcentaje? ¿podemos preparar tareas con nuestro equipo para dado el caso de ponernos por delante conseguir como objetivo que el Villarreal no nos presione en nuestro primer tercio? Nuestra misión como analistas de datos es justamente esa, proponer estas situaciones, no tomar las decisiones, y puede ser un buen dato que analizar en video dicho partido para ver que ocurrió.  

Otra situación con mucha variabilidad es cuando empató, con un rango del 10 al 40%. Otra vez es evidente que cuando uno empata pueden ocurrir varias situaciones, que empatemos un resultado adverso, que nos empaten un resultado positivo, etc.

Nos encontramos con 3 partidos con valores superiores al 30%, contra Elche y el Huesca en 2 ocasiones. Si nosotros somos un equipo con un bloque bajo como el Elche y vamos empate y nos venimos atrás, ¿qué podemos esperar del Villarreal? ¿qué podemos hacer para contrarrestar la presión que esperamos? ¿Es Emery un entrenador que presiona arriba o durante esta temporada se ha encontrado ante situaciones adversas contra rivales de menos entidad que le han llevado a tener que adelantar las líneas de presión? En la parte inferior tenemos el partido contra el Athletic Club, donde las presiones fueron de un 10% en el último tercio. Partido que el Villarreal se puso por delante en el minuto 15’, y el empate fue en el 43’. Toda una segunda parte donde el Athletic fue a por el partido al campo rival. Este sería un partido muy interesante de analizar para ver que ocurrió con detalle. Porque el dato nos ayuda mucho mejor a encontrar cuando un equipo cambió el patrón en un dato, para posteriormente analizarlo, nos paramos en este punto para hacer énfasis en el mensaje que queremos transmitir:. El valor de un analista de datos no es decirle a tu cuerpo técnico que Emery presiona un 24% en el tercio rival, este aporte es nulo. El valor que podemos aportar es indicar que analizando datos se ha encontrado estas situaciones interesantes en función de como han ido variando los partidos y que tras analizarlas en video vemos que nos puede interesar porque, por ejemplo, el Villarreal no presionó en tercio rival cosa que a nosotros nos hace mucho daño en la salida de balón.

Y si hablamos de victorias encontramos un partido interesante. Un partido donde las presiones en el tercio rival fueron del 5%. El rival fue el Getafe, un equipo con un modelo de juego muy particular con salida de balón directa, balones largos, luchas por segundas jugadas, e intentando pasar más tiempo en campo rival que propio. ¿Podemos decir que es reflejo de una decisión de Emery no presionar? No, es una situación impuesta por el rival, ¿debemos usar este dato para calcular un promedio de presión en zona 3? Ya hemos hablado de la influencia de valores extremos en el cálculo del promedio.

Y esto en función del resultado, pero ¿en función del nivel del rival? El nivel 1 hablamos de los equipos top de la liga, 2 media tabla, y 3 equipos de “abajo”.

¿Tiene sentido hablar de un promedio ante tales distribuciones? Lo dejamos para vuestra reflexión.

Con todo lo expuesto con pequeños ejemplos queremos mostrar la necesidad de reflexionar por parte de los analistas de datos. Nos atrae el mundo del dato en su máxima expresión creando y replicando modelos. Jesus en su primer proyecto en el mundo fútbol creó su propio modelo xG, también intentó mejorar el VAEP, aplicó OpenPose para el análisis de video, y la detección de objetos, el tracking y el pitch control, etc. ¿pero realmente estamos en este punto? ¿Es necesario profundizar a estos niveles cuando no se está sabiendo hacer el análisis descriptivo contextualizado realmente y aplicado a las necesidades de un cuerpo técnico?

Recientemente de la mano de un director deportivo empezamos a analizar un rol, creamos más de 20 métricas, ninguna avanzada, aunque usaremos algunas, pero lo importante y lo que creemos que es diferencial es entender la necesidad, que se quiere y como se entiende el problema y lo más importante, como se entiende la solución. Porque si nosotros desde el dato en vez de dar una solución entendible damos “nuestra” solución seremos parte del problema, y no tendremos las puertas abiertas, ni la confianza de los cuerpos técnicos, y mucho menos la justificación de un salario acorde a nuestras capacidades. No busquemos lo complejo, nuestra meta en cualquier faceta profesional cuando damos un servicio no es otra que conseguir que nuestros oídos oigan la frase que más ilusión nos hace en el mundo del fútbol, “es justo lo que buscábamos”.

Jesús Lagos @vdot_spain y Mario Prieto @mario_6PM

Analistas de datos de fútbol

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

A %d blogueros les gusta esto: