Generelle Kasper Pedersbæk, analytiker

Myter & misforståelser: Forstå expected goals

Foto: Getty Images

Expected goals er analyseværktøjet der deler vandene. For nogen en måde at analysere og vurdere et givent holds formmæssigt udvikling, for andre ren nonsens og et ligegyldigt forsøg på at sætte fodbold på formel. Her følger en introduktion til expected goals, en mulighed for at få klarsyn for og danne sig en mening på baggrund af en gennemgang af de muligheder, der ligger indenfor.

Af Kasper Pedersbæk, analytiker

Expected goals fjerner held og tilfældigheder fra resultaterne, skærer ind til benet og viser den egentlig præstation. Tesen bag modellen er, hvorvidt præstationen groft sagt står mål med resultatet.

Expected goals, eller blot forkortet xG i daglig tale blandt nørderne, er hvad man meget forsimplet kan kalde for en fintunet afslutningsstatistik. Alle kender til den klassiske kampstatistik “skud på mål” – men hvor meget fortæller den faktisk om en kamp, og hvem der reelt havde de bedste muligheder for at vinde? En afslutning er ikke en afslutning. For som Niklas Nürnberg, en af folkene bag TAPIN, den anerkendte leverandør af xG til Superligaen, forklarer:

“Det har helt sikkert sin brugbarhed, men vi alle ved jo godt, at en chance ikke bare er en chance, men at der er masser af forskellige grader af, hvor stor en chance kan være, og det er i bund og grund det expected goals handler om: At tilføje kontekst til noget alle i forvejen forholder sig til”.

Legemsdele gør en forskel
I expected goals kan en afslutning tilskrives en værdi mellem 0,01 og 1,00. Det betyder, hvor ofte der fra en afslutning under de givne omstændigheder kan forventes at blive scoret et mål. En “stor chance” vil oftest ligge i lejet 0,25+ xG – og betyder altså en afslutning fra denne position og situation statistisk set vil resultere i en scoring 25 ud af 100 gang, eller med andre ord 25 procent af afslutningerne. Ligeså betyder en afslutning på for eksempel 0,05 xG, at fra denne position er der statistisk set kun tidligere blevet scoret fem ud af 100 gange (altså 5 procent).

Hvordan bliver værdierne for en afslutning udregnet? Bagved værktøjet “expected goals” ligger der naturligvis nogle tunge matematiske formler. Værdien, en afslutning bliver tilskrevet, er ikke bare grebet ud af den blå luft. Vi lader her igen Niklas Nürnberg fra TAPIN gøre os klogere på hvilket slags data, der bruges til at beregne xG:

“Der er selvfølgelig de helt basale variabler, såsom hvor på banen der afsluttes fra, og hvilken vinkel der er til målet. Det er det helt grundlæggende. Dernæst er der så elementer som f.eks. afslutningstype, som både kan beskrive hvilken legemsdel, der afsluttes med, og om det foregår som hel- eller halvflugter, med ryggen til mål og så videre og en række andre ting som f.eks. spillere i afslutningsvinklen, målmandens position, hvor meget pres afslutteren er under eller optakt til afslutningen”.

Niklas Nürnberg forklarer også, at når der er variation i de forskellige udbyderes xG tal, så handler det om, at alle modeller for udregningen af dem ikke er ens, da der er forskel på, hvilke og hvor mange data man “smider i dem”. Desiden pointerer han en væsentlighed for dataanalyse som helhed:

“Som det ofte er med dataanalyse, så jo mere information og kontekst, man kan putte ind i sin model, desto bedre et produkt får man.”

Giver dobbeltchancer dobbelt op på xG?
Enkelte indvendinger i debatten omkring brugen af expected goals går også på de sekvenser, hvor et hold i en angrebssituation får to eller flere afslutninger i samme sekvens. Men det er stadig kun muligt at score et mål. Så hvordan håndterer modellen, at et hold for eksempel har to afslutninger til 0,50 xG – lagt sammen giver det jo 1,00, som så burde være et statistisk garanteret mål? Igen lader vi Niklas Nürnberg byde ind med sin ekspertviden:

“Ved brugen af expected goals er der jo den vigtige kontekst, at man jo altså kun kan score ét mål i en angrebssituation uanset, hvor mange afslutninger man måtte have. Så selvom den samlede sum for de enkelte afslutninger i en angrebssituation vil overstige 1.00, vil den samlede sum aldrig nogensinde kunne tilføjes slutfacit, da sandsynligheden for, at der scores i et angreb, jo selvfølgelig aldrig kan blive 100% eller derover, uanset hvor mange afslutninger der så end måtte være.”

Han får selv lov at uddybe hvordan det håndteres i beregningen:

“Så helt skåret ud i pap, så kan en spiller få en chance der udregnes til 50 procent sandsynlighed for et mål, og hvis han brænder den få en ripost, der også har 50 procent sandsynlighed for et mål, men den samlede sandsynlighed for den sekvens kan aldrig blive 100 procent. I det givne tilfælde ville vi udregne sandsynligheden for et mål til at være 75 procent, selvom det vurderes, at der gennemsnitligt vil blive scoret hver anden gang på de givne chancer.”

xG's udfordringer
Expected goals belønner ikke angreb som så at sige ikke afsluttes. Altså den der tværpasning, som er lige ved at ramme en angriber, registreres ikke. Men det er netop en hjørnesten i argumentationen for, at xG ikke skal tages som facit og beskrivelse af kampbilledet i en enkeltstående fodboldkamp.

Niklas Nürnberg forklarer om udviklingen af non-shot-xG modeller, altså modeller hvor man som hold også bliver belønnet for “lige-ved-chancerne”, og sætter følgende ord de udfordringer, der så følger med der:

“De her modeller differentierer sig i endnu højere grad fra hinanden, og de bygger typisk på flere forskellige typer data, som jo så altså tilfører mere kontekst end en afslutningsbaseret model. Udfordringer ved de her modeller er så at få dem forklaret i lægmandstermer og få det oversat til noget, der virker brugbart for dem, som ikke er helt nede i materien, og samtidig er der på nuværende tidspunkt ikke nogen tydelig evidens for, at de modeller gør os meget klogere og bedre til at vurdere de forskellige hold, end vi var i forvejen.”

Det er et tilbagevendende punkt i debatten, at alle afsluttere og målmænd selvfølgelig ikke er ens, og at det derfor ikke giver mening at holde dem op mod et gennemsnit. Det vil vi jo nok mene, at det stadigvæk gør. Effektiviteten for den enkelte afslutter kan fluktuere helt enormt fra sæson til sæson og dermed fortælle to forskellige historier om en spillers evner foran mål afhængigt af, hvilken sæson man vælger at bygge sin fortælling på. Og på verdensplan og i de enkelte ligaer er der ikke så mange spillere relativt til det niveau, de spiller på, som kontinuerligt er markant mere eller mindre effektive end gennemsnittet, som folk går rundt og tror, der er.

Dernæst er der så styrken i, at vi kan bruge gennemsnittet til at måle op mod spillere der præsterer væsentligt over eller under. For at højne historiefortællingen omkring fodbold burde det være et værktøj, der kan bruges til at styrke eller afkræfte narrativer, såsom den ekstreme anomali der var Robert Skovs 2018/19-sæson, eller belyse spillere, hvor det er offentligt anerkendt, at de ikke er gode afsluttere. I stedet for at hidse sig op over, at det ikke flugter én til én med virkeligheden, og at det langt fra kan bruges til at afdække alle nuancer, burde man i stedet bruge det der, hvor det for alvor har sin berettigelse.

Outcome bias er helt sikkert en af de ting man kommer ud for, når man arbejder med sådan en metode her. Det er meget svært for selv det trænede øje at undgå at differentiere en situation, hvor en angriber med den største selvfølgelighed sætter bolden i kassen, og så en situation med lignende vilkår, hvor han får et håbløst træf på den og er ved at ramme pølsevognen.

Og så er vi tilbage igen ved den givne afslutters evne til at håndtere gode muligheder og få det bedste ud af dem. Derfor vil der også især være mål, hvor chancen føles større, fordi afslutteren som oftest har håndteret muligheden noget nær optimalt og derved har scoret, men modellen bygger altså også på data, hvor bolden ikke ligger perfekt til rette, når der afsluttes, eller hvor der er rigtig dårlig timing i opspringet til hovedstødet.

xP reflekterer muligheder, ikke facit
Expected points (xP) er ikke – modsat hvad manges opfattelse er, og hvad det desværre er blevet udlagt som om – et udtryk for de point, holdene burde have fået. Expected points reflekterer det langsigtede gennemsnit af point, som et hold kunne have fået, såfremt en kamp var blevet spillet tusindvis af gange med de samme chancer.

Niklas Nürnberg fra TAPIN uddyber:

“Expected points viser mere jævnbyrdighed end den faktiske tabel, ja, og det er der nogle helt logiske grunde til. Først og fremmest kan en fodboldkamp jo pointmæssigt have tre udfald, 0, 1 og 3 point, og expected points vil altid være et sted mellem 0 og 3, men jo aldrig give samme facit som de to ekstremer. Derudover bygger expected points jo også på en gennemsnitsvurdering. Altså hvor måtte det [pointantallet] forventes at ligge helt uden positiv eller negativ varians. Og varians vil der selvfølgelig næsten altid være, især i de to ender af tabellen.”

Han uddyber:

“Det er jo ret logisk, at det hold, der ligger i toppen, er et hold der både har præsteret godt på de underliggende parametre, og som samtidig har haft noget varians med sig. Hvis man føler, at tingene går med en, og at man har tur i den, er man nok også tilbøjelig til at afslutte med en større selvtillid og dermed kvalitet, end hvis det modsatte var tilfældet. Og det gør sig jo gældende fra det hold, der ligger i bunden, som typisk vil være et af de dårligste på de underliggende parametre, og samtidig have haft held og varians imod sig i en periode, som så kan være gået hen og fået den negativt selvforstærkende effekt, hvor man lige pludselig ikke længere tror på, at man scorer på samme måde som normalt, og derfor afslutter dårligere.”

Når man kigger på distribution og mulige udfald baseret på data fra en fodboldsæson, er der en masse potentielle slutscenarier, både positive og negative for de enkelte hold, som samlet set er mere sandsynlige, end de bare ender på deres gennemsnit. I den netop overståede Superliga-sæson (2020/21), er der for alle de tre hold, der tog medaljer, på den gode side af 20 procent sandsynlighed for, at de kunne være endt med at blive mestre, og der er også scenarier, hvor de hver især kunne være blevet mestre med et væsentligt bedre pointsnit, end det endte ud med. Det er sådan tabellen skal læses, den skal ikke læses, som om det skæve tal, der står til sidst, er det pointtal, som holdene ”burde” have fået, for i fodbold er ”the law of averages” heldigvis også sat ud af spil over hele sæsoner. Det er et udtryk for muligheder. Expected points er en tabel, der viser de muligheder et hold havde, ikke om det var retfærdigt eller ej.

Misforståelsen Table of Justice
Det er ret lige på og hårdt, da jeg beder Niklas Nürnberg fra Tapin sætte ord på fænomenet Table of Justice:

“I bund og grund er udtrykket Table of Justice komplet åndssvagt. Det forudsætter først og fremmest, at der er noget, der hedder retfærdighed i fodbold, hvilket der selvfølgelig ikke er, men så bygges den ”retfærdighed” jo så også på, at det et mindre retfærdigt, hvis man kan banke et langskud ind fra 30 meter, end det er at lave et tap in fra tre meter, selvom vi jo godt ved, at for den individuelle spiller er langskuddet en uendeligt meget større præstation.”

“Så snakken om retfærdighed er for os uinteressant og reelt noget vi betragter som et meme og en joke. Hvis vi skal snakke om seriøsiteten bag den her tabel og hvilken metodik og oprindelig tanke, der ligger bag, så handler det i bund og grund om at vurdere, hvad der har ligget i de underliggende præstationer, når vi renser det helt for varians, og hvad vi ud fra det kan forvente, at holdene præsterer i fremtiden.”

Niklas fortsætter uddybningen:

“Det handler ikke om at sige, hvem der har været ”bedst”, for hvis man har været enormt effektiv foran målet og har haft en keeper der har spillet fremragende, er det en underlig semantisk diskussion at skulle anfægte, at det hold har været ”bedst”. Det handler udelukkende om at sige, om i hvilken grad de resultater, der er gået forud, må forventes at kunne fortsætte, baseret på de underliggende parametre. Og alle fodboldkendere tænker mere eller mindre ubevidst på den måde, om de så vil være ved det eller ej.”

Hvori ligger logikken ellers i, at Manchester City ud fra et odds-perspektiv kunne være klare favoritter forud for Premier League 2020/21, når Liverpool vandt ligaen suverænt med 18 point og først tabte, da tingene reelt var afgjort? På transferfronten burde der heller ikke være nogen handler hverken ind eller ud, der på den måde kunne rykke så markant ved magtbalancen. Hvis Liverpool var så meget bedre end City, som tabellen antydede, er det jo helt ulogisk, at det ikke var dem, der var store favoritter til at tage titlen i den følgende sæson.

Forklaringen på det ligger i, at der selvfølgelig er nogle helt andre elementer, der ligger til grund for sådan nogle forudsigelser og udviklinger i fodbold. Der kan ikke sættes en finger på, at Liverpool var det bedste hold, og havde fortjent at vinde Premier League i 2019/20. Men i Liverpools præstationer lå nogle ting, der gjorde, at det var meget usandsynligt, at de ville kunne fortsætte de samme resultater i den følgende sæson, og samtidig antydede elementer i Manchester Citys præstationer, at det var forventeligt, at de ville få væsentligt bedre resultater.

På samme måde virker det jo helt ulogisk, at FC København, der lå med syv points margin op til Brøndby, og som havde tabt de to foregående opgør til Brøndby i sæsonen, det seneste blot en måned før, i april skulle være ret så pæne favoritter på udebane, godt nok uden tilskuere, mod et Brøndby-hold for næsten fuld styrke. Forklaringen på det ligger i, at der i de forudgående måneder og kampe havde været nogle elementer i FC Københavns præstationer der antydede, at holdet måtte kunne forventes at lave bedre resultater end Brøndby i fremtiden, og det var det, der lå til grund for chancevurderingen, som jo så også udmøntede sig i to FCK-sejre i slutspillet.

Det betyder ikke, at Brøndby ikke var det bedste hold i 2020/21-sæsonen ikke havde fortjent at blive mestre. Det betyder bare, at det er mere sandsynligt, at FC København i denne sæson bliver dansk mester og får bedre resultater end Brøndby, i hvert fald med de nuværende trupper.

Hvordan man ikke skal bruge xG
Der, hvor expected goals bliver brugt forkert, er en klassiker – for det er især, når xG bliver brugt som facit på en kamp af subjektivt farvede fans i forhold til, hvem der havde været “bedst” eller “fortjent” pointene fra en given kamp.

Niklas Nürnberg fra Tapin forklarer:

“Det er sjældent, at den enkelte fodboldkamp overordnet egner sig til at blive analyseret fra et talmæssigt perspektiv eller på baggrund af de fire-fem klip, der er plads til i nedtakten på TV. Som tidligere nævnt er der som oftest nogle omstændigheder omkring kampbilledet, der gør, at en kamp bliver præget i en bestemt retning, og at de planer, de to hold måtte have haft før kampen, i en eller anden grad sættes ud af spil”.

Hvis man skal analysere en kamp på baggrund af expected goals, så kan vi få et fingerpeg om, hvordan et givent hold (og dets modstander) præsterede. Men det er værd at holde sig for øje, at expected goals IKKE er en sandhed for, hvem der BURDE, SKULLE eller FORTJENTE at vinde kampen, men er et redskab til at analysere, hvem der havde MULIGHEDERNE for at kunne have bragt mere med sig hjem af point. Eller hvem der havde fodboldens guder til at smile lidt deres vej.

En analyse af afslutningerne kan fortælle os, at det ene hold samlet producerede for eksempel 0.22 xG på to afslutninger, mens modstanderne i kampen ramte 2.90 xG på 31 afslutninger.

Så kan vi bryde alle afslutningerne ned og matematisk simulere kampen, som om den blev spillet 100.000 gange mere med de eksakt samme chancer – og derfra få et indblik i hvor ofte eller hvor sandsynligt et givent resultat forekommer, ligesom vi kan udvinde expected points herfra.

Det er dog især på den lange bane, at expected goals har sin helt store styrke til at analysere præstationer og se på et givent holds udvikling.

I en analyse vil jeg ofte inddrage xG (expected goals), xGC (expected goals conceeded), xGD (expected goals difference).

Mens xG er holdets egne chancer – forsimplet forklaret er det holdets offensive evner, så er xGC det modsatte. Det er evnen til at holde modstanderne fra chancer. Og der, hvor det er interessant, er så, når man laver regnestykket xG-xGC=xGD.

For xGD er så at sige ”chancekontoen”, og præcis som med budgetkontoen derhjemme i husholdningen, så kan den godt leve med at stå i minus på den korte bane, men på den lange bane skal der gerne være plus, da det så ellers vidner om et hold reelt set ”lever over evne”. At man har en spiller med så superb en individuel kvalitet, at denne sparker flere afslutninger i mål end gennemsnittet. Så længe den spiller er i klubben, er det fint, men på den lange bane vil holdet forfalde til gennemsnittet og score det forventelige ud fra kvaliteten af chancerne.

Så for at lave en stabil analyse af præstationerne er det relevant at se på egne offensive evner (xG), evnen til at forsvare og holde modstanderne fra chancer (xGC) og i sidste ende helst producere flere og bedre chancer end sin modstander på xGD.

For at gøre data så retvisende for muligt, arbejder jeg også med et rullende gennemsnit, hvilket betyder, at tallene viser et gennemsnit af de seneste 4 kampe (cirka en måned tilbage i tiden) for igen at få et så retvisende billede som muligt uden for stor påvirkning af enkeltstående freak-kampe.

Derudover er det naturligvis relevant at inddrage de faktiske omstændigheder som scorede mål og indkasserede mål.

Et eksempel på en præstationsanalyse over tid kan tages fra sidste sæsons mesterhold, Brøndby IF. Grafikken ovenfor viser to grafer – en for det xGD (rullende gennemsnit over 4 kampe) og et den faktiske måldifference (også rullende gennemsnit over 4 kampe).

Man kan aflæse, hvordan Brøndby, efter en god resultatmæssig sæsonstart, begynder at få det svært rent resultatmæssigt omkring runde 5/6. Men det interessante er, at klubben egentlig stadig producerer et fint plus på “chancekontoen”, og igennem hele sæsonen kun har ganske få dyp under den skelsættende “0” linje. Man er ganske enkelt stabile hele vejen igennem. Selv ved slutspillets start, hvor det absolut ikke gik Brøndbys vej resultatmæssigt, så viste de underliggende data, at man groft sagt “gjorde tingene rigtigt” – for man skabte stadig sine chancer. Mod slutningen kom måldifferencen (læs: antal scorede mål/mål imod) mere lig med xGD, og man ramte de resultater, man viste, man kunne.

Vil man så dybere ned i analysen, kan vi gå ned og kigge på de rullende gennemsnit for Brøndby i samme sæson – denne gang bare på xG og xGC. Altså evnen til selv at skabe chancer og at afholde modstanderne fra at skabe chancer mod en selv. Et blik på de to grafer fortæller os, at Brøndby egentlig holdt modstanderne stabilt på det samme niveau af chancer gennem hele sæsonen, men at den egentlig udfordring for Niels Frederiksens mandskab lå rent offensivt, hvor man undervejs oplevede et dyk i evnen til at skabe chancer. Dermed kan værktøjet bruges (og bliver brugt) til at analysere på udfordrende områder – her pegede det på offensiven som akilleshælen.

Så hvad er expected goals?
Expected goals er et analyseværktøj, der i fodbold adskiller held fra egenskaber. Det giver os som iagttagere muligheden for at adskille de faktiske præstationer fra de faktiske resultater i et forsøg på at skabe perspektiv og danne grobund for dybere analyser.

Det fortæller os om et holds muligheder eller mangel på samme, om dets udvikling eller mangel på samme.

Expected goals er ikke – og vil aldrig blive – sandheden om hvem der fortjener, burde eller skulle have vundet en kamp. Men det fortæller os om et holds muligheder.

Fotos: Getty Images