Slik lages en simulasjonsmodell for fotball

Store simulasjonsmodeller krever regnekraft og tolmodighet

Store simulasjonsmodeller krever regnekraft og tolmodighet

Noen har spurt hvordan man lager en simulasjonsmodell for ligaer og kvalifiseringer. For at du bedre skal forstå hvordan simulasjonsmodellene våre fungerer, har jeg laget en generell beskrivelse nedenfor. Dette kan også bidra til å forklare hvorfor utviklingen i enkelte tilfeller blir annerledes enn hva man gjerne skulle tro eller ønsket.

Men bare så du er advart – dette er ganske sære greier!

Simuleringsmodell er et redskap som er godt egnet for å beregne sannsynlige utfall av komplekse systemer som består av et svært stort antall av uavhengige enkelthendelser. 

For å forklare hvordan en simulasjonsmodell fungerer, tar jeg utgangspunkt i den engelske ligaen Championship, som består av 24 lag og totalt 552 kamper. Dersom man først antar at utfallet av hver enkelt kamp kan være H, U eller B, er det altså 3552 mulige kombinasjoner. Dette er allerede astronomiske tall.

HUB er imidlertid ikke tilstrekkelig for å beskrive utfallet i hver enkelt kamp. Dersom man ønsker å liste opp alle mulige enkeltresultater i hver enkelt kamp («1-1», «2-1», «2-4», etc.), vil man komme til 25 eller mer, avhengig av hvilken liga man ønsker å modellere. «Utfallsrommet» består altså av 25 ulike resultater. Antall mulige kombinasjoner av enkeltresultater blir da 25552. En fullstendig beregning av alle mulige kombinasjoner er selvsagt umulig.

I stedet benytter man en simulasjonsmodell, som fungerer på følgende måte:

Man trekker tilfeldig ut ett resultat for hver av de gjenstående kampene og sammenholder disse med resultatet i de allerede spilt kampene. Ved å sette sammen resultatet i de 552 kampene får man en tabell. Om man gjør denne operasjonen 10.000 ganger, får man altså 10.000 ulike tabeller. Dersom f. eks. Leeds topper 850 av disse tabellene, kan man altså konkludere med at Leeds har 8,5 prosent sannsynlighet for å vinne Championship.

Denne korte forklaringen viser hovedproblemstillingene når man skal lage en simulasjonsmodell:

  • Hvert enkelt lags styrketall må fastsettes dynamisk for å fange opp formutvikling
  • Definisjon av utfallsrommet i hver enkelt kamp
  • Kvalitetssikring på kampnivå
  • Antall simuleringer

Utførlig om hver enkelt av disse nedenfor.

Styrketall

Beregningsmodellen må ta høyde for at de enkelte lagene har ulikt ferdighetsnivå og derfor har ulike sannsynligheter for å vinne fremtidige kamper. Dette kommer til uttrykk i lagenes styrketall. Styrketallene kan være statiske eller dynamiske. Bruk av statiske styrketall ville innebære at ferdighetsnivået til hvert enkelt lag ble vurdert og fastsatt ved ligaens start og forble uendret gjennom alle rundene. Langt mer hensiktsmessig er det imidlertid å bestemme et styrketall ved ligaens start (f.eks. basert på et gjennomsnitt av eksperttips), men at dette gradvis blir faset ut og erstattet av et styrketall som blir fastsatt basert på de resultatene som hvert enkelt lag faktisk oppnår.

Man kan benytte offentlig tilgjengelige ratinger som styrketall. Dette er spesielt relevant for landslag, hvor både FIFA og UEFA har egne ratinger. UEFA har også ratinger for klubblag, men disse blir ubrukelige i denne sammenheng ettersom de kun omfatter lag som har deltatt i (kvalifisering til) europa-cupene.

Man kan utarbeide ratinger basert på ELO-prinsippene (samme system som benyttes for rating i blant annet sjakk) eller man kan lage mer tabellbaserte ratinger som kun vektlegger f.eks. de siste ti serierundene men i tillegg vektlegger de siste fem kampene tyngre enn de fem foregående.

Det er altså mange måter å fastsette dynamiske styrketall som tar hensyn til at lagenes spillestyrke kan variere gjennom ligaens varighet.

Uansett må man fastsette lagenes relative styrkeforhold i den enkelte kampen. Det relative styrkeforholdet fastsettes ut fra det absolutte styrkeforholdet til hvert av lagene og hjemmebanefordelen.

Man kan f.eks. bestemme at summen av to lags relative styrkeforhold i hver enkelt kamp skal være 100. Om et svært godt lag spiller på hjemmebane mot et dårlig lag, kan det relative styrkeforholdet f.eks. bli 85 – 15. Om et dårlig lag spiller på hjemmebane mot et svært godt lag, kan det relative styrkeforholdet f.eks. bli 35 – 65.

Utfallsrommet

For det første må yttergrensene for utfallsrommet fastsettes ut fra karakteristiske kjennetegn ved ligaen som skal modelleres. Er det store kvalitetsforskjeller mellom lagene som deltar, må beregningsmodellen ta hensyn til at svært store seire. F.eks. er det ikke umulig at Tyskland på hjemmebane slår Gibraltar med 15 mål i en EM-kvalifiseringskamp. Modellen må ta høyde for at slike resultat kan oppstå. I Championship har de deltakende lagene langt mer homogent ferdighetsnivå og derfor defineres yttergrensene for utfallsrommet langt snevrere.

Utfallsrommet er imidlertid ikke bare en opplisting av alle mulige resultater for hver enkelt kamp, men må også definere sannsynlighetsfordelingen mellom de enkelte mulige resultatene. F.eks. må resultatet «2-1» trekkes ut langt hyppigere enn «0-5», selv om begge disse er innenfor yttergrensene av utfallsrommet. Utfallsrommet må altså defineres individuelt for den enkelte kampen basert på de to lagenes relative styrketall.

Kvalitetssikring av modellen på kampnivå

Det er svært viktig å kvalitetssikre beregningsmodellen på kampnivå. Allerede før modelleringen starter, bør man ha en god oppfatning av:

  • Hva er «riktig» fordeling av H-U-B i en kamp hvor et av de sterkeste lagene spiller på hjemmebane mot et av de svakeste (f.eks. 75% – 20% – 5%)?
  • Med hvor mange mål vinner i gjennomsnitt det sterkeste laget i slike kamper (f.eks. 3,0)?
  • Hva er «riktig» fordeling av H-U-B i en kamp hvor et av de sterkeste lagene spiller på bortebane mot et av de svakeste (f.eks. 20% – 20% – 60%)?
  • Med hvor mange mål vinner i gjennomsnitt det sterkeste laget i slike kamper (f.eks. 1,5)?
  • Hva er «riktig» fordeling av H-U-B i en kamp hvor to jevngode lag møtes (f.eks. 50% – 20% – 30%)?
  • Med hvor mange mål vinner i gjennomsnitt hjemmelaget i slike kamper (f.eks. 1,2)?

Tallene som er angitt i parentes over er verdier jeg vurderer å beskrive Championship ganske godt. I andre ligaer vil målverdiene være annerledes.

Denne kvalitetssikringen omfatter både beregningsprinsippene for styrketall (absolutte og relative) og definisjonen av utfallsrommet. Denne delen av prosessen er svært tidkrevende. Kun dersom man legger mye arbeid i denne delen av modelleringen, vil man få et verktøy som kan beskrive sannsynlighetsfordelingene på en god måte. En modell som fungerer godt i en liga, vil ikke direkte kunne benyttes i en annen liga. F.eks. vil ikke en beregningsmodell som er utviklet for Tippeligaen direkte kunne overføres til Championship.

Antall simuleringer

Det er lett å la seg blende av et stort antall simuleringer. Det er absolutt ikke slik at 10.000 simuleringer gir et dobbelt så godt resultat som 5.000 simuleringer. Når man passerer et visst punkt er det lite å hente ved å øke antallet ytterligere. Vi sier gjerne at grensenytten er avtagende og etter hvert blir nærmest null.

Nødvendig antall simuleringer er svært avhengig av hvilken liga eller kvalifisering man simulerer.

Spesielle forhold ved simulering av kvalifisering for EM2016 og VM2018

Kvalifisering for EM og VM har svært spesielle kjennetegn som gjør det spesielt interessant å analysere ved hjelp av en simulasjonsmodell. Ettersom det gjelder spesielle regler for kvalifisering av lag som blir nummer tre i sine grupper, kan ikke de gruppene vurderes uavhengig av hverandre.

For å kunne beskrive kvalifiseringen fullstendig, må modellen for hver enkelt simulering:

  • Sette opp en vanlig tabell for hver gruppe
  • Identifisere hvilket lag som havner sist i hver gruppe
  • Lage en treertabell bestående av treerlagene i hver av gruppene, men hvor resultatet mot gruppesekser ikke blir regnet med
  • Identifisere beste gruppetreer som er direkte kvalifisert
  • Beregne National Team Coefficients (UEFAs eget rangeringssystem) for hver av de åtte lagene som skal spille playoff.
  • Rangere de åtte lagene etter denne koeffisienten for å finne ut hvilke lag som blir seedet i playoff

Dette må man så gjøre et stort antall ganger, 20.000 ganger eller mer.

Tilsvarende blir det for VM2018, så her er det bare å glede seg!

Bokmerk og del