4 minute read
Crowd counting med dronebilleder
by Geoforum
I Aarhus Kommune har afdelingen ”GIS og Geodata” arbejdet på at udvide porteføljen med nye, relevante droneopgaver. Et projekt har været at udvikle et værktøj til at estimere antallet af individer i større forsamlinger. Projektet har resulteret i et spændende, nyt Machine Learning-værktøj, der med høj præcision kan optælle individer i helt almindelige dronebilleder. Værktøjet vil bidrage til at skabe et bedre overblik over fremmødet ved kulturelle begivenheder og derved øges sikkerheden.
AF MARTIN KAUFFMANN PEDERSEN, AARHUS KOMMUNE Projektet begyndte som en hurtig søgning på Internet for at undersøge hvilke ”crowd counting” værktøjer, der findes online. Det viste sig dog hurtigt, at sådanne færdige værktøjer endnu ikke findes, da teknologien til automatisk optælling af menneskemængder fra stillbilleder ikke er udbredt og stadig forskes i. Dette skyldes, at udviklingen af Machine Learning hidtil ikke har fokuseret på genkendelse og optælling af mange ens genstande i billeder, men nærmere at genkende enkelte, forskellige genstande i billeder. Af denne årsag findes der i dag talrige værktøjer til objektgenkendelse, og måske gør din mobiltelefon det allerede helt af sig selv. Prøv eksempelvis at søge på ”mad” eller ”solnedgang” i din telefons billedarkiv.
Machine Learning med ganske få pixels
Når en computer lærer at genkende et specifikt objekt i billeder, lærer den dette ud fra træningssæt bestående af talrige billeder af objektet, hvor computeren får at vide hvilket objekt, det drejer sig om. Machine Learning er i dette tilfælde, at computeren selv – vha. af en algoritme – lærer at lede efter farver, former, vinkler osv., der tilsammen med høj sandsynlighed kan udgøre et estimat af, at noget eksempelvis er en pære eller et æble. Dette er computere meget dygtige til, når objekter optager mange pixels i et billede, men så snart objekter fylder ganske få pixels, eller måske ikke engang har en pixel for sig selv, kan det være svært for både mennesker og maskiner at genkende objektet. Der skal derfor en anden metode til før, man kan optælle mange individer i en forsamling af mennesker.
Med hjælp fra Alexandra Instituttet blev en Machine Learning-algoritme af typen ”density map estimation” undersøgt. I denne type af algoritme lærer computere at estimere antallet af individer ud fra tætheden af personerne i billedet. For at træne algoritmen fodres den med tusindvis af billeder med mange individer, hvor det nøjagtige antal individer i forvejen er manuelt optalt. Dette antal kaldes ”ground truth”. Sådanne træningssæt findes efterhånden i mange typer, hvor billeder af menneskemængder typisk stammer fra Kina. For at tilpasse algoritmen bedst muligt til ens ønskede scenarie er det vigtigt at anvende træningsdata, der så vidt muligt indeholder billeder, som minder om de billeder, man ønsker at anvende algoritmen på. Heldigvis findes der også træningssæt af menneskemængder, hvor ikke alle mennesker er sorthårede, og der findes endda træningssæt, hvor billedernes komposition minder om dronebilleder.
Valg og tilpasning af algoritme
Den udvalgte algoritme og de bagvedliggende træningssæt kan findes online som open source via følgende adresse: https://tinyurl.com/crowdcounting. Herfra er det muligt at hente alt data samt modeller til ”mappesystemet”, der er påkrævet, førend algoritmen virker. Det skal bemærkes, at alt skal hentes og installeres direkte via egen computer eller servers kommandoprompt. Det er IKKE et plug-and-playprogram, der med lethed kan installeres. Det kan dog lade sig gøre, og vha. kyndig vedledning fra Alexandra Instituttet fik vi algoritmen og de bagvedliggende Python-relaterede sprog og programmer installeret på vores server. Hermed kunne vi udføre vores første test af algoritmen på egne billeder, hvor hverken vi eller computeren kender til ”ground truth”.
Illustration 1: Dronebillede fra Middelalder festivallen i Horsens, 2019. På billedet optræder en større menneskemængde forsamlet i et optog samt mindre forsamlinger på de omkring liggende arealer.
Test af dronebilleder
Til den første test anvendtes et dronebillede venligst udlånt af Horsens Kommunes dronepiloter. Billedet forestiller en menneskemængde bestående af deltagere til Middelalderfestivallen ved Fængslet i Horsens, se illustration 1.
Fremgangsmåden består i at tilføje billedet til det oprettede mappesystem, hvorefter et Pythonscript tilpasses med information om billedets navn og ønskede træningssæt. Herefter køres Python-scriptet via kommandoprompten. På få minutter oprettes en outputfi l, der består af et billede i PNG-format, der visuelt illustrerer tætheden af menneskemængden, se illustration 2.
Outputfi len navngives automatisk med algoritmens estimat for størrelsen på menneskemængden. I dette tilfælde estimerede algoritmen menneskemængden til at bestå af 1.526 individer.
For at kontrollere dette estimat fastlægges en ground truth ud fra et gennemsnit af manuelle optællinger udført af kolleger i GIS og Geodata. Denne ground truth blev fastlagt til 1491,5 individer, hvilket ret nøjagtigt svarede til computerens estimat med en afvigelse på blot 2,3 %.
Computerkraften afgørende for estimatet
Yderligere test af algoritmen har påvist, at computerkraften kan være afgørende for nøjagtigheden af estimatet. Algoritmen kræver betydelige mængder RAM (arbejdshukommelse) til sin beregning, hvilket afspejles i hvor høj en opløsning, algoritmen kan trække. Jo mere RAM. computeren eller serveren besidder, jo højere billedopløsning kan anvendes, og jo bedre estimat opnås.
Yderligere blev det fastlagt, at algoritmen ikke kan anvendes til optælling af billeder af personer, hvor hvert individ fylder meget i billedet. Dette kan virke bemærkelsesværdigt, men det skyldes, at algoritmen jo netop kun er blevet trænet til at estimere tætpakkede grupper af mennesker. Den ved ganske enkelt ikke, hvad et enkeltstående menneske er eller hvordan, den skal tælle ud fra det.
Udviklingen af dette Machine Learning-værktøj har medført, at porteføljen af droneopgaver, der kan udføres af Teknik og Miljø i Aarhus Kommune, er blevet udvidet. Projektgruppen ser frem til at udføre optællingsopgaver på tværs af magistratens afdelinger samt eventuelt at bistå politi og beredskab med relevante opgaver. Nu venter vi blot på, at samfundet lukker yderligere op, så større forsamlinger igen bliver hverdag.
Illustration 2: Outputbillede fra algoritmens estimat. Farveudslaget illustrerer tætheden af menneskemængden i billedet.