Computer Vision (CV) is een tak binnen de Artificiële Intelligentie (AI) die zich bezig houdt met visuele herkenning van patronen in afbeeldingen of videos. Daarbij wordt gebruik gemaakt van diepe representatiemodellen, die gebaseerd zijn op Euclidische geometrie. Dit betekent dat deze modellen getraind zijn op basis van een vlakke geometrische representatie. In veel gevallen sluit deze representatie niet goed aan bij de echte wereld. Visuele illusies, zoals Sheppard’s “Terror Subterra”, geven aanwijzingen waar de discrepanties zitten. Bij een verplaatsing van het monster op de horizontale en verticale as in een vlakke representatie lijkt het alsof het monster van grootte veranderd, terwijl dit in werkelijkheid niet zo is: beide monsters zijn exact even groot. Een verplaatsing van een object in de echte wereld heeft zo vaak invloed op de schaal dat onze hersenen erdoor misleid kunnen worden. Recente vorderingen in CV laten de potentie zien van de toepassing van niet-Euclidische geometrie voor het leren van visuele eigenschappen. Het verschil tussen de twee is met name dat de representatieve kracht van niet-Euclidische geometrie groter is. In een niet-Euclidische representatie kan de schaal van Shepard’s monster bij verplaatsing in de ruimte op een natuurlijke manier gepresenteerd worden, waardoor het beeld consistent blijft met onze visuele perceptie ervan. In dit onderzoek willen we de impact evalueren van niet-Euclidische visuele representatiemodellen op het verzamelen, ordenen en annoteren van de data die nodig is voor het trainen van deze nieuwe diepe representatiemodellen. Dit willen we doen we aan de hand van drie CV-problemen die praktische toepassingen dienen buiten de context van de academische wetenschap: beeldmerkherkenning in reclamevideo’s (bij Alpha.one), winkelpanddetectie in gelijkhoekige (visoogobjectief) video’s (bij The Big Data Company) en visuele inspectie van de binnenkant van cilindervormige opslagtanks (bij ScanTank).
Er zijn geen producten gekoppeld
Lopend
Niet bekend