18 minute read

FOCUS ON

Next Article
TRADE SHOWS

TRADE SHOWS

Computer vision is one of the pillars of artificial intelligence and is spreading to multiple sectors and applications. The development will have an impact that scientists compared to the Cambrian explosion, an era in which new forms of life were formed. Those that did not adapt are extinct. Here is a summary of current research relevant to the leisure industry

VISIONS OF A.I.: MAKING LEISURE AND THE WORLD SMARTER

by Domenico Matarazzo

La computer vision, uno dei pilastri dell’intelligenza artificiale, va diffondendosi in vari settori e applicazioni. Il suo sviluppo avrà un impatto paragonabile, secondo gli scienziati, all’esplosione cambriana, un’epoca in cui si sono generate nuove forme di vita. E chi non si è adattato… si è estinto. Ecco alcuni dei progetti in fase di studio che interessano il tempo libero

VISIONI IN A.I.: RENDERE PIÙ SMART LO SVAGO E IL MONDO

di Domenico Matarazzo

L’esplosione cambriana è un evento verificatosi tra i 540 e i 530 milioni di anni fa, ovvero all’inizio dell’era Cambriana. Indica quel periodo in cui la Terra passò in poco tempo (poco almeno su scala geologica) dall’essere popolata da organismi semplici e unicellulari a ospitare una multiforme varietà di forme di vita, molte delle quali compongono il mondo animale di oggi. Nel suo libro del 2003 “In The Blink of An Eye”, lo zoologo Andrew Parker ha suggerito che l’esplosione cambriana è stata innescata dall’im-

Computer vision (CV) is a field of artificial intelligence that focuses on building and using digital systems to process, analyze and interpret visual data. The goal of computer vision is to enable computing devices to correctly identify an object or person in a digital image and take appropriate action.

La computer vision o visione artificiale è un campo dell'intelligenza artificiale che si concentra sulla creazione e uso di sistemi digitali per elaborare, analizzare e interpretare dati visivi. L’obiettivo è consentire ai dispositivi informatici di identificare correttamente un oggetto o una persona in un’immagine digitale e intraprendere poi le azioni più appropriate. Fei Fei Li is an American computer scientist leading several projects in computer vision at Stanford University. She made several significant contributions to the field which brought her numerous awards from the industry. She is married and occasionally works on projects with her husband Silvio Savarese, an expert in robotics, also at Stanford.

Fei Fei Li è un ingegnere informatico americana a capo di diversi progetti in Computer Vision presso la Stanford University. Ha contribuito in modo significativo alla disciplina con iniziative che le hanno portato numerosi riconoscimenti dal settore. È sposata e lavora occasionalmente in progetti di ricerca con il marito Silvio Savarese, esperto di robotica, anche lui a Stanford.

he Cambrian explosion is a phenomenon that took place between

T540 million and approximately 530 million years ago at the beginning of the Cambrian period. This is the era in which Earth transitioned in a relatively short time (on a geological scale) from being populated by simple and unicellular organisms to hosting a variety of life forms, many of which make up today's animal world. In his 2003 book “In The Blink of An Eye”, zoologist Andrew Parker suggested that the Cambrian explosion was triggered by the sudden evolution of vision, which set off an evolutionary arms race where animals either evolved or died. Fei Fei Li is Professor of Computer Science at Stanford University and Co-Director of several research labs in artificial intelligence (A.I.) in the same institution. Above all, however, Fei Fei Li is one of the most important characters who has contributed to the development of computer vision, one of the pillars of artificial intelligence. By her own admission, Fei Fei Li’s interest in computer vision was developed after reading Andrew Parker’s book. During the TransformX, one of the most anticipated events in A.I., Fei Fei Li suggested that again today we could be in the initial phase of a new Cambrian revolution. Today’s vision, however, is computer vision, and it is spreading in many sectors and in everyday products, including leisure. And even in this case, those who do not adapt, run the risk of extinction. Today the topic of computer vision is mostly discussed in association with self-driving cars, and the microchips developed by Tesla are some one of the most advanced examples of computer vision

provvisa evoluzione della visione negli animali. Questo ha scatenato un rapido processo di evoluzione per adattarsi al nuovo ambiente e chi non si è adattato è scomparso. Fei Fei Li è professore di informatica alla Stanford University nonché condirettore di vari dipartimenti di ricerca sull’intelligenza artificiale presso la stessa istituzione. Soprattutto, però, Fei Fei Li è uno dei personaggi di maggior rilievo che ha contribuito allo sviluppo della computer vision, uno dei pilastri dell’intelligenza artificiale. Per sua stessa ammissione, a stimolare l’interesse di Fei Fei Li verso questo settore è stato proprio il libro di Andrew Parker. Durante TransformX, uno degli appuntamenti più attesi per chi si interessa di intelligenza artificale, Fei Fei ha suggerito che anche oggi potremmo essere nella fase iniziale di una nuova rivoluzione cambriana. La visione nei giorni nostri è però la computer vision, che si sta diffondendo in molti settori ed in prodotti di tutti i giorni, incluso il tempo libero. E anche in questo caso, chi non si adatta corre il rischio di estinzione. Oggi il tema della computer vision è per lo più discusso in associazione con le auto a guida autonoma, e i microchip sviluppati da Tesla sono uno degli esempi di computer vision più avanzata dato che elaborano milioni di informazioni al secondo. L'immagine 1 riporta alcune delle applicazioni attualmente oggetto di ricerca nel mondo accademico e nei

The applications of CV are limitless and involve for example, the retail, industrial, automotive, healthcare and banking sectors.

Le applicazioni della computer vision sono infinite. Riguardano per esempio i settori retail, industria, auto, sanità e bancario.

since they process millions of information per second. Figure 1 shows some of the applications currently being researched in academia and laboratories. Here are some details about the projects under development of interest to amusement parks.

Computer Vision and Robotics

Previously in these pages we have seen how during the pandemic the number of robots in service in hospitals or on the streets has increased. These robots are typically programmed with basic information about the distance to travel and the direction to take. Thanks to computer vision a robot can recognize its destination exactly, especially when it is a matter of reaching doors or entrances with specific numbers or colors. The most important challenge, however, is to teach them how to perform more complex functions, i.e. functions that also require a form of reasoning. Fei Fei Li and her team are working on this aspect by identifying complex functions as a goal but establishing intermediate steps to achieve the same goal. In particular, the team at Stanford University wants to teach robots about housework and office functions. It is not utopian to think that breakfast in the room in the near future will be served by one of these robots, without the obligation to tip!

Computer Vision and Museums

Visitors to the largest museums in London, Paris, Berlin, or Washington rarely have the time to see everything that the museums have to

laboratori di ricerca. Ecco a seguire alcuni dettagli sui progetti in fase di sviluppo che potrebbero interessare anche i parchi di divertimento.

Computer Vision e Robotica

Precedentemente in queste pagine abbiamo visto come durante la pandemia sia aumentato il numero di robot in servizio negli ospedali e nelle strade. Questi sono in genere programmati con informazioni di base sulla distanza da percorrere e la direzione da prendere. Con la visione artificiale un robot può riconoscere esattamente la sua destinazione, soprattutto nel caso in cui si tratti di raggiungere porte o ingressi con numeri o colori specifici. La sfida più importante però è insegnare ai robot come svolgere funzioni più complesse, ovvero funzioni che richiedano anche una forma di ragionamento. Fei Fei Li e il suo team stanno lavorando su questo aspetto identificando delle funzioni complesse come obiettivo, ma stabilendo delle fasi intermedie per raggiungere l’obiettivo stesso. In particolare, il team della Stanford University sta cercando di insegnare ai robot come svolgere lavori domestici e compiti d’ufficio. Non è utopistico pensare che in un futuro prossimo la colazione in camera sarà servita da uno di questi robot, senza l’obbligo della mancia!

Computer Vision e Musei

I visitatori dei grandi musei di città come Londra, Parigi, Berlino o Washington raramente hanno il tempo di vedere nell’arco di una giornata tutto ciò che i musei hanno da offrire. I visitatori tendono a fermarsi negli spazi con le opere più celebri, in punti pubblicizzati o seguono percorsi suggeriti dai curatori di una mostra. Passando da una sala all’altra,

offer. The visitors tend to stop at the highlighted vista points, follow different and more personalized viewpoints and are often attracted to artworks either by advertisements or by special details, passing through rooms and locations with progressively fading energy and interest. Visitors therefore often have only a superficial experience of the content instead of a cultural enrichment. With computer vision an exhibition can be transformed into an intelligent information space, where content and paths are suggested based on the interest detected by visitor behavior.

Computer Vision and State of Mind

Facial recognition is becoming standard everywhere and it is based on detecting the face with a camera and find a match with an existing database. Researchers are now working on solutions that can interpret the emotion of the individuals behind the facial expressions. The first step is to develop algorithms that allow to remove the obstacles to emotion detection, like facial hair, the presence of spectacles and diverse elements in the environment, like light and shadows. Then, special algorithms are being developed to classify the expressions of a face. For leisure parks this technology can be a true test of the efficacy of an attraction or the general experience of a visit.

Computer Vision and 3D Graphics

Even graphics professionals can take advantage of facial recognition as the same technology can be used to create 3D models. In previous issues of this magazine, we have seen how scanners and computer vision already allow you to easily create 3D models for digital twins and metaverse. However, some difficulties still exist to digitize living things. Human faces are relatively easy to digitize. 3D scanning of animals is more difficult, as animals are traditionally much less cooperative than humans. With computer vision applied to 3D modelling, every problem caused by animals’ behavior is eliminated.

Computer Vision and Sports

Those who follow Formula 1 races are already used to seeing data about the car displayed on the TV screen, together with the car speeding on the circuit. Even in soccer and American football we frequently see data on display collected by sensors worn by

FIG. 1

se i contenuti non sono affini al visitatore, energia e interesse calano progressivamente. I visitatori, quindi, hanno spesso solo un’esperienza superficiale dei contenuti invece che un arricchimento culturale. Con la computer vision una mostra può essere trasformata in uno spazio informativo intelligente, dove contenuti e percorsi sono suggeriti in base all’interesse rilevato dal comportamento dei visitatori.

Computer Vision e Umore

Le telecamere con riconoscimento facciale stanno diventando sempre più diffuse e la loro tecnologia si basa sul rilevamento del volto tramite una fotocamera e il confronto con le foto memorizzate in un database. I ricercatori stanno ora lavorando su soluzioni in grado di interpretare le emozioni dietro le stesse espressioni facciali. In genere, il primo passo è creare algoritmi che consentano di rimuovere gli ostacoli al riconoscimento facciale, come barba e baffi, occhiali ed elementi relativi all’ambiente, come luci ed ombre. Da qui poi vengono sviluppati altri algoritmi per classificare le espressioni di un volto. Per i parchi questa tecnologia potrebbe essere meglio di un sondaggio tradizionale per verificare l’efficacia di un’attrazione o il livello di soddisfazione degli ospiti.

Computer Vision e Grafica 3D

Anche i professionisti della grafica possono sfruttare il riconoscimento facciale dato che la stessa tecnologia può essere utilizzata per creare modelli 3D. Nei numeri precedenti di questa rivista, abbiamo visto come scanner e computer vision consentano già di creare facilmente modelli 3D per i digital twins e i metaverse. Qualche difficoltà però esiste ancora nel digitalizzare esseri viventi. I volti umani sono relativamente facili da digitalizzare. Più difficile invece è la scansione in 3D degli animali dato che tradizionalmente gli animali sono molto meno cooperativi degli esseri umani. Con la computer vision applicata ai modelli in 3D, ogni problema di comportamento da parte degli animali è eliminato.

Computer Vision e Sport

Chi segue le gare di Formula 1 è già abituato a vedere dei dati relativi alle auto in gara visualizzati sullo schermo insieme ai bolidi che sfrecciano nel circuito. Anche nel calcio e nel football americano vediamo frequentemente dati raccolti da sensori indossati dagli atleti ed azioni riprese da diverse angolazioni o dall’alto. Tuttavia, i sistemi esistenti hanno ancora qualche limitazione nei dettagli che possono offrire. Anche questo è destinato a cambiare con la computer vision. Una delle applicazioni più interessanti è nel tennis. Gli scienziati hanno creato un algoritmo all’avanguardia nella computer vision che attraverso fotogrammi di una pallina da tennis ed il movimento del tennista, può anticipare le fasi del gioco e simulare virtualmente i movimenti di un giocatore in tempo reale e con un’accuratezza del 70%.

Computer Vision e Immagine di Sé

È solo una questione di tempo prima che sia possibile mettersi di fronte ad uno specchio ed avere non solo la propria immagine riflessa, ma anche una serie di informazioni su misura per noi. La computer vision abbinata ad uno specchio riconosce la persona, fornisce le notizie più rilevanti e magari anche dati sull’aspetto. Collegando un supporto vocale come Alexa di Amazon, si può poi richiedere allo specchio di presentare qualsiasi contenuto d’interesse. Questo specchio

athletes and we see actions taken from different angles or from above. However, existing systems still have some limitations in the details they can offer. This is also destined to change with computer vision. One of the most interesting applications is in tennis. Scientists have created a state-of-the-art computer vision algorithm that detect the position of a ball and the movements of the player and then anticipate the actions and simulate a player’s game in real-time and with a 70% accuracy.

Computer Vision and Self Image

It is only a matter of time before it is possible to stand in front of a mirror and have not only the reflected image, but also a series of information tailored to us. Computer vision combined with a mirror recognizes the person, provides the most relevant news and maybe even data on appearance. By connecting a voice support such as Amazon’s Alexa, you can ask the mirror to present any content of interest. A smart mirror is a 2-way mirror with a display behind it, that recognizes faces and matches information to the profile of the person in the mirror. The system can be easily set up with a small computer like a Raspberry Pi but it can also be developed at a different scale, depending on the objective.

Computer Vision and Camera Traps

Camera traps are increasingly being used by scientists, and also consumers, as a cheap way to obtain large amounts of images of animals in a free state. They are also becoming popular with managers and consumers to check out properties, nightlife, and events in places where the Internet is not available. The problem is that these traps are often triggered by irrelevant motion and generate a large number of unnecessary pictures. The second problem is that even the number of relevant pictures is escalating, and it is becoming hard, and too costly, to find staff that can label these images manually for training purposes. New computer vision trap cam models will allow to shoot animals and automatically generate labels for identification. This allows scientists to obtain ecological and biological information in times and dimensions unthinkable until recently. The challenge, and the opportunities, are now to convert these skills into a form of entertainment.

Computer Vision and Sign Language

People who can’t hear or speak communicate with sign language, but the communication is limited to those that know the language. Computer vision and A.I are showing promising progress in the field. Some of the

intelligente è uno specchio bidirezionale con un display sul retro in grado di riconoscere i volti e associare le informazioni d’interesse in base al profilo. Il sistema può essere facilmente preparato per uso domestico con piccoli computer come il Raspberry Pi, ma può anche essere progettato in scala a seconda degli obiettivi.

Computer Vision e Trappole Fotografiche

Le telecamere trap o fototrappole vengono sempre più utilizzate da scienziati, e anche da appassionati di natura, come un modo economico per ottenere grandi quantità di immagini di animali allo stato libero. Stanno anche diventando popolari tra i manager e comuni cittadini per controllare proprietà, vita notturna ed eventi in luoghi in cui Internet non è disponibile. Il problema è che queste telecamere sono spesso innescate da movimenti minimi e generano un gran numero di immagini non necessarie. Il secondo problema è che anche il numero di immagini rilevanti sta aumentando, e diventa quindi difficile, e costoso, trovare personale in grado di etichettare queste immagini, ovvero assegnare delle etichette al fine di creare dei set da elaborare con l’intelligenza artificiale. I nuovi modelli di trap cam con computer vision consentono di riprendere animali e generare automaticamente le etichette per l’identificazione. Ciò consente agli scienziati di ottenere informazioni ecologiche e biologiche in tempi e dimensioni impensabili fino a poco tempo fa. La sfida, e le opportunità, sono ora di convertire queste capacità in una forma di intrattenimento.

Computer Vision e Lingua dei Segni

I sordomuti nella maggior parte dei casi comunicano con la lingua dei segni, ma la comunicazione è limitata a coloro che conoscono questa lingua. La computer vision e l’intelligenza artificiale stanno facendo progressi anche in questo campo. Alcuni dei modelli in fase di sviluppo utilizzano uno smartphone per filmare i gesti delle mani. Ogni frame viene quindi isolato, aumentato e modificato per creare un set di dati. Questo viene poi usato per addestrare la rete neurale attraverso il confronto con il set di immagini dell’American Sign Language.

models under development use a smartphone to film hand gestures. Each frame is then isolated, augmented, and modified to create a dataset. This is then used to train the neural network through comparison with the American Sign Language set of images.

Computer Vision and Surveillance

Surveillance is a priority in the theme park, and intelligent video surveillance can already track people or can alert if an object appears or disappears from a scene, for example. Facial recognition is also linked to the sector, but there are other emerging applications, especially when computer vision is applied to drones. Among the projects in this field one is using computer vision to detect fire and send an alert to the nearest fire station. The message can also include a video, so that at the fire station they can determine the resources to allocate to the fire. In case of fires in residentials areas videos from indoor cameras or drones, can indicate if there are people trapped inside.

During her presentation at TransformX, Fei Fei Li concluded that looking at this world in a passive way won’t allow us to fully understand how to interact with the objects around us. Philosopher from Plato to Peter Godfrey Smith have stated that fundamental function of the nervous system is to link perception with action. Setting up a camera gives us vision, but teaching the cameras which action to take is the real challenge.

Computer Vision e Sorveglianza

La sorveglianza è una priorità nei parchi a tema e la tecnologia attuale permette già di rintracciare le persone o avvisare se, per esempio, un oggetto appare o scompare da una scena. Al settore è collegato il riconoscimento facciale, ma vi sono altre applicazioni emergenti, soprattutto quando la computer vision è applicata ai droni. Tra i progetti in fase di sviluppo vi è l’utilizzo della computer vision per rilevare incendi e inviare immediatamente un avviso alla più vicina stazione dei pompieri. Il messaggio di emergenza può contenere anche un video al fine di permettere di valutare le risorse necessarie da mettere in campo per lo spegnimento. In caso di incendi presso abitazioni, video ripresi da telecamere interne o droni possono anche rilevare se vi sono persone intrappolate.

Durante la sua presentazione a TransformX, Fei Fei Li ci ha ricordato che guardare il mondo in modo passivo non ci consente di capire appieno come interagire con gli oggetti che ci circondano. Da Platone a Peter Godfrey Smith i filosofi hanno affermato che la funzione fondamentale del sistema nervoso è quella di collegare la percezione con l’azione. L’installazione di una telecamera ci dà una visione, ma insegnare alle telecamere quale azione intraprendere è la vera sfida.

This article is from: