13 minute read
de la imagen en la era de la visión por ordenador
José Luis de Vicente
Septiembre de 2021
Escribo estas notas como prolongación de una conversación a cuatro voces que tuvo lugar el 24 de marzo de 2021, como parte del ciclo de actividades “Videografías: la cultura entre las cámaras” organizado por el Real Academia de España en Roma y el Instituto de Filosofía del CSIC. Al igual que la inmensa mayoría de conferencias, mesas redondas y presentaciones que han tenido lugar entre marzo de 2020 y el momento que escribo este texto, la charla no tuvo lugar de manera presencial en un salón de actos o en un aula, sino desde nuestros respectivos domicilios en dos continentes distintos, en el espacio distribuido e inmaterial de una sala de Zoom. Como todos sabemos, la pandemia del COVID nos encerró en nuestras casas, imposibilitó los viajes y dificultó en extremo la coexistencia de cuerpos extraños en la misma habitación. Pero además nos acostumbró a pasar los días constantemente mirando a una cámara, situada en el centro de la parte superior de la pantalla de nuestros portátiles, de tamaño menor al de una moneda de un céntimo.
En estos meses me he acabado acostumbrando al ejercicio forzado de fijar mi mirada en la luz de la cámara, en vez de buscar los ojos de mis interlocutores en la pantalla. Es un peaje incómodo que pagar para convencer a tus acompañantes de que estás mirándoles directamente, estableciendo un falso contacto visual que te hace parecer más atento. A pesar de ser incómodo, es preferible a la alternativa, ese gesto apesadumbrado que adoptas al agachar la cabeza cuando buscas las caras al otro lado del monitor. Aún en el primer trimestre de la pandemia, el escritor y analista cultural Jorge Carrión ya pronosticaba que cuando recopilemos las imágenes más representativas de este momento histórico, una de las primeras que se nos vendrán a la mente sea el de la rejilla rectangular de rostros en los interfaces de Zoom, Microsoft Teams y otras plataformas de videoconferencia1.
A lo largo de sus más de quince años de historia, la tecnología de la videollamada había relegado en realidad a la dimensión visual a un papel secundario. Al fin y al cabo, la voz es el canal transmisor de información hegemónico, y la transmisión de imágenes en movimiento requería de un ancho de banda y resolución que hasta no hace tanto tiempo eran un recurso precioso. Pero la necesidad de vernos y reconocernos desde la soledad de nuestros confinamientos, en un momento en que la proximidad física y la cercanía estaban proscritas, acabó por otorgar a lo visual de una centralidad en los sistemas de Voz sobre IP de las que anteriormente carecía.
Junto a la cámara del ordenador personal, lo habitual es que la mayoría de nosotros nunca nos encontremos demasiado lejos de al menos otras dos lentes; la delantera y la trasera de cada smartphone, a menudo aún más pequeñas que la del portátil. La cámara trasera tiene la función de transformar el teléfono inteligente a todos los efectos en una cámara fotográfica y de video, y de hecho en el mercado de la electrónica de consumo las ha reemplazado casi por completo. El Smartphone se ha convertido en el dispositivo de representación más común de nuestro tiempo. La que está situada sobre la pantalla, mirándonos directamente, es más reciente. Los iPhone, por ejemplo, no la incorporaron hasta su cuarta generación, en 2010. La cámara frontal en muchas funciones es análoga a la del portátil, y es la que se emplea en las videollamadas. Pero sí identificamos a la cámara frontal en el teléfono por algo concreto y específico en realidad es por su capacidad para transformarlo en un espejo, y en un dispositivo de autorrepresentación. La máquina de selfies es por encima de todo un arma para construir un sentido de identidad propia en los servicios que constituyen la experiencia de Internet para la mayoría de sus usuarios. Si las cámaras se han multiplicado en nuestra esfera doméstica es porque se han multiplicado en todas partes. Cada vez son más pequeñas, más económicas, y es posible transplantarlas a cada vez más clases de dispositivos, como si fuesen apéndices visuales. Pero es muy dudoso que la mayoría de lentes que miran al mundo capturándolo de múltiples maneras sean en su sentido más estricto, cámaras. O más bien, que si las entendemos simplemente como prolongaciones históricas de la cámara fotográfica, la cámara cinematográfica o la cámara de video, como meras herederas de su función y forma de uso, tendremos solo una comprensión parcial de su naturaleza.
En esto, las cámaras no están solas. En los últimos años, el mundo se ha llenado de productos y dispositivos que aunque preservan la apariencia y la función de objetos familiares, son fundamentalmente distintos en sus capacidades, en su manera de operar y en la clase de relación que establecen con sus usuarios.
Pensemos, por ejemplo, en las redes de bicicletas públicas que en la última década se han instalado en la mayoría de grandes capitales europeas. Estas redes permiten a los ciudadanos alquilar durante un periodo breve de tiempo los vehículos anclados en múltiples estaciones distribuidas por toda la ciudad, siempre que tengan una tarjeta de usuario que les identifica y se asegura de que el sistema cargue sobre su cuenta bancaria el importe del trayecto en el momento de devolverlas. Como vehículos, las bicicletas de las redes de bicicletas públicas no son en esencia diferente de las tradicionales. Pero la infraestructura de gestión de la información y de producción de datos necesaria para que operen de manera eficaz, las convierte en algo radicalmente distinto. Cuando un usuario retira una bicicleta de una estación, comienza un proceso que deja una huella permanente en una base de datos. El sistema tendrá que registrar que en una fecha y una hora concreta, en la estación con un número concreto situada en una calle determinada, un usuario determinado con un número de identificación único retiró un vehículo. Cuando unos minutos después lo devuelva en otra estación situada en otro punto de la ciudad, cerrará el trayecto que ha realizado de manera expresa, dejando en la base de datos el itinerario del viaje completo.
Si hubiese realizado ese recorrido en su propia bicicleta, toda evidencia del trayecto se hubiera disipado por completo en el mismo momento de completarlo. Pero en la memoria del sistema de información que gestiona las bicicletas de la red pública, ese trayecto permanecerá registrado, asociado a la persona que lo realizó, junto a decenas de miles de otros trayectos diarios. Es por esto que es posible saber, por ejemplo, que a las 20:46 del 24 de enero de 2020, dos meses antes de que el mundo se parase por completo, tomé la bicicleta con identificador 7770 en la calle Joan de Austria número 31 de Barcelona, para devolverla doce minutos más tarde en la estación situada en la esquina de Via Laietana con Paseo de Colón.
En otro ejemplo quizás más cercano al de la cámara, pensemos en un lector de libros electrónicos Amazon Kindle, el producto de más éxito dentro de la categoría del eBook. Cuando sostenemos en nuestras manos los 182 gramos de policarbonato, dióxido de titanio, polímero de litio y otro materiales que constituyen esta simulación de libro de papel impreso, entendemos que el acto de leer los caracteres que aparecen en la pantalla no difiere en lo fundamental del acto de leer el mismo texto sobre una hoja de papel vegetal marcada con tinta. Pero al igual que en el caso de la redes de bicicletas, el Kindle es un apéndice de una inmensa infraestructura de computación, consciente de en qué momento el lector ha iniciado la lectura de un libro concreto. De cuántas páginas ha completado, si consiguió llegar al final o lo acabó abandonando antes. De cada pasaje subrayado. Al igual que las bicicletas de las redes públicas de bicicletas europeas y los textos de los lectores de libros electrónicos, la mayoría de cámaras que operan en el mundo en 2021 -ya sea desde un smartphone, un portátil, un sistema de videovigilancia o un drone- no lo hacen de manera independiente: son también apéndices de grandes infraestructuras de computación. La cámara es sencillamente el último tentáculo o la pupila de unas arquitecturas de control y de instrumentación del mundo cada vez más presentes.
En una de sus citas más repetidas, el académico británico Stafford Beer, una de las figuras fundacionales del campo de la cibernética, afirmaba que “el propósito de un sistema es lo que el sistema hace”2. Es decir, que la mejor manera de leer el impacto de una tecnología determinada sobe el mundo es a través de sus efectos, más que de las intenciones declaradas de sus diseñadores o de sus usuarios. Desde esta perspectiva, la mayoría de las cámaras que operan en el mundo lo hacen con un impacto y objetivo radicalmente distinto al de la cámara de fotografía y de video. Existe una profunda discontinuidad histórica con la cámara como productor de representación.
El fotógrafo, artista visual e investigador Trevor Paglen ha explorado desde múltiples ángulos el nuevo status de la cámara en el siglo XXI. En sus palabras,
A lo largo de la última década, ha sucedido algo dramático. La cultura visual ha cambiado de forma. Se ha desvinculado de la mirada humana y se ha vuelto en su inmensa mayoría invisible. La cultura visual humana se ha vuelto una categoría especial de visión, una excepción a la regla. La abrumadora mayoría de imágenes que se producen las realizan máquinas y están destinadas a máquinas, con intervención humana en muy pocos casos. (...). Nuestros entornos urbanos están repletos de ejemplos de arquitecturas de visión de máquina a máquina: lectores automáticos de matrículas, instalados en coches de policía, edificios, puentes, autopistas y flotas de vehículos rodados toman fotos de cada coche que entra en su campo de visión (...).
En el ámbito del consumo, compañías como Euclid Analytics y Real Eyes, entre muchas otras, instalan cámaras en centros comerciales y grandes almacenes para rastrear el movimiento de sus visitantes en estos espacios con software diseñado para identificar en qué dirección están mirando y durante cuánto tiempo, y a rastrear las expresiones faciales para discernir el estado emocional de los humanos a los que observan. (...) En el sector industrial, compañía como Microscan suministran sistemas de registros visuales diseñados para detectar defectos de fab- ricación, y supervisar el empaquetado, transporte y logística en industrias como la farmacéutica, la electrónica, o automovilística. Todos estos sistemas son posibles solamente porque las imágenes digitales pueden ser leídas por máquinas, y no requieren de la intervención de un humano3
En “The Robot Readable World”4, una pieza de video elaborada en 2012 por el realizador y diseñador británico Timo Arnall, podemos situarnos en el lugar de la mirada de la máquina que produce imágenes para el consumo y toma de decisiones de otras máquinas. Esta recopilación de found footage de demostraciones de aplicaciones industriales nos adentra en la estética de la visión por ordenador, el conjunto de tecnologías que transforma a la cámara en herramienta de identificación, seguimiento y control. Las imágenes se utilizan en control de trafico, análisis de movimiento en el espacio púbico, o seguimiento de productos en una cadena de producción industrial. Hoy en día son múltiples las comunidades de artistas que trabajan en colaboración con académicos, científicos y activistas para rastrear y visibilizar los perfiles de estas arquitecturas de poder emergentes, que habitualmente se han hecho invisibles de manera deliberada. En “Drone Vision”, una pieza de video monocanal de 2010, Trevor Paglen nos señala una vez más el espacio en el que aparecen la mayoría de innovaciones tecnológicas en el terreno de la imagen: el militar. La obra presenta una transmisión de video que ha sido interceptada por hackers, procedente de la cámara instalada en un vehículo aéreo militar no tripulado. Este flujo de imágenes es el hilo que conecta a un operador situado en una base militar en Estados Unidos con el drone que en el otro lado del mundo sobrevuela una zona en conflicto. A través de la información que la cámara capta se toman decisiones literalmente de vida o muerte. En esta infraestructura compuesta por vehículos aéreos no tripulados, lentes de cámara, ondas de radio transmitidas por satélite, sistemas de identificación de movimiento o de reconocimiento facial, el operador humano es sólo uno de los múltiples actores participes en el proceso de identificación, evaluación y ejecución de órdenes. Quizás el primer artista en identificar y mapear el nuevo régimen visual emergente a partir del siglo XXI es el fundamental realizador alemán Harun Farocki. Farocki llama “imágenes operacionales” a la clase de imágenes que emergen como sustituto del ojo humano, como parte del nuevo orden tecnológico de la era de la visión por orde-
3 Trevor Paglen, "Invisible Images (Your Pictures Are Looking at You)". The New Inquiry, 8 de diciembre de 2016. Accesible en https://thenewinquiry.com/invisible-images-yourpictures-are-looking-at-you/
4 https://www.elasticspace.com/2012/02/robot-readable-world nador. Para Farocki, las imágenes ya no se limitan a representar cosas en el mundo, y comienzan a “hacer” cosas en el mundo, a cambiar las relaciones que se dan dentro de este. En su serie de tres piezas “Eye / Machine” (2001-2003)”5 Farocki traza la evolución desde la Guerra del Golfo en adelante de la cámara como extensión de la bomba inteligente, componente de la arquitectura de destrucción que no comienza con la detonación del explosivo, sino con el sistema de identificación visual que etiqueta, persigue y apunta a su blanco. En otras piezas, Farocki cataloga y relata la extensión de las imágenes operacionales en toda clase de ámbitos, desde las prisiones (Prison Images6, 2000) al fútbol profesional (Deep Play7, 2007).
Si en la era de las imágenes operacionales las máquinas miran para tomar decisiones, el objeto observado por excelencia es el rostro humano. Si el retrato atraviesa la historia completa de la representación visual, el correlato del retrato en la era de la visión por ordenador son las aplicaciones de reconocimiento facial. El objetivo de estas aplicaciones es permitir al sistema entender que está contemplando un rostro, y a partir de aquí extraer distintas clases de datos: su edad, su género, su raza, o si la persona observada es un individuo concreto. Se han infiltrado en múltiples ámbitos de la cotidianidad, desde las cámaras de videovigilancia en el espacio público hasta la aplicación que organiza nuestras fotos en el móvil.
¿Cómo mira un sistema de reconocimiento facial?¿ Cómo dibuja los contornos y límites de su forma de percibir el mundo? Esta ha sido una preocupación constante de los nuevos exploradores de la cultura visual durante la última década. En “Face Cages”, (2012-2014)8, el artista norteamericano Zach Blas ha producido una serie de máscaras que reducen el rostro de varios modelos a una abstracción geométrica: los rasgos fundamentales que el algoritmo busca para reconocer que, efectivamente, aquello que está contemplando es un rostro. En un gesto de resistencia inversa, Adam Harvey desarrolla en “CV Dazzle”9 un conjunto de estilos de maquillaje y peluquería que “desactivan” los sistemas de reconocimiento facial, trazando líneas en el rostro que lo vuelven irreconocible para las cámaras que buscan caras que clasificar.
La lógica devoradora de la era del Big Data y el Machine Learning ha hecho de las colecciones de rostros etiquetados y clasificados un activo valioso para las organizaciones que desarrollan y despliegan tecnologías de reconocimiento facial. Al final, como si se
5 https://www.harunfarocki.de/installations/2000s/2003/eye-machine-iii.html
6 https://www.harunfarocki.de/films/2000s/2000/prison-images.html
7 https://www.harunfarocki.de/installations/2000s/2007/deep-play.html
8 https://zachblas.info/works/face-cages/
9 https://cvdazzle.com tratase de un archivo policial, la manera en que el sistema es capaz de clasificar una cara dentro de distintos parámetros es comparándola con miles de otros rostros previamente clasificados. En su libro Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence10 la investigadora experta en Inteligencia Artificial Kate Crawford recorre la larga y compleja historia de las colecciones de imágenes de rostros utilizadas como instrumentos de poder a través del análisis fisonómico o el llamado sentiment analyisis, disciplinas que quieren adscribir cualidades emocionales a rasgos faciales. En su colaboración con Trevor Paglen, “Training Humans”, una exposición para la Fundazione Prada de Milán11, Crawford disecciona la complicada historia de Imagenet, una colección de imágenes faciales utilizada para entrenar sistemas de inteligencia artificial con múltiples aplicaciones. Las imágenes contenidas en Imagenet han sido clasificadas y etiquetadas por trabajadores precarios a través de webs de microtareas, como el servicio de Amazon Mechanical Turk. Para Crawford y Paglen, en estas clasificaciones de imágenes de rostros que proyectan juicios morales sobre expresiones y fisionomías, reside el peligro de crear arquitecturas de la discriminación, sistemas automatizados de sesgos presentes en miles de aplicaciones, cuyos efectos pueden afectar a las vidas y derechos de la ciudadanía de manera grave.
La pregunta final por supuesto es si la era de las imágenes operacionales, además de reforzar las formas de poder ya existentes, de proyectar nuevas forma de control sobre el cuerpo social, abre algunas posibilidades nuevas para la emancipación y la justicia. Mi respuesta personal me lleva a pensar en organizaciones que, significativamente, han decidido situarse en el espacio entre el arte, la investigación, el desarrollo tecnológico y el activismo de derechos humanos. El ejemplo por excelencia sería el trabajo de Forensic Architecture12 . Adscritos a la Universidad de Goldsmiths bajo la dirección del reconocido arquitecto y activista Eyal Weizman, Forensic Architecture investiga violaciones de derechos humanos en zonas de conflicto a partir de la reconstrucción digital de la escena en la que sucedieron los hechos, y presenta estas reconstrucciones como pruebas en cortes internacionales, como piezas de periodismo de investigación en medios como The Guardian o The New York Times, o dentro de exposiciones en centros de arte contemporáneo. La multiplicidad de cámaras presentes en cualquier entorno contemporáneo, desde la videovigilancia a las grabaciones realizadas con Smartphones por los testigos de los hechos,
10 Kate Crawford. Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. Yale University Press, 2021.
11 https://www.fondazioneprada.org/project/training-humans/?lang=en
12 https://forensic-architecture.org ofrecen a Weizman y sus equipos de forenses digitales múltiples puntos de vista de una misma situación, como el ataque de un drone o el bombardeo de una ciudad. Con meticuloso cuidado, las grabaciones de todas estas distintas cámaras -en muchos casos procedentes de redes sociales- se enhebran y se superponen sobre un modelo tridimensional de la escena y una secuencia temporal del suceso. Esta reconstrucción forense del evento puede servir para establecer una versión de los hechos que contradiga las narrativas oficiales y ofrezcan, a través de la memoria digital distribuida en dispositivos, memorias y data centers, la posibilidad de un contrarelato. Quizás la noción emergente de la hipercámara, una cámara posible constituida por múltiples cámaras distintas, distribuidas a través de incontables ciudadanos y de distintos puntos en el tiempo y en el espacio, tiene un potencial transformador que se está comenzando a revelar.