Cuando la pandemia global golpeó y todo el mundo recurrió a videollamadas para el trabajo, la escuela y la hora feliz, Jeremy Bailenson pensó que estaba preparado.
Después de todo, la videoconferencia había existido durante años, y el profesor de la Universidad de Stanford había pasado dos décadas estudiando y escribiendo sobre comunicación digital y comportamiento. Pero las videollamadas siempre habían sido más una opción que la regla, y Bailenson, junto con el resto del mundo, rápidamente se vio sorprendido por el impacto de un cambio completo a la comunicación remota.
«Después de una semana de refugio en el lugar, me quedé desconcertado por lo intenso y agotador que fue», dice Bailenson, que vive en California, el primer estado de Estados Unidos que requería que los residentes se quedaran en casa para reducir la propagación del virus COVID-19. «La mayoría de los estudios de videoconferencia son sobre cómo mejorar la productividad y la colaboración, pero no se ha estudiado la noción de que se está agotando».
Mientras Bailenson comenzaba a releer «todo lo que había que leer sobre la videoconferencia», su amigo de Microsoft, Jaron Lanier, estaba reflexionando sobre un ángulo diferente al problema. Un presentador de talk-show nocturno en Nueva York cuya banda Lanier ocasionalmente tocaba estaba luchando para realizar su monólogo a una cámara en su sala de estar, sin una audiencia en vivo para reaccionar a sus chistes. Lanier lanzó una red en el mar de investigadores, psicólogos y programadores de Microsoft, y en cuestión de semanas había reunido lo que él llama una nueva característica «mágica» para ayudar al presentador de televisión y a sus espectadores a sentirse conectados. Su idea evolucionó en una característica de los equipos, el modo Juntos, que potencialmente podría reducir la fatiga de las videollamadas para todos.
Jeremy Bailenson, profesor de la Universidad de Stanford, pasó dos décadas investigando la comunicación digital y el comportamiento, pero todavía se sorprendió por lo fatigoso que era cambiar completamente al trabajo remoto y videollamadas cuando la pandemia global golpeó este año. (Fotografía proporcionada por Bailenson.)
«Fue una coincidencia fortuita de necesidades» que llevó a un salto dramático en la mejora de las reuniones remotas, dice Lanier, un informático, músico, artista y autor que acuñó el término «realidad virtual» y es considerado un pionero en el campo.
El modo Juntos, que ahora se implementa en Microsoft Teams, combina décadas de investigación y desarrollo de productos para colocar a todos los participantes en una videollamada en un espacio virtual, como un auditorio, una sala de reuniones o una cafetería, para que parezcan estar juntos en el mismo lugar. La nueva característica abandona la cuadrícula tradicional de cajas, creando un entorno que los usuarios dicen que tiene un profundo impacto en la sensación de la videoconferencia y proporciona más cohesión al grupo.
El modo Juntos está diseñado para dar a la gente la impresión de que todo el mundo está mirando a todo el grupo en un gran espejo virtual, que Lanier dice que fue la solución única pero simple que cambia toda la experiencia. Los cerebros de las personas están acostumbrados a ser conscientes de los demás en función de sus ubicaciones, y el efecto espejo hace que sea más difícil para el cerebro notar irregularidades en el contacto visual. Esas son algunas de las cualidades que hacen que sea más fácil para todos decir cómo están respondiendo el uno al otro.
«Somos criaturas sociales, y los sistemas de conciencia social y espacial en el cerebro finalmente pueden funcionar de forma más natural» dentro del modo Juntos, dice Lanier.
Los científicos comenzaron a estudiar los problemas con el contacto visual – o la desalineación de la mirada – en serio en la década de 1960, y Lanier ha estado trabajando para mejorar ese elemento de la videoconferencia desde los días analógicos de la década de 1970. Sin embargo, si bien la tecnología se ha vuelto más robusta y estable a lo largo de las décadas, no se habían producido mejoras reales en la experiencia humana que fueran viables para un uso generalizado. El modo Juntos utiliza la computación en la nube en lugar de las cámaras y pantallas especializadas que solían ser necesarias para mejorar las videollamadas.
Para entender la fatiga de las videollamadas, Bailenson, el director fundador del Laboratorio Virtual de Interacción Humana de Stanford, peinó a través de décadas de estudios sobre comunicación y encontró algunas causas clave.
Por ejemplo, dice, si la cara de alguien se cierne en tu esfera visual en la vida real, generalmente significa que estás a punto de luchar o aparearse. Así que estás alerta e hiperconsciente – reacciones que son automáticas y subconscientes – y tu frecuencia cardíaca aumenta. Y en las videollamadas, a menudo hay una cuadrícula con las caras de varias personas llenando las cajas. Es mucho para el sistema nervioso de tu cuerpo manejar, dice.
Además, las personas están constantemente interpretando los movimientos oculares, la postura, cómo sus cabezas están inclinadas y más, y atribuyen significado a esas señales no verbales. Los investigadores de la década de 1960 vieron cintas de vídeo de grupos fotograma a fotograma, dice Bailenson, y descubrieron un baile complejo e intrincado: Una persona giraba la cabeza y la otra se inclinaba un poco hacia atrás, por ejemplo.
Cuando el ingeniero de software de Microsoft Henrik Turbell se enteró del desafío de Jaron Lanier, se inspiró en un prototipo «sólo por diversión» que desarrolló hace tres años, cuando puso varias versiones de su hija de seis años en una transmisión de vídeo de un solo fondo. (Vídeo proporcionado por Turbell.)
Pero en una videollamada, esos movimientos no son diagnósticos, dice, lo que significa que no son información precisa sobre lo que está pasando. Una persona puede mirar a otra para obtener una respuesta, pero como todos están organizados de manera diferente en la pantalla de cada participante en una vista de cuadrícula, no está claro para nadie más a quien realmente están mirando.
«Es un Catch-22 donde te están asfixiando con datos no verbales, pero ninguno de esos datos es diagnóstico», dice Bailenson. «El modo Juntos vuelve a poner la verdad en el gesto. Cuando los movimientos de la cabeza tienen un significado real, alineados con la intención de la gente, las cosas se vuelven menos confusas, y eso reduce la fatiga porque ya no estás desconcertado por lo que está pasando».
Mary Czerwinski, una psicóloga cognitiva de Microsoft, dice que las señales sociales no verbales son tan automáticas que los miembros del público pueden incluso sincronizar su respiración con la del orador.
«Hay todo tipo de señales sutiles (guinillas de cabeza, señales faciales, lenguaje corporal) que usamos para demostrar que tenemos un problema, o queremos hablar, o estamos de acuerdo o no estamos de acuerdo», dice Czerwinski.
Usando el modo Juntos, dice: «He visto a la gente inclinarse y tocarse entre sí. He visto gente en contacto visual que no estaban sentados cerca el uno del otro. Así que la gente ahora puede practicar algunas de las señales sociales que harían en la vida real».
La vista de modo Juntos es la misma para todos en la reunión y no cambia, a diferencia de las vistas de cuadrícula que muestran los videos de los participantes en diferentes ubicaciones en la pantalla de cada persona y que mueven las casillas durante la llamada en función de quién está hablando. Dado que toda una zona del cerebro está dedicada a la memoria espacial, la consistencia del modo Juntos es una manera «enorme» de reducir la carga cognitiva de una videollamada, dice Czerwinski.
Kori Inkpen ha trabajado en cómo la tecnología puede apoyar la colaboración, proporcionando una sensación de estar juntos, desde principios de la década de 1990, cuando pasó un verano como estudiante de posgrado viendo a niños jugar videojuegos en un museo de ciencias. Ella investiga la colaboración AI-humano para Microsoft ahora, pero regresó a su primera pasión de la videoconferencia cuando Lanier pidió ayuda.
«Siempre estamos tratando de imaginar el futuro y trabajar en las cosas mucho antes de que la gente piense que podrían necesitarlas, y a menudo en el camino habrá una necesidad de ello en nuestros productos y podemos sacarlo de la estantería y decir: ‘Oye, lo hicimos hace cinco años, ¿es útil ahora?'» Inkpen dice. «Siempre hubo retroceso a lo largo de los años para hacer algo virtualmente, y nos criticó la gente que dijo: ‘¿Por qué querrías que tus hijos jugaran virtualmente?’ Pero la idea era que pudiéramos construir herramientas para que los niños pudieran jugar juntos de una manera natural incluso cuando no podían estar juntos. Nadie imaginó una pandemia que obligaría a todos a aislarse unos de otros».
Reunirse en persona es innegablemente más agradable que un entorno de video, dice Inkpen, pero el modo Juntos crea la percepción del espacio compartido para ofrecer «una sensación de unión que es realmente convincente». La nueva función le recuerda a Inkpen un estudio que hizo hace una década, donde los niños podían verse a sí mismos con amigos en video y le dijeron que sentían que todos estaban jugando juntos en la televisión. Les ayudó a comportarse de forma más natural, recuerda, porque sus cerebros no tenían que mapear dónde estaban las cosas o invertir las imágenes para mantener los juguetes en el lugar correcto para la cámara, por ejemplo.
«Cuando trabajas en tecnología colaborativa, es fácil pensar que si construimos una herramienta realmente genial, la gente trabajará juntas como una fábrica hipereficiente», dice Jeff Teper, el visionario detrás de Microsoft Teams, SharePoint y OneDrive. «Pero los seres humanos son seres sociales que se conectan emocionalmente usando el lenguaje corporal y las señales verbales para construir sentimientos de confianza, y parte de lo que hace que un equipo sea un propósito compartido y sentido de confianza. El modo juntos tiene sus raíces en la psicología humana y la sociología».
Blog de Noticias de Microsoft 365: Reimaginar la colaboración virtual para el futuro del trabajo y el aprendizaje
Blog del índice de tendencias de trabajo de Microsoft 365: el futuro del trabajo: el bueno, el mal y el desconocido
El impulso en los últimos años por parte de la Directora Ejecutiva de Microsoft, Satya Nadella, para fomentar la colaboración y la lluvia de ideas entre diferentes grupos fue clave para la nueva característica, dice Teper, permitiendo que el equipo de expertos con orígenes muy diferentes se desborde en respuesta a la urgencia de la nueva necesidad.
«Tenemos mucha tecnología cognitiva para la visión y el habla, y lo más difícil es cómo aprovecharla para resolver problemas humanos y aportar valor humano, más allá de ser genial», dice Lan Ye, quien lidera el grupo de llamadas, reuniones y dispositivos de los equipos. «Pero aquí tuvimos estos problemas de conexión humana creados con este nuevo modo de trabajo, así que lo vimos y fuimos 120 millas por hora en este para construirlo».
La nueva característica y la velocidad a la que se unieron son ejemplos de cómo la investigación puede dar dividendos en el camino.
Los ingenieros de software David Zhao, Henrik Turbell y Walid Boumerdassi construyeron un prototipo del modo Juntos en sólo un fin de semana, confiando en gran medida en el trabajo que habían hecho hace dos años para un proyecto de Microsoft Hackathon. Ese diseño se originó con el equipo de Inkpen y esencialmente eliminó a una persona de su entorno de video y la superpuso a otros. Boumerdassi, que es de Francia pero vive en Seattle, recuerda la diversión de llamar a su familia en su casa y ver a todos juntos en una sola pantalla, sin plazas, con la Torre Eiffel al fondo.
YouTube Video
Juntos el modo se basa en el trabajo que comenzó en el primer día de Turbell con Microsoft en Estocolmo hace siete años, cuando voló a Londres para reunirse con el equipo del investigador Jamie Shottonen el laboratorio de Microsoft en Cambridge, Reino Unido, sobre el futuro de la segmentación de vídeo. Ese es un método para dividir fragmentos de vídeo, como el primer plano y el fondo, que se pueden usar para crear una experiencia más compartida que poner a las personas en una cuadrícula.
En el modo Juntos, los participantes pueden encontrarse en espacios superpuestos e incluso «tocar» a las personas que los rodean. La ausencia de barreras crea una mayor conciencia social y un sentido de un viaje compartido.
Ese cambio único rápidamente se ganó a los desarrolladores de la nueva característica a medida que lo probaron desde casa.
La fatiga por video se había establecido rápidamente para Boumerdassi cuando comenzó a trabajar desde su apartamento en Seattle, en lugar de en la sede de Microsoft en la cercana Redmond, Washington. Empezó a tener reuniones de solo audio en su lugar, pero no le gustó la cantidad de comunicación limitada.
El ingeniero de software de Microsoft David Zhao alistó a su hija para que ayudara a probar un proyecto Hackathon 2018 que utilizaba la segmentación para separar a los participantes de su entorno en una videollamada y colocarlos juntos, en este caso, poniéndola en su oficina en casa con él. (Captura de pantalla proporcionada por Zhao.)
Cuando comenzó a probar el modo Juntos, sin embargo, notó un cambio inmediato en las conversaciones. Fluían más naturalmente. La gente no acaparaba el tiempo, porque empezaban a captar el lenguaje corporal y podían saber cuándo otros querían hablar. Boumerdassi descubrió que ya no se veía automáticamente en el video como lo hacía a menudo con la vista de la cuadrícula, preguntándose nerviosamente quién más podría estar mirándolo. En cambio, olvidó que estaba incluso en el video y se centró en cambio en las personas que lo rodeaban, lo que significaba que estaba menos distraído y recogió más en las reuniones.
«Como ingenieros, lo teníamos funcionando, pero no sabíamos cuál era el impacto», dice Boumerdassi. «Pero Jaron comprendió el potencial, fue el primero en decirlo con palabras, y su visión de esto convenció a todos a perseguir esto como una característica. Es bastante mágico, y es por eso que todos estamos entusiasmados con ello».
Zhao, que comenzó su carrera en 2007 como el segundo desarrollador de vídeo de Skype y construyó la función de llamada de grupo para la compañía, llamado el modo Juntos experimentar un «avance» para la videoconferencia.
«Esto es realmente sólo el comienzo», coincide Ye. «Tenemos muchas ideas que queremos construir sobre este andamiaje que nos permitirá cambiar realmente cómo son las reuniones de hoy».
El modo Juntos no es para todas las situaciones. Es tan natural y crea una presencia tan compartida que si la gente está haciendo múltiples tareas y mirando hacia abajo en sus escritorios, otros podrían pensar que están mirando a la persona debajo de ellos, bromea Bailenson.
Pero llevar la conciencia social a las reuniones remotas de la manera en que lo hace el modo Juntos «tendrá un efecto dramático en términos de creciente cohesión social, respeto y confianza», dice Czerwinski. «Cuanto mejor hagamos esto, más nos entenderemos y apreciaremos el uno al otro.
«Así que esto es algo enorme para la sociedad. Y quién sabe cuánto tiempo estaremos en esta situación de pandemia».
Imagen superior: El modo Juntos, que se muestra aquí con un fondo de auditorio, se basó en el trabajo de un equipo de expertos de Microsoft con orígenes muy diferentes, incluyendo (de izquierda a derecha, de arriba a abajo) Kori Inkpen, Henrik Turbell, Walid Boumerdassi, Jeff Teper, Mary Czerwinski, David Zhao, Jaron Lanier, Lan Ye. Ilustración fotográfica por Microsoft.