Quasi 3.000 ascoltatori su un'app che non portava il nostro nome

Lo speaker internazionale sale sul palco di una convention bancaria italiana, davanti a oltre tremila persone. Il keynote è in inglese. Nel giro di pochi minuti, quasi tutta la platea apre l'app dell'evento, seleziona "italiano" e inizia ad ascoltare l'interprete in cuffia.

Il picco arriva a 2.970 ascoltatori concorrenti sul canale italiano. Non sull'app Converso, non su un secondo ambiente, non su un link separato: dentro l'app mobile del partner tecnologico, con un'integrazione white-label basata su componenti embeddabili.

Per l'utente finale, tutto sembra parte nativa dell'app dell'evento. Nessuna seconda app da aprire, nessun passaggio in più, nessun cambio di esperienza. Per il partner, l'integrazione resta semplice: UI incorporata, streaming, sottotitoli, reconnect, gestione del carico e monitoraggio real-time gestiti da Converso.

La Sfida

Lo scenario era da stress test. L'intera platea apre simultaneamente la traduzione, dentro un'app di terzi, in diretta, in un evento finanziario ad alta visibilità. Zero controllo diretto sull'esperienza nativa dell'app del partner, sui dispositivi degli utenti, sulle condizioni reali della rete mobile in sala. Zero tolleranza per delay, crash, anomalie o downgrade di qualità. E zero brand Converso davanti ai partecipanti: il gruppo bancario aveva commissionato l'evento al partner tecnologico, e l'esperienza utente doveva restare interamente la loro.

Converso propone normalmente la propria WebApp, già pronta e ottimizzata per eventi multilingue. In questo caso, però, l'evento aveva già una propria app ufficiale sviluppata dal partner tecnologico. Aggiungere un secondo touchpoint avrebbe creato attrito: un'altra app da aprire, un altro link da comunicare, un altro punto di possibile confusione per il pubblico.

La scelta migliore era portare la qualità Converso dentro l'esperienza che i partecipanti stavano già usando.

La Soluzione

Due iframe, zero codice di streaming nell'app del partner

Tutta l'esperienza utente è costruita su due componenti embeddabili che Converso fornisce come iframe completamente personalizzabili: uno per ascoltare l'audio interpretato in tempo reale, uno per leggere i sottotitoli live sincronizzati con l'audio. Il partner li ha integrati pixel-perfect dentro la propria app — colori, tipografia, layout del cliente bancario — senza scrivere una riga di codice di streaming. WebRTC e WebSocket, persistenza in background mobile, reconnect, gestione codec, fallback di rete: tutto rimane lato Converso. Il partner integra la UI; noi gestiamo lo streaming.

Per chi sviluppa l'app questo è il punto: integrare significa incollare due iframe. Non significa diventare ingegneri di streaming real-time per un evento.

L'interprete entra in piattaforma da un browser

Dal lato regia, il partner ha utilizzato Converso App Broadcaster, il broadcaster web-based di Converso (tutte le modalità di pubblicazione audio verso la WebApp). Nessun hardware dedicato in regia, nessun client da installare, nessuna competenza tecnica oltre a quella che il partner ha già. L'audio dell'interprete entra nella piattaforma Converso da una scheda di un browser. Da lì, due flussi paralleli partono verso ogni utente connesso: l'audio interpretato sulla Converso WebApp embeddata nell'app del partner, e i sottotitoli live sincronizzati con quell'audio.

Il momento critico: migliaia di accessi in pochi minuti

Il momento più delicato è stato l'avvio del keynote. La platea ha aperto l'app quasi simultaneamente e il canale italiano è salito rapidamente fino a quasi 3.000 ascoltatori concorrenti.

Il ramp-up si è concentrato nei primi minuti: non un traffico distribuito nell'arco della giornata, ma migliaia di attivazioni mentre lo speech era già iniziato. Questo ha reso il caso particolarmente interessante dal punto di vista infrastrutturale.

Ogni partecipante riceveva audio interpretato e sottotitoli live sincronizzati. Nel complesso, l'infrastruttura ha gestito circa 6.000 flussi concorrenti tra audio e dati testuali, mantenendo la latenza tecnica Converso sotto i 200 ms per tutta la sessione. Quei 200 ms misurano il tratto che dipende da noi — dall'ingresso dell'audio nella piattaforma Converso alla distribuzione verso lo smartphone del partecipante — e a quel livello il ritardo tecnico non è percepibile nell'esperienza d'ascolto.

La latenza sotto i 200 ms è il requisito minimo del nostro lavoro quotidiano. Il dato rilevante, qui, è aver portato quella stessa esperienza dentro l'app di un partner, in white-label, su una platea di quasi 3.000 ascoltatori concorrenti.

Il ramp-up nei primi minuti ha confermato la tenuta dell'infrastruttura anche in uno scenario di accesso concentrato.

Ascoltatori concorrenti — canale italiano

2.970 picco

Plateau

~30 min

Ascoltatori concorrenti sul canale italiano nel corso della sessione.

Control Room: presente, invisibile

In parallelo, la control room Converso monitorava in tempo reale latenza, qualità degli stream, salute dei media server, distribuzione dei sottotitoli live e errori lato client — pronta a intervenire al primo segnale di anomalia. Nessun intervento è stato necessario. Né il partner né il pubblico hanno mai visto questo strato di supervisione: è esattamente come dovrebbe essere.

Perché un interprete umano, qui

C'è un motivo per cui in questo evento, in cabina, c'era una persona — non il nostro motore RSAI. Una convention bancaria di questa portata mette in scena il management davanti alla propria platea: registro istituzionale, gergo finanziario, ironie di settore, sottintesi e tono del management. È esattamente il tipo di contesto in cui un interprete umano resta la scelta giusta — perché capisce il messaggio, non lo trasferisce soltanto. Coglie le sfumature, sa quando un'inflessione conta più di una parola, e riconosce una battuta da settore prima che diventi imbarazzante in traduzione. Da venticinque anni questo è il cuore del nostro mestiere, ed è esattamente la scelta giusta per un evento di questa natura.

Converso non sceglie un lato fra AI e umano. Sceglie il giusto interprete per il giusto evento — sulla stessa infrastruttura.

Il Risultato

Il picco è stato assorbito. Il plateau è stato sostenuto. Audio e sottotitoli sono arrivati puliti a tutti i partecipanti connessi, dall'inizio alla fine del keynote, in un contesto finanziario a zero tolleranza. Sia il partner tecnologico sia il gruppo bancario hanno espresso piena soddisfazione su stabilità e performance.

Ma il valore di questo deployment va oltre il singolo evento. Il motore Converso è esattamente lo stesso che la voce in ingresso arrivi da un interprete umano o dal motore RSAI — Real-time Simultaneous AI Interpretation. Per il partner significa una cosa: la stessa app che oggi distribuisce interpretazione tradizionale può, in qualunque momento, ospitare l'interpretazione AI. Senza una riga di codice in più, senza una modifica all'integrazione. Stessa cattura audio, stesso fanout, stessa esperienza per il listener.

Interpretazione umana oggi. RSAI domani. Ibrida dopodomani. Sulla stessa infrastruttura.

Hai già un'app evento o una piattaforma per congressi? Integra interpretazione live, sottotitoli e RSAI white-label, senza sviluppare una tua infrastruttura real-time. → Integra Converso nella tua app