Informatikai bűvészmutatvány a legjavából: a Google mesterséges intelligenciája a te hangodon szólal meg, idegen nyelven.

2023.07.04. – A hangminta elég, ha 3 másodperces, bár elvileg ennyinek sem kell lennie, hiszen a rövidebb hang ismétlésével az AI szintén létrehozza a hangodat. Szóval a 3 másodperces szabály talán csak a minél pontosabb másolásért szükséges. Mióta a Google májusban demonstrálta a saját nyelvi modelljét, azt nézi a világ, hogy mikor érkezik el a nap, amikor már a telefonban / chatben hallott élő beszédről se tudjuk eldönteni, hogy eleven személyt hallunk-e. Az AudioPaLM és a PaLM-2 nyelvi modell egyesítése éppen azt teszi lehetővé, hogy a fordítás lejátszható legyen az eredeti beszélő hangján – írja a the decoder. A rendszer ilyen módon már képes

  • szöveg és beszéd feldolgozására,
  • szöveg és beszéd generálására,
  • beszédfelismerésre
  • vagy fordítások generálására – az eredeti hanggal.

Ez utóbbi funkció különösen figyelemre méltó, mivel a user egyszerre több nyelven beszélhet – amint azt az alábbi demó mutatja.

Az eredeti hang létrehozásához mindössze három másodperces minta szükséges – ezt audio- és SoundStream-tokenként adjuk át az AI-nak. Az AudioLM integrálásával az AudioPaLM hosszú távú konzisztenciával rendelkező, kiváló minőségű hangot képes előállítani. Ez magában foglalja a szemantikailag könnyen befogadható beszédfolytatások előállításának képességét, miközben megőrzi a beszélő azonosságát.

Forrás: Freepik

A modell számos nyelv esetében képes nullszori beszéd-szöveg fordításra, beleértve az AI képzése során nem látott beszédkombinációkat is. Ez a képesség fontos lehet olyan alkalmazásokban, mint a valós idejű többnyelvű kommunikáció. Magyarán az ebből készülő, majdani alkalmazás eddig csak sci-fikben látott tolmácsgéppé változik: a megszólaló mondandója a saját hangján csendül fel a hallgatósága számára. A beszédgenerálás mellett az AudioPaLM képes átiratokat is generálni, akár az eredeti nyelven, akár közvetlen fordításként, vagy beszédet generál az eredeti írott forrásból.

Az AudioPaLM kiváló eredményeket ért el a beszédfordítási benchmarkokban, és versenyképes teljesítményt a beszédfelismerési feladatokban.

A potenciális alkalmazások sokrétűek: többnyelvű beszédasszisztensek, automatizált átíró szolgáltatások és minden más olyan rendszer, amelynek meg kell értenie vagy generálnia kell az írott vagy beszélt emberi nyelvet. A Google a mesterséges intelligencia által generált többnyelvű videók felhasználási lehetőségeit is látja, különösen a YouTube-on: a segítségével például többnyelvű feliratokat lehet készíteni, vagy többnyelvű videókat lehet szinkronizálni anélkül, hogy az eredeti beszélő hangja elveszne. A GitHubon ennél többet is elárulnak a készülő alkalmazásról.

Készül a Google-nél egy menő bőrgyógyászati alkalmazás is, ami nyáron különösen jól jön:

Nyári leégés?! – A Google bőrállapot-scannert rak a mobilodba

×