Sarežģītā vidē cilvēki var saprast runas nozīmi labāk nekā AI, jo mēs izmantojam ne tikai ausis, bet arī acis.
Piemēram, mēs redzam, ka kāda mute kustas, un varam intuitīvi zināt, ka skaņai, ko dzirdam, ir jānāk no šīs personas.
Meta AI strādā pie jaunas AI dialoga sistēmas, kuras mērķis ir iemācīt AI arī iemācīties atpazīt smalkas korelācijas starp sarunā redzēto un dzirdamo.
VisualVoice mācās līdzīgi tam, kā cilvēki mācās apgūt jaunas prasmes, ļaujot audiovizuālo runu atdalīt, apgūstot vizuālus un dzirdes signālus no videoklipiem bez etiķetēm.
Mašīnām tas rada labāku uztveri, bet cilvēka uztvere uzlabojas.
Iedomājieties, ka varat piedalīties grupu sanāksmēs metaversā ar kolēģiem no visas pasaules, pievienojoties mazāku grupu sanāksmēm, kad viņi pārvietojas pa virtuālo telpu, kuru laikā skaņas reverbs un tembrs ainā darbojas atbilstoši videi.
Tas nozīmē, ka tas var iegūt audio, video un teksta informāciju vienlaikus, un tam ir bagātāks vides izpratnes modelis, kas ļauj lietotājiem iegūt "ļoti wow" skaņas pieredzi.
Izlikšanas laiks: 20. jūlijs 2022