
Sarežģītā vidē cilvēki var labāk izprast runas nozīmi nekā AI, jo mēs izmantojam ne tikai ausis, bet arī acis.
Piemēram, mēs redzam, ka kāda mute kustas un var intuitīvi zināt, ka skaņai, ko mēs dzirdam, ir jābūt no šīs personas.
Meta AI strādā pie jaunas AI dialoga sistēmas, kas ir iemācīt AI arī iemācīties atpazīt smalkas korelācijas starp to, ko tā redz un dzird sarunā.
VisualVoice mācās līdzīgi tam, kā cilvēki iemācās apgūt jaunas prasmes, ļaujot audiovizuālas runas atdalīšanai, apgūstot vizuālās un dzirdes norādes no bez etiķetētiem videoklipiem.
Mašīnām tas rada labāku uztveri, kamēr uzlabojas cilvēka uztvere.
Iedomājieties, kā spēt piedalīties grupu sanāksmēs Metaversā ar kolēģiem no visas pasaules, pievienojoties mazākām grupu sanāksmēm, kad viņi pārvietojas pa virtuālo telpu, kuras laikā skaņa reverbus un tembras notikuma vietā notiek atbilstoši videi pielāgotai.
Tas ir, tas vienlaikus var iegūt audio, video un teksta informāciju, un tam ir bagātīgāks vides izpratnes modelis, kas lietotājiem ļauj iegūt "ļoti wow" skaņas pieredzi.
Pasta laiks: jūlijs-20-2022