Forscher von Apple und der Renmin University of China stellen VSSFlow vor, ein KI-Modell, das in einem System sowohl Geräusche als auch Sprache aus Videos generieren kann.
- Das Modell namens VSSFlow kann aus stummen Videos sowohl Umgebungsgeräusche als auch gesprochene Sprache erzeugen.
- Im Gegensatz zu früheren Ansätzen verbessert das gemeinsame Training für Sprache und Geräusche laut den Forschern die Leistung in beiden Aufgaben.
- Die Architektur nutzt Flow-Matching und eine 10-Schichten-Struktur, um Video- und Transkript-Signale direkt in den Audio-Generierungsprozess einzubinden.
- Für die gemeinsame Ausgabe von Hintergrundgeräuschen und Sprache gleichzeitig war ein zusätzliches Fine-Tuning mit synthetischen Beispielen nötig.
- Der Code des Modells wurde auf GitHub open-source veröffentlicht, die Gewichte sollen folgen.
Quelle: 9to5Mac
Hinweis: Dieser Artikel wurde mithilfe von KI erstellt.

