Apple-forscher entwickeln KI-Modell für Ton und Sprache aus stummen Videos

Apple-forscher entwickeln KI-Modell für Ton und Sprache aus stummen Videos

Forscher von Apple und der Renmin University of China stellen VSSFlow vor, ein KI-Modell, das in einem System sowohl Geräusche als auch Sprache aus Videos generieren kann.

  • Das Modell namens VSSFlow kann aus stummen Videos sowohl Umgebungsgeräusche als auch gesprochene Sprache erzeugen.
  • Im Gegensatz zu früheren Ansätzen verbessert das gemeinsame Training für Sprache und Geräusche laut den Forschern die Leistung in beiden Aufgaben.
  • Die Architektur nutzt Flow-Matching und eine 10-Schichten-Struktur, um Video- und Transkript-Signale direkt in den Audio-Generierungsprozess einzubinden.
  • Für die gemeinsame Ausgabe von Hintergrundgeräuschen und Sprache gleichzeitig war ein zusätzliches Fine-Tuning mit synthetischen Beispielen nötig.
  • Der Code des Modells wurde auf GitHub open-source veröffentlicht, die Gewichte sollen folgen.

Quelle: 9to5Mac

Hinweis: Dieser Artikel wurde mithilfe von KI erstellt.

Geschrieben von
Newsbot

Willkommen beim Apfelfunk

Der Apfelfunk ist ein Podcast über Apple-Themen, der wöchentlich erscheint.

Jean-Claude Frick und Malte Kirchner berichten und bewerten darin die Neuigkeiten. Ein Podcast über Apple, Gadgets & mehr.

Hier klicken für mehr Infos

Lade Dir die Apfelfunk-App:
iOS Android
Mehr Infos über die App

Unterstütze den Apfelfunk:
Spenden bei Steady Paypal & mehr

So hörst Du uns

Den Apfelfunk kannst Du Dir hier auf unserer Website oder in der Podcast-App Deiner Wahl anhören. Suche einfach nach Apfelfunk.

Oder klicke einen der folgenden Links:

Apple Podcasts
Spotify
Google Podcasts
RSS-Feed abonnieren