Apple-Forscher haben eine neue Studie zu UniGen 1.5 veröffentlicht, einem multimodalen Modell, das Bildverstehen, -generierung und -bearbeitung in einem System vereint.
- Das Modell namens UniGen 1.5 ist eine Weiterentwicklung des ursprünglichen UniGen und fügt Bildbearbeitungsfähigkeiten hinzu.
- Es handelt sich um ein einheitliches multimodales Sprachmodell, das alle drei Aufgaben in einem System erledigt, anstatt separate Modelle zu nutzen.
- Eine zentrale Neuerung ist die „Edit Instruction Alignment“-Phase, bei der das Modell lernt, aus dem Ursprungsbild und der Bearbeitungsanweisung eine detaillierte Textbeschreibung des gewünschten Ergebnisses abzuleiten.
- Für die Optimierung wird ein einheitliches Belohnungssystem (Reinforcement Learning) sowohl für die Bildgenerierung als auch für die -bearbeitung eingesetzt.
- In Benchmarks soll UniGen 1.5 laut Studie bei der Befolgung von Anweisungen und der Bildqualität mit aktuellen, teils proprietären Modellen wie GPT-Image-1 mithalten oder sie übertreffen.
- Die Forscher geben an, dass das Modell noch Schwächen bei der Erzeugung von Text in Bilden und der konsistenten Darstellung von Identitäten (z.B. Gesichtszügen) unter bestimmten Bedingungen hat.
Quelle: 9to5Mac
Hinweis: Dieser Artikel wurde mithilfe von KI erstellt.

