Apple-Forscher haben eine Studie zu Manzano veröffentlicht, einem KI-Modell, das visuelles Verständnis und Bildgenerierung in einem einzigen Modell vereint und dabei Leistungseinbußen reduzieren soll.
- Das Modell namens „Manzano“ soll in einem einheitlichen Ansatz sowohl Bildverstehen als auch Text-zu-Bild-Generierung beherrschen.
- Laut der Studie adressiert Manzano ein zentrales Problem aktueller multimodaler Modelle: den Konflikt zwischen kontinuierlichen Einbettungen für das Verstehen und diskreten Tokens für die Generierung.
- Die Architektur kombiniert einen hybriden Vision-Tokenizer, einen autoregressiven LLM-Decoder und einen Diffusions-Decoder für die Pixelgenerierung.
- Tests mit Modellgrößen von 300 Millionen bis 30 Milliarden Parametern zeigen laut Forschern wettbewerbsfähige oder überlegene Leistung im Vergleich zu anderen State-of-the-Art-Modellen wie GPT-4o und Nano Banana.
- Das Modell soll auch bei Bildbearbeitungsaufgaben wie instruktionsgeführtem Editing, Style-Transfer und Inpainting gut abschneiden.
- Die Forschung deutet auf Apples fortlaufende Arbeit an leistungsfähigeren, eigenen Bildgenerierungsmodellen für zukünftige Produkte wie Image Playground hin.
Quelle: 9to5Mac
Hinweis: Dieser Artikel wurde mithilfe von KI erstellt.

