Apple-Forscher präsentieren SlowFast-LLaVA-1.5, ein innovatives Large Language Model für Videoverständnis
- Entwicklung eines neuartigen Modells zur effizienten Videoanalyse mit nur 128 Frames
- Verwendet Two-Stream-Ansatz: Langsamer Stream mit hoher Detailgenauigkeit und schneller Stream für Bewegungsverfolgung
- Modell in drei Größen verfügbar: 1B, 3B und 7B Parameter
- Übertrifft größere Modelle bei Videoverständnis-Benchmarks
- Trainiert ausschließlich mit öffentlichen Datensätzen
- Open-Source-Modell auf GitHub und Hugging Face verfügbar
- Kann sowohl Videoinhalte als auch Bildaufgaben effizient verarbeiten
Quelle: 9to5Mac
Hinweis: Dieser Artikel wurde mithilfe von KI erstellt.

