Apple-Forscher veröffentlichen Studie zur Aktivitätserkennung durch Sprachmodelle mit Audio- und Bewegungsdaten aus Ego4D-Datensatz
- Apple-Forscher untersuchten, wie LLMs Audio- und Bewegungsdaten analysieren können, um Nutzeraktivitäten zu erkennen
- Studie verwendet Ego4D-Datensatz mit 20-Sekunden-Samples aus 12 Aktivitätskategorien wie Kochen, Sport oder Hausarbeit
- LLMs erhalten keine Rohdaten, sondern Textbeschreibungen von Audio- und Bewegungsmodellen
- Gemini-2.5-pro und Qwen-32B erreichten signifikant bessere F1-Scores als Zufallstreffer ohne spezifisches Training
- Methode funktioniert auch bei begrenzten Trainingsdaten und könnte präzisere Aktivitätsanalyse ermöglichen
- Apple veröffentlichte ergänzende Materialien zur Reproduktion der Ergebnisse
Quelle: 9to5Mac
Hinweis: Dieser Artikel wurde mithilfe von KI erstellt.

