Multimodalität
Multimodality
Multimodalität bezeichnet die Fähigkeit eines KI-Modells, nicht nur Text, sondern auch andere Datenarten wie Bilder, Audio oder Video zu verarbeiten und zu erzeugen. Ein multimodales Modell kann beispielsweise ein Bild beschreiben oder eine Frage zu einem Diagramm beantworten.
Quelle: Google DeepMind — Multimodal AI