Sind Sie bereit, Ihre GenAI-Fähigkeiten zu verbessern? Treten Sie ein in die aufregende Welt der multimodalen KI, in der Sprache, Bilder und Sprache zusammenkommen, um intelligentere, interaktivere Anwendungen zu erstellen. In diesem praktischen Kurs lernen Sie, wie man Systeme erstellt, die über mehrere Modalitäten hinweg funktionieren, von der Erstellung von KI-gesteuerten Geschichtenerzählern und Meeting-Assistenten bis hin zur Entwicklung von Tools für Bildunterschriften und Anwendungen zur Videoerstellung.

Schalten Sie mit Coursera Plus den Zugang zu mehr als 10.000 Kursen frei. Starten Sie die 7-tägige kostenlose Testversion.

Multimodale generative KI-Anwendungen erstellen
Dieser Kurs ist Teil von IBM RAG und Agentische KI (berufsbezogenes Zertifikat)


Dozenten: Hailey Quach
5.550 bereits angemeldet
Bei enthalten
(39 Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Erwerben Sie in nur 3 Wochen die Fähigkeiten, die Sie benötigen, um multimodale generative KI-Anwendungen zu erstellen
Verstehen der grundlegenden Konzepte und Herausforderungen der multimodalen KI, einschließlich der Integration von Text, Sprache, Bildern und Video
Erstellen Sie multimodale KI-Anwendungen mit modernsten Modellen und Frameworks wie Granite von IBM, Llama von Meta, Whisper von OpenAI, DALL-E und Sora
Entwicklung multimodaler KI-Lösungen, einschließlich Chatbots und Bild-/Video-Generierungsmodelle, unter Verwendung von IBM watsonx.ai, Hugging Face, Flask und Gradio
Kompetenzen, die Sie erwerben
- Kategorie: Bereitstellung von Anwendungen
- Kategorie: Flask (Web-Framework)
- Kategorie: LLM-Bewerbung
- Kategorie: Multimodale Aufforderungen
- Kategorie: OpenAI
- Kategorie: Prompt Engineering
- Kategorie: Softwareentwicklung
- Kategorie: Webentwicklung
- Kategorie: Web-Anwendungen
Wichtige Details

Zu Ihrem LinkedIn-Profil hinzufügen
6 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Erweitern Sie Ihr Fachwissen im Bereich Softwareentwicklung
- Lernen Sie neue Konzepte von Branchenexperten
- Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
- Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
- Erwerben Sie ein Berufszertifikat von IBM zur Vorlage

In diesem Kurs gibt es 3 Module
Dieses Modul bietet eine gründliche Einführung in die multimodale KI, wobei der Schwerpunkt darauf liegt, wie KI-Systeme mehrere Datentypen, einschließlich Text, Sprache und Bilder, verarbeiten und integrieren. Sie lernen die Kernkonzepte und einige der Herausforderungen kennen, mit denen Sie in der multimodalen KI konfrontiert werden, und erwerben grundlegende Kenntnisse über Text- und Sprachverarbeitungstechniken. In praktischen Übungen werden Sie KI-gestütztes Geschichtenerzählen, Sprache-zu-Text-Transkription und Text-zu-Sprache-Synthese auf reale Anwendungen anwenden, wie z. B. KI-generierte Hörbücher und automatische Meeting-Assistenten.
Das ist alles enthalten
5 Videos2 Lektüren2 Aufgaben2 App-Elemente6 Plug-ins
In diesem Modul wird untersucht, wie KI-Prozesse visuelle Daten durch die Integration von Bildern und Videos mit Text erzeugen. Sie werden Text-zu-Bild/Bild-zu-Text- und Text-zu-Video/Video-zu-Text-Modelle, Bildunterschriften und die für effektive multimodale KI-Systeme erforderlichen Fusionstechniken untersuchen. In praktischen Übungen werden Sie modernste Modelle wie DALL-E und Sora anwenden, um Bilder und Videos aus Text-Prompts zu generieren. Darüber hinaus werden Sie ein Bildunterschriftssystem mit Metas Llama 4 implementieren und so praktische Erfahrungen mit der Kombination von Bildverarbeitungs- und Sprachmodellen für reale Anwendungen sammeln.
Das ist alles enthalten
2 Videos1 Lektüre2 Aufgaben2 App-Elemente3 Plug-ins
Das letzte Modul erforscht fortgeschrittene multimodale KI-Anwendungen, die Bild-, Text- und Retrieval-basierte Systeme integrieren, um innovative Lösungen zu entwickeln. Sie tauchen ein in multimodales Retrieval und Suche, multimodale Fragebeantwortung (QA) und Chatbots und lernen, wie multimodale Retrieval-Techniken Suchmaschinen und Empfehlungssysteme verbessern. Außerdem lernen Sie, wie die Integration von visuellen und textuellen Daten die Interaktion mit Chatbots verbessert. Durch praktische Übungen werden Sie voll funktionsfähige Webanwendungen mit multimodalen Fähigkeiten unter Verwendung von Flask erstellen und dabei modernste Modelle und Frameworks anwenden
Das ist alles enthalten
3 Videos3 Lektüren2 Aufgaben2 App-Elemente1 Plug-in
Erwerben Sie ein Karrierezertifikat.
Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.
von
Mehr von Softwareentwicklung entdecken
Status: Kostenloser Testzeitraum
Status: Kostenloser Testzeitraum
Status: Kostenloser Testzeitraum
Status: Kostenloser TestzeitraumPearson
Warum entscheiden sich Menschen für Coursera für ihre Karriere?




Bewertungen von Lernenden
39 Bewertungen
- 5 stars
84,61 %
- 4 stars
10,25 %
- 3 stars
2,56 %
- 2 stars
0 %
- 1 star
2,56 %
Zeigt 3 von 39 an
Geprüft am 26. Okt. 2025
Wow, It was next Level Experience to learn the Multimodal Gen AI Development. Truly Amazing.

Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Fähigkeiten im Bereich der multimodalen generativen KI, bei der Systeme Text, Sprache, Bilder und Videos integrieren, sind sehr gefragt, z. B. als KI-Entwickler, Ingenieur für Maschinelles Lernen, multimodaler KI-Forscher und Full Stack-Entwickler, die sich auf KI-gestützte Benutzererfahrungen spezialisieren.
Nicht unbedingt. Als Python-Entwickler können Sie mit Tools wie IBM watsonx.ai, Flask und Gradio mit der Entwicklung generativer KI beginnen - ohne fortgeschrittene ML-Kenntnisse.
Multimodale KI-Apps gehen über die typische Entwicklung einer App hinaus, indem sie multimodale große Sprachmodelle (MLLMs) und medienbasierte Eingaben wie Sprache, Bilder und Videos einbeziehen. Sie werden weiterhin vertraute Tools wie Python, Flask und Gradio verwenden, aber Sie werden auch lernen, Modelle für Aufgaben wie Transkription, Bilderzeugung und KI-gestütztes Storytelling zu integrieren und zu orchestrieren.
Weitere Fragen
Finanzielle Unterstützung verfügbar,

