Was bekomme ich, wenn ich dieses Zertifikat abonniere?

Wenn Sie sich für den Kurs anmelden, erhalten Sie Zugang zu allen Kursen des Zertifikats, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird zu Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.

Multimodale generative KI-Anwendungen erstellen

Multimodale generative KI-Anwendungen erstellen

Dieser Kurs ist Teil von IBM RAG und Agentische KI (berufsbezogenes Zertifikat)

Dozenten: Hailey Quach

10.700 bereits angemeldet

Bei enthalten

Mehr erfahren

3 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

53 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

8 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

3 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

53 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

8 Stunden zu vervollständigen

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

Erwerben Sie in nur 3 Wochen die Fähigkeiten, die Sie benötigen, um multimodale generative KI-Anwendungen zu erstellen
Verstehen der grundlegenden Konzepte und Herausforderungen der multimodalen KI, einschließlich der Integration von Text, Sprache, Bildern und Video
Erstellen Sie multimodale KI-Anwendungen mit modernsten Modellen und Frameworks wie Granite von IBM, Llama von Meta, Whisper von OpenAI, DALL-E und Sora
Entwicklung multimodaler KI-Lösungen, einschließlich Chatbots und Bild-/Video-Generierungsmodelle, unter Verwendung von IBM watsonx.ai, Hugging Face, Flask und Gradio

Kompetenzen, die Sie erwerben

Kategorie: Web-Entwicklung
Kategorie: Multimodale Aufforderungen
Kategorie: Abruf-erweiterte Erzeugung
Kategorie: Bereitstellung von Anwendungen
Kategorie: Einbettungen
Kategorie: Entscheidungsintelligenz
Kategorie: KI-gestützte Kreativität
Kategorie: Modellierung großer Sprachen
Kategorie: Software-Entwicklung
Kategorie: AI-Integrationen
Kategorie: LLM-Bewerbung

Werkzeuge, die Sie lernen werden

Kategorie: OpenAI-API
Kategorie: Schnelles Engineering
Kategorie: Flask (Web-Framework)

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

6 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihr Fachwissen im Bereich Software-Entwicklung

Dieser Kurs ist Teil der Spezialisierung IBM RAG und Agentische KI (berufsbezogenes Zertifikat)

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für dieses berufsbezogene Zertifikat angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat von IBM zur Vorlage

In diesem Kurs gibt es 3 Module

Sind Sie bereit, Ihre GenAI-Fähigkeiten zu verbessern? Treten Sie ein in die aufregende Welt der multimodalen KI, in der Sprache, Bilder und Sprache zusammenkommen, um intelligentere, interaktivere Anwendungen zu erstellen. In diesem praktischen Kurs lernen Sie, wie man Systeme erstellt, die über mehrere Modalitäten hinweg funktionieren, von der Erstellung von KI-gesteuerten Geschichtenerzählern und Meeting-Assistenten bis hin zur Entwicklung von Tools für Bildunterschriften und Anwendungen zur Videoerstellung.

Sie werden Erfahrungen mit realen Tools wie IBM's Granite, OpenAI's Whisper, Sora und DALL-E, Meta's Llama, Mistral's Mixtral, und Gradio sammeln. Außerdem lernen Sie multimodale Such-, Fragebeantwortungs- und Retrievalsysteme kennen, die Text, Sprache und visuelle Daten kombinieren. Am Ende des Kurses werden Sie in der Lage sein, multimodale Full Stack KI-Lösungen mit Python und Frameworks wie Flask und Gradio zu entwerfen und zu erstellen. Wenn Sie sich gefragte Fähigkeiten für die Entwicklung der nächsten Generation von KI-Anwendungen aneignen möchten, melden Sie sich noch heute an und bringen Sie Ihre KI-Karriere voran!

Dieses Modul bietet eine gründliche Einführung in die multimodale KI, wobei der Schwerpunkt darauf liegt, wie KI-Systeme mehrere Datentypen, einschließlich Text, Sprache und Bilder, verarbeiten und integrieren. Sie lernen die Kernkonzepte und einige der Herausforderungen kennen, mit denen Sie in der multimodalen KI konfrontiert werden, und erwerben grundlegende Kenntnisse über Text- und Sprachverarbeitungstechniken. In praktischen Übungen werden Sie KI-gestütztes Geschichtenerzählen, Sprache-zu-Text-Transkription und Text-zu-Sprache-Synthese auf reale Anwendungen anwenden, wie z. B. KI-generierte Hörbücher und automatische Meeting-Assistenten.

Das ist alles enthalten

5 Videos2 Lektüren2 Aufgaben2 App-Elemente6 Plug-ins

5 VideosInsgesamt 34 Minuten

Video: Kurseinführung5 Minuten
Überblick über das berufsbezogene Zertifikat RAG und Agentic AI6 Minuten
Einführung in multimodale KI8 Minuten
Text-to-Speech-Technologien8 Minuten
Technologien zur Spracherkennung7 Minuten

2 LektürenInsgesamt 5 Minuten

Lesen: Überblick über den Kurs3 Minuten
Lesen: Zusammenfassung und Highlights2 Minuten

2 AufgabenInsgesamt 36 Minuten

Benotetes Quiz: Grundlagen der multimodalen AI21 Minuten
Praxis-Quiz: Einführung in die multimodale KI: Text- und Sprachverarbeitung15 Minuten

2 App-ElementeInsgesamt 75 Minuten

Übung: Verwenden Sie Mistral und gTTS, um Ihren persönlichen Geschichtenerzähler zu erstellen30 Minuten
Übung: Erstellen eines Meeting-Assistenten mit Whisper, LangChain und Gradio45 Minuten

6 Plug-insInsgesamt 32 Minuten

Hilfreiche Tipps für den Kursabschluss3 Minuten
Lesen: Was ist multimodale generative KI und warum ist sie wichtig?5 Minuten
Lesen: Was ist Computer Vision?7 Minuten
Lesen: Textverarbeitung, Sprachverarbeitung und Text-to-Speech7 Minuten
Lesen: Herausforderungen der multimodalen KI-Integration5 Minuten
Spickzettel: Grundlagen der multimodalen KI5 Minuten

In diesem Modul wird untersucht, wie KI-Prozesse visuelle Daten durch die Integration von Bildern und Videos mit Text erzeugen. Sie werden Text-zu-Bild/Bild-zu-Text- und Text-zu-Video/Video-zu-Text-Modelle, Bildunterschriften und die für effektive multimodale KI-Systeme erforderlichen Fusionstechniken untersuchen. In praktischen Übungen werden Sie modernste Modelle wie DALL-E und Sora anwenden, um Bilder und Videos aus Text-Prompts zu generieren. Darüber hinaus werden Sie ein Bildunterschriftssystem mit Metas Llama 4 implementieren und so praktische Erfahrungen mit der Kombination von Bildverarbeitungs- und Sprachmodellen für reale Anwendungen sammeln.

Das ist alles enthalten

2 Videos1 Lektüre2 Aufgaben2 App-Elemente3 Plug-ins

2 VideosInsgesamt 15 Minuten

Verstehen von Bildunterschriften mit Meta's Llama7 Minuten
Demo: Text-zu-Video-Generierung mit Sora von OpenAI8 Minuten

1 LektüreInsgesamt 3 Minuten

Lesen: Zusammenfassung und Highlights3 Minuten

2 AufgabenInsgesamt 31 Minuten

Benotetes Quiz: Integration von visuellen und Videomodalitäten21 Minuten
Bilderzeugung und Untertitelung10 Minuten

2 App-ElementeInsgesamt 50 Minuten

Labor: DALL-E Bilderzeugungsanleitung für Einsteiger20 Minuten
Übung: Aufbau eines Bilduntertitelungssystems mit watsonx und IBMs Granite30 Minuten

3 Plug-insInsgesamt 35 Minuten

Lesen: Einführung in Text-zu-Video- und Bild-zu-Video-Technologien12 Minuten
Lesen: Stärken, Grenzen und praktische Anwendungen von multimodalen Sehmodellen in realen Szenarien8 Minuten
Spickzettel: Integration von Bild- und Videomodalitäten15 Minuten

Das letzte Modul erforscht fortgeschrittene multimodale KI-Anwendungen, die Bild-, Text- und Retrieval-basierte Systeme integrieren, um innovative Lösungen zu entwickeln. Sie tauchen ein in multimodales Retrieval und Suche, multimodale Fragebeantwortung (QA) und Chatbots und lernen, wie multimodale Retrieval-Techniken Suchmaschinen und Empfehlungssysteme verbessern. Außerdem lernen Sie, wie die Integration von visuellen und textuellen Daten die Interaktion mit Chatbots verbessert. Durch praktische Übungen werden Sie voll funktionsfähige Webanwendungen mit multimodalen Fähigkeiten unter Verwendung von Flask erstellen und dabei modernste Modelle und Frameworks anwenden

Das ist alles enthalten

3 Videos3 Lektüren2 Aufgaben2 App-Elemente1 Plug-in

3 VideosInsgesamt 18 Minuten

Einführung in Multimodal Retrieval-Augmented Generation (MM-RAG)7 Minuten
Multimodale Chatbots und QA-Systeme8 Minuten
Nachbereitung des Kurses4 Minuten

3 LektürenInsgesamt 6 Minuten

Zusammenfassung und Highlights2 Minuten
Lesen: Glückwünsche und nächste Schritte2 Minuten
Dank des Kursteams2 Minuten

2 AufgabenInsgesamt 36 Minuten

Benotetes Quiz: Fortgeschrittene multimodale Anwendungen21 Minuten
Erweiterte multimodale Anwendungen erstellen15 Minuten

2 App-ElementeInsgesamt 75 Minuten

Übung: Erstellen eines Style Finders mit multimodaler Abfrage und Suche45 Minuten
Übung: Erstellen Sie Ihre erste GenAI-gestützte Webanwendung auf der Basis von Bildern: KI-Ernährungs-Coach30 Minuten

1 Plug-inInsgesamt 10 Minuten

Spickzettel: Erweiterte multimodale Anwendungen10 Minuten

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen

(5 Bewertungen)

Hailey Quach

IBM

2 Kurse75.031 Lernende

von

IBM

Mehr von Software-Entwicklung entdecken

Pragmatic AI Labs
Multi-modal AI
Kurs
Status: Kostenloser Testzeitraum
Kategorie: Credits angeboten
Codio
Multimodal Generative AI: Vision, Speech, and Assistants
Kurs
Status: Kostenloser Testzeitraum
Kategorie: Credits angeboten
Pearson
Programming Generative AI: Unit 3
Kurs
Status: Kostenloser Testzeitraum
Kategorie: Credits angeboten
Coursera
Multimodal Intelligence - Vision, Audio & Language in Action
Berufsbezogenes Zertifikat
Status: Kostenloser Testzeitraum
Kategorie: Credits angeboten

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

5 stars
83,01 %
4 stars
11,32 %
3 stars
3,77 %
2 stars
0 %
1 star
1,88 %

Zeigt 3 von 53 an

Geprüft am 26. Okt. 2025

Wow, It was next Level Experience to learn the Multimodal Gen AI Development. Truly Amazing.

Weitere Bewertungen anzeigen

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Fähigkeiten im Bereich der multimodalen generativen KI, bei der Systeme Text, Sprache, Bilder und Videos integrieren, sind sehr gefragt, z. B. als KI-Entwickler, Ingenieur für Maschinelles Lernen, multimodaler KI-Forscher und Full Stack-Entwickler, die sich auf KI-gestützte Benutzererfahrungen spezialisieren.

Nicht unbedingt. Als Python-Entwickler können Sie mit Tools wie IBM watsonx.ai, Flask und Gradio mit der Entwicklung generativer KI beginnen - ohne fortgeschrittene ML-Kenntnisse.

Multimodale KI-Apps gehen über die typische Entwicklung einer App hinaus, indem sie multimodale große Sprachmodelle (MLLMs) und medienbasierte Eingaben wie Sprache, Bilder und Videos einbeziehen. Sie werden weiterhin vertraute Tools wie Python, Flask und Gradio verwenden, aber Sie werden auch lernen, Modelle für Aufgaben wie Transkription, Bilderzeugung und KI-gestütztes Storytelling zu integrieren und zu orchestrieren.

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.