Secure AI: Red-Teaming & Safety Filters

Ce cours n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.

Secure AI: Red-Teaming & Safety Filters

Ce cours fait partie de Spécialisation "AI Security: Security in the Age of Artificial Intelligence"

Instructeurs : Brian Newman

Inclus avec

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

4 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Design red-teaming scenarios to identify vulnerabilities and attack vectors in large language models using structured adversarial testing.
Implement content-safety filters to detect and mitigate harmful outputs while maintaining model performance and user experience.
Evaluate and enhance LLM resilience by analyzing adversarial inputs and developing defense strategies to strengthen overall AI system security.

Compétences que vous acquerrez

Catégorie : Cyber Security Assessment
Catégorie : Responsible AI
Catégorie : Large Language Modeling
Catégorie : Vulnerability Assessments
Catégorie : Continuous Monitoring
Catégorie : System Implementation
Catégorie : Threat Modeling
Catégorie : Vulnerability Scanning
Catégorie : AI Personalization
Catégorie : LLM Application
Catégorie : AI Security
Catégorie : Security Controls
Catégorie : Security Strategy
Catégorie : Security Testing
Catégorie : Exploitation techniques

Outils que vous découvrirez

Catégorie : Prompt Engineering

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

décembre 2025

Évaluations

1 affectation¹

Noté par l'IA voir l'avis de non-responsabilité

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "AI Security: Security in the Age of Artificial Intelligence"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 3 modules dans ce cours

As large language models revolutionize business operations, sophisticated attackers exploit AI systems through prompt injection, jailbreaking, and content manipulation—vulnerabilities that traditional security tools cannot detect. This intensive course empowers AI developers, cybersecurity professionals, and IT managers to systematically identify and mitigate LLM-specific threats before deployment. Master red-teaming methodologies using industry-standard tools like PyRIT, NVIDIA Garak, and Promptfoo to uncover hidden vulnerabilities through adversarial testing. Learn to design and implement multi-layered content-safety filters that block sophisticated bypass attempts while maintaining system functionality. Through hands-on labs, you'll establish resilience baselines, implement continuous monitoring systems, and create adaptive defenses that strengthen over time.

This course is designed for AI engineers, security professionals, data scientists, and developers interested in ensuring the safety and robustness of AI models. It’s also ideal for technology leaders seeking to implement secure, responsible AI frameworks within their organizations. Learners should have a basic understanding of machine learning, AI model architecture, and programming concepts. No prior experience with AI red-teaming or safety systems is required. By end of this course, you'll confidently conduct professional AI security assessments, deploy robust safety mechanisms, and protect LLM applications from evolving attack vectors in production environments.

This module introduces participants to the systematic creation and execution of red-teaming scenarios targeting large language models. Students learn to identify common vulnerability categories including prompt injection, jailbreaking, and data extraction attacks. The module demonstrates how to design realistic adversarial scenarios that mirror real-world attack patterns, using structured methodologies to probe LLM weaknesses. Hands-on demonstrations show how red-teamers simulate malicious user behavior to uncover security gaps before deployment.

Inclus

4 vidéos2 lectures1 évaluation par les pairs

4 vidéosTotal 27 minutes

Welcome to Secure AI Red-Teaming & Safety Filters3 minutes
Understanding AI Attack Vectors and Vulnerability Categories5 minutes
Designing Effective Red-Teaming Scenarios7 minutes
Hands-On Vulnerability Discovery with Automated Tools13 minutes

2 lecturesTotal 10 minutes

Welcome to the Course: Course Overview5 minutes
LLM Red Teaming Guide (Open Source): Systematically Testing Large Language Models for Vulnerabilities5 minutes

1 évaluation par les pairsTotal 15 minutes

Hands-On-Learning: Red-Team Assessment of ChatAssist Customer Service Bot15 minutes

This module covers the design, implementation, and evaluation of content-safety filters for LLM applications. Participants explore multi-layered defense strategies including input sanitization, output filtering, and behavioral monitoring systems. The module demonstrates how to configure safety mechanisms that balance security with functionality, and shows practical testing methods to validate filter effectiveness against sophisticated bypass attempts. Real-world examples illustrate the challenges of maintaining robust content filtering while preserving user experience.

Inclus

3 vidéos1 lecture1 évaluation par les pairs

3 vidéosTotal 25 minutes

Multi-Layered Content-Safety Filter Architecture7 minutes
Implementing and Configuring Safety Filters for Production8 minutes
Testing Filter Effectiveness Against Bypass Attempts10 minutes

1 lectureTotal 5 minutes

The Landscape of LLM Guardrails: Intervention Levels and Techniques5 minutes

1 évaluation par les pairsTotal 20 minutes

Hands-On-Learning: Safety Filter Implementation for SecureChat Enterprise Bot20 minutes

This module focuses on comprehensive resilience testing and systematic improvement of AI system robustness. Students learn to conduct thorough security assessments that measure LLM resistance to adversarial inputs, evaluate defense mechanism effectiveness, and identify areas for improvement. The module demonstrates how to establish baseline security metrics, implement iterative hardening processes, and validate improvements through continuous testing. Participants gain skills in developing robust AI systems that maintain integrity under real-world adversarial conditions.

Inclus

4 vidéos1 lecture1 devoir2 évaluations par les pairs

4 vidéosTotal 31 minutes

Establishing Baseline Security Metrics and Resilience Benchmarks6 minutes
Continuous Testing and Automated Vulnerability Assessment7 minutes
Systematic Security Improvement and Adaptive Hardening15 minutes
Course Wrap-Up3 minutes

1 lectureTotal 5 minutes

10 LLM Security Tools to Know in 20255 minutes

1 devoirTotal 20 minutes

Secure AI: Red-Teaming & Safety Filters20 minutes

2 évaluations par les pairsTotal 80 minutes

Hands-On-Learning: Resilience Assessment and Continuous Hardening of DataSecure AI Assistant20 minutes
Project: SecureBank AI Chatbot Security Audit & Implementation 60 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Brian Newman

Coursera

5 Cours2 146 apprenants

Offert par

Coursera

En savoir plus sur Computer Security and Networks

Coursera
Harden AI: Patch and Recover Incidents Fast
Cours
Coursera
Secure AI Model Deployments & Lifecycles
Cours
Coursera
Secure AI Interpret and Protect Models
Cours
Coursera
Detect & Respond to Mobile AI Threats
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

To access the course materials, assignments and to earn a Certificate, you will need to purchase the Certificate experience when you enroll in a course. You can try a Free Trial instead, or apply for Financial Aid. The course may offer 'Full Course, No Certificate' instead. This option lets you see all course materials, submit required assessments, and get a final grade. This also means that you will not be able to purchase a Certificate experience.

When you enroll in the course, you get access to all of the courses in the Specialization, and you earn a certificate when you complete the work. Your electronic Certificate will be added to your Accomplishments page - from there, you can print your Certificate or add it to your LinkedIn profile.

Yes. In select learning programs, you can apply for financial aid or a scholarship if you can’t afford the enrollment fee. If fin aid or scholarship is available for your learning program selection, you’ll find a link to apply on the description page.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.