llm-jailbreaks

Here are 17 public repositories matching this topic...

msoedov / agentic_security

Agentic LLM Vulnerability Scanner / AI red teaming kit 🧪

agent-framework ai-red-team prompt-testing llm-security llm-vulnerabilities llm-evaluation llm-fuzzing llm-evaluation-framework llm-guardrails llm-scanner llm-jailbreaks llm-fuzzer llm-fuzzer-aggregator agent-security

Updated Feb 3, 2026
Python

CryptoAILab / JailbreakEval

Star

[NDSS'25 Best Technical Poster] A collection of automated evaluators for assessing jailbreak attempts.

llm-safety llm-jailbreaks

Updated Apr 1, 2025
Python

BirdsAreFlyingCameras / GPT-5_Jailbreak_PoC

Star

A working POC of a GPT-5 jailbreak via PROMISQROUTE (Prompt-based Router Open-Mode Manipulation) with a barebones C2 server & agent generation demo.

proof-of-concept jailbreak malware poc working chatgpt gpt-5 chatgpt-jailbreak gpt5 malware-generation llm-jailbreaks gpt5-jailbreak gpt5-jailbreak-working llm-malware-generation

Updated Sep 21, 2025
C

whitecircle-ai / circle-guard-bench

Star

First-of-its-kind AI benchmark for evaluating the protection capabilities of large language model (LLM) guard systems (guardrails and safeguards)

benchmarking benchmark ai jailbreak safeguard guardrail guardrails large-language-models llm large-language-model llm-security llm-eval llm-evaluation llm-as-a-judge llm-jailbreaks

Updated Mar 7, 2026
Python

TrustAI-laboratory / LMAP

Star

LMAP (large language model mapper) is like NMAP for LLM, is an LLM Vulnerability Scanner and Zero-day Vulnerability Fuzzer.

ai security-scanner vulnerability-scanner infosectools llm llms ai-red-team llm-security llm-vulnerabilities llm-fuzzing llm-guardrails owasp-llm-top-10 llm-scanner llm-jailbreaks llm-fuzzer llm-fuzzer-aggregator

Updated Oct 16, 2024

UCSB-NLP-Chang / SemanticSmooth

Star

Implementation of paper 'Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing'

large-language-models llm-jailbreaks

Updated Jun 9, 2024
Python

yiksiu-chan / SpeakEasy

Star

[ICML 2025] Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

machine-learning ai-safety large-language-models llm-jailbreaks

Updated Mar 7, 2026
Python

SandyyyZheng / JailbreakSystem

Star

Jailbreak Evaluation Framework -- 2025 Graduate Design for HFUT

python vue graduate-project llm-jailbreaks

Updated May 12, 2025
Vue

RafaelParonis / jailbench

Star

🔍 Benchmark jailbreak resilience in LLMs with JailBench for clear insights and improved model defenses against jailbreak attempts.

python flask analytics openai alignment model-evaluation ai-safety security-testing red-teaming model-robustness anthropic litellm content-safety llm-jailbreaks tool-calling llm-benchmark ai-evals textual-tui

Updated Mar 17, 2026
Python

4n4s4zi / llm-jailbreaking

Star

Chain-of-thought hijacking via template token injection for LLM censorship bypass (GPT-OSS)

llm-jailbreaks gpt-oss

Updated Sep 27, 2025
Python

vibheksoni / jailbench

Star

Benchmark LLM jailbreak resilience across providers with standardized tests, adversarial mode, rich analytics, and a clean Web UI.

Updated Aug 12, 2025
Python

zakky8 / llm-jailbreak-taxonomy

Star

Systematic LLM jailbreak taxonomy — 40 attack patterns, 10 categories, empirical evaluation across 4 frontier models. AI safety research with responsible disclosure.

taxonomy jailbreak alignment ai-safety security-testing responsible-disclosure jailbreak-detection adversarial-attacks red-teaming ai-security model-robustness adversarial-ml prompt-injection red-teaming-tools llm-security llm-evaluation llm-jailbreaks ai-red-teaming adversarial-testing

Updated Mar 15, 2026
Jupyter Notebook

JackLi0711 / 2025Fall-ADL-FinalChallenge

Star

LLM Jailbreaking via Prompt Rewriting

zero-shot few-shot prompt-engineering qlora llm-jailbreaks

Updated Mar 10, 2026
Python

Mr-Dark-debug / RetardBench

Star

RetardBench is an open, no-censorship benchmark that ranks large language models purely on how retarded they are.

jailbreak large-language-models llm prompt-injection red-teaming-tools ollama llm-evaluation uncensored-llm open-llm-leaderboard llm-jailbreaks prompt-injection-llm-security ai-benchmark ai-red-teaming llm-benchmark

Updated Mar 2, 2026
TypeScript

Sampriti2803 / THG_CTF

Star

PESU I/O The Hacker's Gauntlet 24-hours CTF

github docker cryptography pcap forensics web-security ctf-challenges begginer-friendly llm-jailbreaks

Updated Nov 29, 2025

lorenzomaiuri-dev / svalinn-ai

Star

The Self-Hosted AI Firewall & Gateway. Drop-in guardrails for LLMs running entirely on CPU. Blocks jailbreaks, enforces policies, and ensures compliance in real-time

Updated Jan 6, 2026
Python

1lmao / TAP-Tree-of-Attacks-with-Pruning

Star

Debugged version for Tree of Attacks: Jailbreaking Black-Box LLMs Automatically paper and added GPU optimization.

llm-jailbreaks

Updated Jan 9, 2026
Python

Improve this page

Add a description, image, and links to the llm-jailbreaks topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the llm-jailbreaks topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llm-jailbreaks

Here are 17 public repositories matching this topic...

msoedov / agentic_security

CryptoAILab / JailbreakEval

BirdsAreFlyingCameras / GPT-5_Jailbreak_PoC

whitecircle-ai / circle-guard-bench

TrustAI-laboratory / LMAP

UCSB-NLP-Chang / SemanticSmooth

yiksiu-chan / SpeakEasy

SandyyyZheng / JailbreakSystem

RafaelParonis / jailbench

4n4s4zi / llm-jailbreaking

vibheksoni / jailbench

zakky8 / llm-jailbreak-taxonomy

JackLi0711 / 2025Fall-ADL-FinalChallenge

Mr-Dark-debug / RetardBench

Sampriti2803 / THG_CTF

lorenzomaiuri-dev / svalinn-ai

1lmao / TAP-Tree-of-Attacks-with-Pruning

Improve this page

Add this topic to your repo