Agentenbasierte KI-Tests: Warum Teams die Zeit ausgeht und wie man Abhilfe schafft

Es gibt ein Muster, das Ingenieurteams in ganz Europa gut kennen – sei es beim Bau von internen Plattformen, kundenorientierten Produkten oder kritischen Unternehmenssystemen.

Der Sprint beginnt mit guten Vorsätzen. Die Anforderungen sind klar. Die Entwicklung beginnt pünktlich. Mitten im Zyklus verschiebt sich etwas: Eine Abhängigkeit dauert länger als erwartet, eine Integration verhält sich im Staging anders, eine Umfangsänderung kommt am Donnerstag. Jede dieser Änderungen ist einzeln zu bewältigen. Zusammen leisten sie etwas Vorhersehbares für den Zeitplan des Sprints.

Von dort trifft das Team Triage-Entscheidungen.

Bis zum Ende des Zyklus verbleiben zwei Tage für eine für fünf geplante QA-Phase. Das Team trifft Triage-Entscheidungen: Testen der kritischen Pfade, Markieren der Randfälle für den nächsten Sprint, Auslieferung mit der Gewissheit, dass die Dinge wahrscheinlich in Ordnung sind.

Dies ist keine Geschichte über unvorsichtige Ingenieure. Es ist eine Geschichte über Struktur. Das Testen hat so lange am Ende des Softwareentwicklungsprozesses gelebt, dass es die Rolle des Druckventils übernommen hat – die Phase, die nachgibt, wenn alles andere überläuft.

Dies ist das Kernproblem, das agentisches KI-Testing lösen soll.

Die versteckten Kosten des späten Testens

Wenn Tests nur am Ende stattfinden, bestraft die Ökonomie leise.

Je später ein Fehler entdeckt wird, desto teurer ist seine Behebung. Ein Fehler, der während der aktiven Entwicklung entdeckt wird, kann 20 Minuten zur Behebung benötigen. Derselbe Fehler, der gefunden wird, nachdem die Funktion bereits in Staging oder Produktion bereitgestellt wurde, kann einen Hotfix-Deployment, einen Regressionszyklus, eine Incident-Dokumentation und eine kundenorientierte Kommunikation erfordern. Aus einem 20-Minuten-Problem wird ein Zwei-Tage-Problem.

Aber es gibt eine zweite Kostenstelle, die noch schwerer zu erkennen ist: die Tests, die gar nicht erst geschrieben werden. Wenn die Testzeit verkürzt wird, werden kritische Pfade abgedeckt, und Randfälle werden aufgeschoben. Regressionstests bleiben spärlich. Infolgedessen sagen sich die Ingenieure, dass sie zurückkommen und die Lücken füllen werden, und unter dem gleichen strukturellen Druck im folgenden Sprint tun sie das nicht.

Es gibt auch eine dritte Kostenart – eine, die in regulierten Branchen immer schwerer zu ignorieren ist. Aufsichtsbehörden im Rahmen von Vorschriften wie DORA, Solvency II und PSD2 verlangen jetzt Nachweisketten, keine Screenshots. Qualität ist zunehmend ein Auditthema.

Dies ist Qualitätsschulden. Unsichtbar in einem Budget, der sich im Laufe der Zeit anhäuft und im ungünstigsten Moment auftaucht.

Warum es immer schwierig war, den "Shift Left" in die Praxis umzusetzen

Das Konzept des “Shifting Left” im Softwaretesting gibt es seit mehr als einem Jahrzehnt. Die Idee ist richtig: Testen Sie früher im Entwicklungszyklus, damit Qualität von Anfang an eingebaut wird und nicht erst am Ende geprüft wird.

Das Problem ist, dass Linksverschiebungen Dinge erfordern, die unter realen Bedingungen strukturell schwer aufrechtzuerhalten sind.

Sinnvolle Tests frühzeitig zu schreiben, erfordert Zeit, die Entwickler während der aktiven Feature-Arbeit nicht haben. Es erfordert anfängliche Klarheit über das erwartete Verhalten, die oft zu Beginn eines Sprints nicht vorhanden ist. Es erfordert eine enge Zusammenarbeit zwischen Entwicklern und QA, die in einem Methodikdokument leicht vorgeschrieben und unter Deadlinedruck beider Seiten äußerst schwierig aufrechtzuerhalten ist.

Und dann gibt es das Wartungsproblem:

60–70% der QA-Aufwand für die Wartung bestehender Tests – nicht für das Schreiben neuer Tests

CI/CD liefert schneller Die QA-Kapazität skaliert nicht im gleichen Tempo.

Allgemeine KI ≠ QA KI Codierungsassistenten generieren Code. Sie besitzen nicht die Testsuite.

Die meisten Ingenieurteams glauben an "Shift Left". Die meisten testen aber immer noch am Ende — nicht, weil sie es nicht besser wissen, sondern weil die Werkzeuge für agiles KI-Testing nie ganz darauf abgestimmt waren, die Alternative nachhaltig zu gestalten.

Was Agentenbasiertes KI-Testing tatsächlich verändert

Werkzeuge, die priorisieren, welche Tests in einem CI-Zyklus ausgeführt werden, flackernde Tests erkennen und Fehlermuster analysieren, sind echte Verbesserungen – sie ändern aber nichts an der Struktur. Sie machen das Testen am Ende des Prozesses effizienter. Sie verlagern es nicht.

Was die Struktur verändert, ist Agentische KI — KI, die Anforderungen liest, Tests generiert, diese ausführt, Ergebnisse bewertet und die Suite kontinuierlich pflegt. Nicht als separate nachgelagerte Aktivität.

Die qualigentische agentische Schleife

Lesen

Anforderungen

Jira · ALM · Confluence · Spezifikationen

Grund

Strategie

Deckungslücken · Risikogewichtung

Lauf

Ausführen

Multi-Framework · CI/CD-Integration

Überprüfen

Analyse

Signal von Rauschen trennen

Reparatur

Beibehalten

Selbstwartung · Abdeckungssteigerung

Schleifen bei jeder Änderung. Menschen genehmigen, eskalieren und überschreiben bei jedem Schritt.

Drei Dinge, die sich in der Praxis ändern

Wenn agentielle KI in die Testgleichung eintritt, geschehen drei strukturelle Veränderungen, die für das Team in jedem Sprint relevant sind.

Es entfällt die Autorkosten.

Wenn ein agentisches System eine funktionierende Testsuite aus Anforderungen und Code-Kontext generiert, verlagert sich die Arbeit von der Erstellung zur Überprüfung. Urteilsvermögen des Ingenieurs ist nach wie vor der entscheidende Faktor – ausgedrückt durch Überprüfung anstatt aus einer leeren Datei.

Es reduziert den Wartungsaufwand

Agenten, die erkennen, wann Codeänderungen bestehende Tests ungültig machen und diese entsprechend refaktorieren, verändern die Spielregeln. Die implizite Steuer für das Schreiben umfassender Tests – das Wissen, dass man Zeit für deren Wartung aufwenden wird – sinkt erheblich.

Es macht Lücken während der Entwicklung sichtbar

Anstatt während einer Vorabprüfung festzustellen, dass einem kritischen Pfad die Abdeckung fehlt, erkennen Teams Lücken bereits während der Codierung. Jeder Schritt wird protokolliert, signiert und ist abrufbar. Frühere Transparenz bedeutet frühere Möglichkeiten.

Agiles KI-Testing in der Praxis: Qualigentic

Qualigentic, entwickelt von Caixa Mágica Software, ist eine agentische KI-Plattform, die speziell für die QA-Funktion entwickelt wurde – kein Codierungsassistent, kein reines Cloud-Testing-Tool, sondern ein System, das die gesamte Qualitäts-Schleife von den Anforderungen bis zu den archivierten Nachweisen verwaltet.

Die Ausgabe passt zu den Frameworks, die Teams bereits verwenden — Erstellung von produktionsreifen Skripten für Selenium, Cypress, Playwright und Robot Framework, ohne proprietäre Laufzeitabhängigkeit, und Integration in bestehende CI/CD-Pipelines: GitHub, GitLab, Azure DevOps, Jenkins, Bitbucket Pipelines.

Für regulierte Branchen ist die Audit-Kette integriert, nicht nachträglich angebracht

Audit-Nachweis-Kette – entwickelt für DORA, Solvency II, PSD2

Anforderung

Jira/ALM-ID, Version, Eigentümer

›

Testgenerierung

Skript + Hash, Modell + Aufforderung

›

Ausführung

Zeitstempel, Umgebung, Betreiber

›

Ergebnis

Bestanden/nicht bestanden, Protokolle, Spuren

›

Archiv

Unterzeichnet, Bindung, auf Abruf

Entworfen gegen DORA Artikel 6 & 9, Solvency II Säule 2, und PSD2 Artikel 95. Ihre regulatorisch relevanten Nachweise sind nur eine Abfrage entfernt.

Qualigentic wird auch dort eingesetzt, wo regulierte Daten gespeichert werden müssen:

On-Premise

Ihr Rechenzentrum

Open-Source-Modelle zum Selbsthosten (Llama, Mistral)
PEFT / LoRA-Feinabstimmung innerhalb des Kundenumfangs
Kein Datenausgang unter irgendeiner Bedingung
Audit Chain auf Kundenspeicher

Private Cloud

Dein Mieter

Azure AI Foundry, AWS, GCP — kundeneigen
Bring-your-own-Modell und Schlüssel
Regionsperre (EU, US, JP)

SaaS

Caixa Mágica verwaltete

Verwaltet in der EU, schnellste Zeit bis zur Wertschöpfung
SOC 2-konforme Steuerungen, signierte Nachweiskette
Anthropic / OpenAI / Azure OpenAI auswählbar

Das Tiering erfolgt nach Fähigkeit, nicht nach Implementierung. Regulierte Kunden können vom ersten Tag an On-Premise starten.

Generische KI gegen Qualigentic

Generische KI ist ein Produktivitätswerkzeug für einzelne Ingenieure. Qualigentic ist eine Plattform für die QA-Funktion.

Fähigkeit	Generische KI-Assistenten	Qualigentic
Testcode aus Anforderungen generieren	Nur Vorschlag	✓ Produktionsbereit
Tests ausführen, nicht nur schreiben	Nein	✓
Die Suite autonom instand halten	Nein	✓
Multi-Framework-Ausgabe (Selenium, Cypress, Playwright, Robot)	Teilweise	✓
Anforderung → Test → Ausführung → Archiv Kette	Nein	✓
Datensouveränität / On-Premise-Option	Nur Cloud	✓ Lokal verfügbar
DORA / Solvency II / PSD2 Audit-Nachweise	Nein	✓

ChatGPT, Claude direct, GitHub Copilot, Gemini Code Assist schlagen Code vor. Sie besitzen nicht die QA-Funktion.

Was das Team anders erlebt

Wenn die Prüfung tatsächlich nach links verschiebt – nicht als politische Bestrebung, sondern als gelebte Workflow-Realität – summieren sich die Effekte auf eine Weise, die sich im Laufe der Zeit verstärkt.

Code-Reviews beinhalten standardmäßig Testabdeckung.

Die Frage "wurde das getestet?" hört auf, am Ende eines Bewertungszyklus aufzutauchen und erhält eine automatische Antwort.

Entwickler erstellen mit höherem Grundvertrauen.

Regressionen, die früher im Staging oder schlimmer noch in der Produktion auftraten, werden während der Entwicklung erkannt. Die Montagmorgen-Vorfallüberprüfung wird seltener.

QA-Ingenieure verlagern sich hin zu höherwertiger Arbeit.

Weniger Zeitaufwand für die Wartung des 60–70%, mehr Zeit für explorative Tests und Integrationstests, die menschliches Urteilsvermögen erfordern.

Audit-Vorbereitung verdichtet sich drastisch.

Für regulierte Teams ist die Beweiskette bereits aufgebaut – nur eine Abfrage entfernt, nicht ein zweiwöchiges Projekt, bevor der Prüfer eintrifft.

Der Sprint verliert sein strukturelles Ungleichgewicht.

Wenn Tests über die Entwicklung verteilt werden, anstatt sich am Ende zu konzentrieren, trägt keine einzelne Phase das volle Gewicht des angesammelten Zeitdrucks.

Das Ingenieurteam, das mit Vertrauen liefert

Es gibt eine Version jedes Ingenieurteams, die zuverlässig liefert – nicht, weil sie mehr Leute haben oder länger arbeiten, sondern weil Qualität früh genug integriert wird, dass sie sich nicht als separate Verpflichtung ansammelt.

Agentisches KI-Testen ist der direkteste Weg, um diesen Zustand zu erreichen. Nicht, weil es die Notwendigkeit von Engineering-Disziplin beseitigt – es beseitigt die Reibungsverluste, die diese Disziplin schon immer schwierig in großem Maßstab aufrechtzuerhalten machten: den Zeitaufwand für die Erstellung von Tests, den Wartungsaufwand, die Abdeckungslücken, die erst sichtbar werden, nachdem sie Probleme verursacht haben, und die Prüfungsnachweise, die nachträglich zusammengestellt werden müssen.

Qualigentic wurde entwickelt, um diese Umstellung in realen Entwicklungsworkflows zu ermöglichen – und in regulierten Umgebungen, in denen die Einsätze am höchsten sind.