Zur Blog-Übersicht
Case Study15. April 2026 · 5 Min Lesezeit

Q1-Pilot Deep-Dive. Sechs Wochen, 24.000 Mails, 1,3 Prozent.

Was im ersten leadrix-Pilot tatsächlich passiert ist. Welche Filter zogen, welche nicht. Apollo-Bounces, Subdomain-Pannen, eine DAX-100-Anfrage, die ins Leere lief — und warum die Antwortrate ein irreführender KPI ist.

Auf der /pilot-Seite stehen die Eckdaten. Hier ist der Deep-Dive: die Zahlen hinter den Zahlen, die Pannen, die kleinen Erfolge und die drei Sachen, die wir heute anders machen würden.

Wer den Pilot von außen liest — 24.000 Mails, 1,3 Prozent Antwortrate, 12 gehaltene Termine, 1.500 Euro Tool-Kosten — sieht ein sauberes Ergebnis. Wer ihn von innen führt, sieht eine Phase mit zwei Wochen, in denen wir dachten, dass es nicht funktioniert.

Vor dem Versand

Die Zielgruppe waren deutsche Metallverarbeiter mit 50 bis 500 Mitarbeitern. Region: Süddeutschland, Österreich, deutschsprachige Schweiz. Branchen-Filter: WZ 2008 25.50, 25.61, 25.62, 25.94, 28.49 — also Schmieden, Pressen, Lohnfertiger, Werkzeugbauer, kleinere Werkzeugmaschinenhersteller.

Wir haben uns drei Listen-Anbieter angeschaut: Apollo, Cognism, Hoppenstedt. Alle drei mit demselben Filter-Set angefragt. Die Ergebnisse:

  • Apollo: 8.700 Kontakte. Schnellster Export. 8 Prozent davon waren bei manueller Stichprobe Müll — falsche Standorte, US-Adressen, nicht-existierende Personen.
  • Cognism: 3.200 Kontakte. Höhere Datenqualität, weniger Volumen, deutlich teurer.
  • Hoppenstedt: 4.100 Kontakte. Beste Branchen-Codes, aber in der Personalisierung schwächer (weniger Zusatzinfo zur Person selbst).

Wir sind mit Apollo gestartet, weil Volumen für einen Pilot wichtig war. Im Nachhinein: ein Fehler. Die 8 Prozent Müll-Rate hat uns die ersten zwei Wochen Reputationsschaden gekostet, der erst durch ein Subdomain-Reset wieder weg war.

Die Apollo-Bounces

Die ersten 4.000 Mails gingen über eine einzelne Strato-Subdomain raus. vertrieb@e-findo-direkt.de. Aufgewärmt war sie nicht — wir dachten, eine etablierte Hauptdomain reicht. Sie reicht nicht.

Tag 1: 800 Mails verschickt, 31 Bounces. Erträglich.

Tag 2: 850 Mails, 73 Bounces. Bounce-Rate über 8 Prozent — kritisch.

Tag 3: 850 Mails, 142 Bounces. Bounce-Rate über 16 Prozent. Microsoft 365 hat begonnen, weitere Mails von der Subdomain in Quarantäne zu schicken.

Tag 4 haben wir den Versand gestoppt. Diagnose: Apollo hatte uns rund 600 nicht mehr existierende Adressen geliefert (Mitarbeiter ausgeschieden, Mail nicht entfernt) plus rund 200 falsche Schreibweisen. Plus die Subdomain war schlicht nicht warm.

Was wir dann gemacht haben: zwei neue Subdomains aufgesetzt, beide mit Mailwarm in zwei Wochen aufgewärmt, dazu Cognism-Daten dazugekauft (3.200 Kontakte) als Qualitäts-Anker. Erst danach ging der Versand wieder los, mit gestaffeltem Volumen über drei Subdomains.

Was nach dem Reset passierte

Mit drei Subdomains, gestaffeltem Volumen und einer bereinigten Liste lief es:

  • Versandtempo: 25 bis 50 Mails pro Stunde, gestaffelt zwischen 7:00 und 18:00 deutsche Zeit
  • Bounce-Rate: 1,8 bis 2,4 Prozent (akzeptabel)
  • Antwortrate: 1,3 Prozent insgesamt, aber stark variabel zwischen Branchen — Schmieden bei 0,7 Prozent, Werkzeugbauer bei 2,1 Prozent
  • Kalender-Bookings: 27 in den sechs Wochen, davon 18 zu echten Erstgesprächen geworden, davon 12 gehalten

Die Antwortrate ist der KPI, den wir am wenigsten ernst nehmen. Wichtiger sind zwei andere: die Reply-Quality-Rate (wie viele Antworten waren inhaltlich brauchbar — nicht nur „kein Interesse" oder „nicht zuständig") und die Show-Rate (wie viele Termine wurden tatsächlich gehalten).

Reply-Quality bei uns: 47 Prozent. Show-Rate: 67 Prozent. Beide gut. Das kommt nicht aus dem Volumen, sondern aus der Personalisierung — und der ICP-Auswahl.

Wer geantwortet hat

Spannend war nicht die durchschnittliche Antwortrate, sondern wer geantwortet hat. Drei Muster:

Familienbetriebe in zweiter oder dritter Generation, 80 bis 250 Mitarbeiter. Antworteten mit Abstand am häufigsten. Geschäftsführer waren oft selbst Inhaber, Entscheidungswege kurz, Pragmatismus hoch. Wenn der Aufhänger gut saß, kam die Antwort innerhalb von 24 Stunden.

Werksleiter in Konzern-Niederlassungen. Antworteten selten direkt, aber wenn, dann konkret. Ein Werksleiter aus Baden-Württemberg hat geschrieben: „Schicken Sie Unterlagen, wir prüfen." Kam dann nichts mehr — aber er war messbar. Diese Gruppe ist langsamer und institutionalisierter.

Geschäftsführer in DAX-100-Konzernen. Antworteten sehr selten. Aber: ein Konzern hat tatsächlich Unterlagen angefragt, Termin gebucht, dann ohne Begründung nicht mehr gemeldet. Wir haben ihn dreimal höflich nachgefasst, dann eingestellt. Solche Anfragen darf man weder überbewerten (kein Abschluss), noch unterbewerten (zumindest Marktinteresse signalisiert).

Wenn wir den Pilot heute neu fahren würden, würden wir die ersten 40 Prozent des Volumens nur auf Familienbetriebe legen. Zweite und dritte Generation, 80 bis 250 Mitarbeiter. Da passiert die Conversion. Der Rest ist Lehrgeld.

Reply-Klassifizierung

Das interessanteste technische Detail im Pilot: die automatische Reply-Klassifizierung über Claude Haiku. Wir hatten 312 Antworten zu sortieren. Manuell hätte das jemanden eine Woche gekostet. Mit Claude Haiku in fünf Kategorien (positives Interesse, neutrale Frage, „später", „nie wieder", Auto-Responder) lief das in unter zwei Stunden, mit einer Treffergenauigkeit von rund 96 Prozent bei einer manuellen Stichprobe von 60 Antworten.

Was Claude überraschend gut konnte: Sarkasmus erkennen. Eine Antwort lautete „Klar, schicken Sie mir auch noch die nächste KI-Lösung von leadrix-AI". Claude hat das korrekt als „nie wieder" eingestuft. Apollo Smart Replies hätte das vermutlich als positives Interesse klassifiziert.

Kosten der Klassifizierung über die ganze Pilot-Phase: 4 Euro 17. Das war der mit Abstand günstigste Posten im Stack.

Drei Sachen, die wir heute anders machen würden

Subdomain-Pool von Tag 1. Nicht eine Subdomain, sondern drei bis fünf, alle vorgewärmt vor dem ersten echten Versand. Hätte uns die ersten zwei Wochen Reputationsschaden erspart.

Apollo nicht für die Erstrunde. Apollo ist okay als Datenanker, aber nicht als alleinige Quelle für deutsche Mittelständler. Heute Cognism oder Dealfront als Erst-Quelle, Apollo nur, um Lücken zu füllen.

ICP-Filter enger. Wir hatten zu Beginn fünf Branchen-Codes parallel laufen. Die Antwortraten lagen zwischen 0,7 und 2,1 Prozent. Wir haben zu wenig auf die Top-Branchen optimiert und zu viel breit gefahren. Heute würden wir den Pilot mit zwei Branchen-Codes starten und erst nach 5.000 Mails die Liste verbreitern.

Was der Pilot uns gezeigt hat

Nicht „dass Cold Outbound in DACH funktioniert" — das war die Hypothese. Was er gezeigt hat:

  • Outbound funktioniert, wenn Personalisierung über KI sauber gebaut ist und der Tool-Stack DACH-tauglich ist
  • Die Reputations-Mechanik der Subdomain ist wichtiger als die Botschaft
  • Familienbetriebe in zweiter/dritter Generation sind die Conversion-Goldader im deutschen Mittelstand
  • Antwortrate ist der falsche KPI — Show-Rate und Reply-Quality sind die echten Hebel

Was er nicht gezeigt hat: Abschluss-Geschwindigkeit. Sechs Wochen reichen für Termine, nicht für Verträge. Die ersten echten Abschlüsse aus dem Pilot werden im zweiten Quartal erwartet — und die kommen aus den 12 gehaltenen Terminen, von denen aktuell vier in Folgegesprächen sind.

Der Pilot ist also kein Beweis dafür, dass leadrix Umsatz produziert. Er ist ein Beweis dafür, dass leadrix Termine produziert, die überhaupt zu Umsatz werden können. Den Rest macht der Vertrieb beim Kunden.

Genau das war auch der Plan.

Jetzt starten

Nur noch mit planbaren Neukunden sprechen.

30 Minuten Erstgespräch — kostenlos und unverbindlich. Wir zeigen Ihnen, wie der Übergabeprozess konkret für Ihr Geschäftsmodell aussehen kann.

Kostenloses Erstgespräch buchen