Ausgangslage

Kassenzettel stapeln sich im Geldbeutel, verblassen nach wenigen Wochen und landen am Ende manuell in einer Tabelle. Wer mehrere Belege pro Woche erfasst, verliert schnell den Überblick, besonders wenn Belege aus verschiedenen Ländern in unterschiedlichen Währungen hinzukommen. Die Folge: fehlerhafte Buchhaltung, fehlende Nachweise für die Steuererklärung und viel unnötige Handarbeit.

Das Ziel war ein Workflow, der den gesamten Prozess auf eine einzige Aktion reduziert: Foto aufnehmen, an den Bot schicken, fertig.


Vorgehen und Lösung

Wir haben einen n8n-Workflow gebaut, der Kassenzettel vollautomatisch vom Foto bis zur archivierten Tabellenzeile verarbeitet.

Bildempfang: Ein Telegram-Bot empfängt das Foto direkt im Chat. Der Nutzer braucht keine App, kein Login, kein Formular.

Texterkennung: Das Bild wird an einen OCR-Dienst übergeben, der speziell für schlechte Druckqualität und Thermodruck optimiert ist. Hochskalierung und Tabellenerkennungsmodus verbessern die Genauigkeit bei realen Kassenzetteln erheblich.

KI-Extraktion: Der rohe OCR-Text ist unstrukturiert und variiert je nach Händler stark. Statt fragiler Regex-Logik übernimmt ein Sprachmodell die Extraktion. Es liest den Text und liefert strukturierte Felder: Geschäft, Kategorie, Datum, Betrag, Währung und Artikelliste.

Archivierung: Das Belegfoto wird mit einem sprechenden Dateinamen in Google Drive abgelegt. Die extrahierten Daten landen als neue Zeile in Google Sheets, mit fortlaufender Belegnummer.

Bestätigung: Der Bot antwortet direkt im Telegram-Chat mit einer Zusammenfassung: Geschäft, Betrag, Kategorie und Link zur Tabelle.

Architekturübersicht:

Telegram (Foto) → n8n → OCR → KI-Extraktion → Google Drive + Google Sheets → Telegram (Bestätigung)

Tech-Stack

  • n8n als Workflow-Engine (self-hosted)
  • ocr.space für Texterkennung
  • gpt-4o-mini (via OpenRouter) für strukturierte Datenextraktion
  • Telegram Bot API als Nutzer-Schnittstelle
  • Google Sheets und Google Drive für Datenspeicherung und Archivierung

Das Ergebnis

Durch diesen Ansatz konnten wir insbesondere folgendes erreichen:

  • Kein manuelles Abtippen mehr. Jeder Beleg wird in Sekunden vollständig erfasst, ohne dass der Nutzer etwas eintippen muss.
  • Automatische Kategorisierung. Die KI ordnet jeden Beleg zuverlässig einer Ausgabenkategorie zu: Lebensmittel, Gesundheit, Transport, Restaurant und weitere.
  • Mehrsprachigkeit und Mehrwährung. Belege auf Deutsch, Englisch und Französisch werden erkannt, EUR, CHF und USD automatisch unterschieden.
  • Lückenlose Archivierung. Jedes Bild liegt mit Datum und Kategorie im Namen in Google Drive, jede Transaktion ist in Google Sheets nachvollziehbar.
  • Geringe Einstiegshürde. Telegram ist auf jedem Smartphone vorhanden. Kein separates Tool, kein Onboarding.

Fazit

Der Beleg-Bot zeigt, wie ein alltäglicher Prozess mit wenigen Bausteinen komplett automatisiert werden kann. OCR und KI ergänzen sich dabei ideal: Die Texterkennung liefert den rohen Text, das Sprachmodell macht daraus strukturierte Daten. Wer regelmäßig Belege erfasst, gewinnt damit spürbar Zeit und erhält eine saubere, jederzeit durchsuchbare Beleghistorie.


Du möchtest Geschäftsprozesse automatisieren? Schreib mir auf LinkedIn oder buche einen kostenlosen Call.