Am 14. Mai 2026 hat BrowserAct zwei Open-Source-Skills veröffentlicht, die KI-Agenten erstmals zuverlässigen Zugang zum Live-Web geben. Für Schweizer KMU, die KI-Agenten für Geschäftsprozesse einsetzen wollen, ist das relevant: Die grössten technischen Hürden — Bot-Erkennung, Token-Verschwendung und brüchige Website-Automatisierung — wurden gelöst.
90 %
Weniger Fehler-Schleifen
93 %
Token-Reduktion
95 %
Agent-Anteil, 5 % Mensch
Warum Browser-Agenten bisher an drei Wänden scheiterten
KI-Modelle können mittlerweile erstaunlich gut denken. Das Handeln — konkret: das Steuern eines Browsers — bleibt das Problem. BrowserAct identifiziert drei systematische Hürden:
Wand 1: Websites erkennen Agenten. Bot-Detection-Services wie Cloudflare, DataDome und hCaptcha schützen über 40 % der Top-10’000-Websites. Die meisten Automatisierungs-Tools sind reguläre Browser mit dünner Tarnung — und der Türsteher durchschaut das beim ersten Versuch (Quelle: BrowserAct, 14. Mai 2026).
Wand 2: Webseiten sind zu komplex für LLMs. Der Rohcode einer einzigen Seite kann Tausende Tokens belegen. Das verbrennt Modell-Budget und führt zu Halluzinationen.
Wand 3: Jede neue Website bedeutet Code neu schreiben. Was ein Agent über eine Website lernt, kann nicht gespeichert oder geteilt werden — und bricht beim nächsten Redesign zusammen.
Was browser-act und browser-act-skill-forge lösen
BrowserAct hat am 14. Mai 2026 zwei Skills auf GitHub veröffentlicht, die diese drei Wände abbauen.
Skill 1: browser-act — ein Browser, der für Agenten gebaut wurde
Die meisten Tools nehmen Puppeteer oder Playwright und fügen Stealth-Plugins hinzu. BrowserAct ging den umgekehrten Weg: eigene Browser-Engine mit drei Isolations-Ebenen:
| Ebene | Was es macht | Warum das wichtig ist |
|---|---|---|
| Fingerprint | Randomisierte Canvas, WebGL, Audio | Websites können Headless-Modus nicht erkennen |
| Netzwerk | Jede Session hinter eigener Residential IP | Keine IP-basierten Sperren |
| Session | Vollständig isolierte Identität | Zwei Runs sind nicht korrelierbar |
CAPTCHA-Lösung (hCaptcha, reCAPTCHA, Turnstile), Fingerprint-Isolation und Stealth-Browsing sind kostenlos und Open Source.
Das Besondere: Human-in-the-Loop-Übergabe. Wenn ein Agent an einer komplexen 2FA-Prüfung scheitert, kann er die Session an einen Menschen übergeben — derselbe Browser, derselbe Fingerprint. Der Mensch löst den einen Schritt, gibt die Kontrolle zurück. Die Zielwebsite sieht keinen Wechsel (Quelle: BrowserAct GitHub, 14. Mai 2026).
Praxis-Beispiel: Versicherungs-KMU in Zürich
Ein Schweizer Versicherungs-Broker nutzt einen Agenten, um täglich Tarife von 12 Anbietern zu vergleichen. Bei einem Anbieter ist 2FA aktiv. Der Agent füllt 95 % des Formulars aus, pausiert bei der 2FA-SMS, ein Mitarbeiter bestätigt den Code, der Agent holt die Tarif-Tabelle — ohne die Session neu zu starten.
Skill 2: browser-act-skill-forge — ein Agent, der sich selbst Werkzeuge baut
Das ambitioniertere der beiden Releases. Das Problem: Wenn ein Agent auf eine Website trifft, die niemand vorher automatisiert hat, fällt die Arbeit zurück auf einen Menschen.
Skill Forge löst das. Beim ersten Besuch exploriert der Agent die Struktur, findet Muster (API-Endpunkte, DOM-Logik), packt das in einen wiederverwendbaren Skill und installiert ihn lokal. Jeder spätere Besuch: Der Agent ruft einfach den installierten Skill auf. Der Slogan: Explore once, reuse forever (Quelle: BrowserAct, 14. Mai 2026).
Skill Forge ist absichtlich eingeschränkt: Es kann nur tun, was der Nutzer manuell in seinem eigenen Browser tun könnte. Es liest Daten, die bereits auf der Seite angezeigt werden. Es umgeht keine Authentifizierung. Das macht die generierten Skills deployable in regulierten Branchen — Banken, Versicherungen, Gesundheitswesen.
Wie Schweizer KMU BrowserAct heute einsetzen können
Marktforschung: Ein Zürcher E-Commerce-Startup mit 8 Mitarbeitenden vergleicht täglich Preise von 20 Konkurrenten. Bisher: manuelle Stichproben, 2 Stunden pro Woche. Mit BrowserAct: Agent läuft täglich um 06:00, füllt eine Google-Sheet-Tabelle. Zeitersparnis: 8 Stunden pro Monat, Datenqualität steigt von 30 % auf 95 %.
Formular-Automatisierung: Ein Berner Immobilienbüro muss jede Wohnung auf 6 Portalen inserieren. Bisher: 45 Minuten pro Inserat, Fehlerquote 12 %. Mit BrowserAct: Agent füllt alle 6 Formulare parallel. Zeitersparnis: 35 Minuten pro Inserat, Fehlerquote unter 2 %.
Daten-Konsolidierung: Eine Basler Marketing-Agentur trackt Kampagnen über 4 Plattformen (Google Ads, Meta, LinkedIn, TikTok). Bisher: manuelle Exports, 3 Stunden pro Woche. Mit BrowserAct: Agent holt täglich Metriken, schreibt sie in ein Dashboard. Zeitersparnis: 12 Stunden pro Monat.
Integration mit Claude Code, Cursor und Codex
BrowserAct liefert fertige Integrationen für die drei meistgenutzten KI-Coding-Assistenten:
Claude Code: Über claude mcp add --transport http <url> können Entwickler BrowserAct als MCP-Server registrieren. Claude Code kann dann direkt Browser-Tasks delegieren (Quelle: BrowserAct GitHub, 14. Mai 2026).
Cursor und Codex: Beide unterstützen Custom-Tool-APIs. Ein Entwickler kann browser-act als Custom Function registrieren und innerhalb eines Coding-Workflows aufrufen.
Die Integration läuft typischerweise in unter 10 Minuten.
Kosten und ROI für Schweizer KMU
BrowserAct selbst ist kostenlos (Open Source). Die Kosten entstehen durch LLM-API-Calls:
| Workflow-Typ | Tokens pro Run | Kosten pro Run | Monatlich (täglich) |
|---|---|---|---|
| Einfache Formular-Automatisierung | 2’000–5’000 | CHF 0.10–0.25 | CHF 3.00–7.50 |
| Mittlere Recherche (5–10 Seiten) | 10’000–20’000 | CHF 0.50–1.00 | CHF 15.00–30.00 |
| Komplexer Multi-Site-Workflow | 30’000–60’000 | CHF 1.50–3.00 | CHF 45.00–90.00 |
Rechenbeispiel für ein Zürcher Marketing-KMU mit 10 Mitarbeitenden:
- Vorher: 12 Stunden manueller Datenexport à CHF 85/Stunde = CHF 1’020
- Nachher: BrowserAct-Agent, Kosten CHF 60/Monat (LLM-Calls) + 2 Stunden Setup
- Einsparung: CHF 960/Monat, ROI nach 3 Wochen
Unsere Einschätzung
BrowserAct ist das erste produktionsreife Open-Source-Tool für Browser-Agenten, das die drei grössten Hürden — Bot-Erkennung, Token-Effizienz, Wiederverwendbarkeit — sauber löst. Für Schweizer KMU mit wiederkehrenden Web-Workflows lohnt sich ein Pilot ab Juni 2026.
Wie BrowserAct mit WebMCP und MCP zusammenspielt
Drei Standards, die sich ergänzen:
Model Context Protocol (MCP): Das allgemeine Protokoll, mit dem KI-Assistenten auf externe Tools zugreifen. MCP definiert, wie ein Agent “Ich brauche ein Werkzeug” sagt.
WebMCP: Der Browser-spezifische Standard (Google I/O, 19. Mai 2026), der Websites erlaubt, strukturierte Tools für Agenten zu exponieren.
BrowserAct: Das Werkzeug selbst — der Browser, den Agenten steuern können. BrowserAct ist MCP-kompatibel und kann WebMCP-fähige Websites effizienter bedienen.
Ein typischer Stack für Schweizer KMU 2026:
- Claude oder GPT-4o als Reasoning-Schicht
- MCP als Kommunikations-Protokoll
- BrowserAct als Browser-Execution-Layer
- WebMCP-fähige Websites als Ziele
Nächste Schritte für Schweizer KMU
Woche 1–2: Audit
Listen Sie drei wiederkehrende Web-Workflows auf, bei denen Mitarbeitende klagen “Das ist stumpfe Klickarbeit”. Typische Kandidaten: Preisvergleiche, Formular-Duplikate, Datenexporte aus SaaS-Tools ohne API.
Woche 3: Setup
Klonen Sie das BrowserAct-Repository, installieren Sie Dependencies, registrieren Sie einen API-Key, und lassen Sie den Agent einen Test-Workflow durchlaufen. Zeitaufwand: 2–4 Stunden.
Woche 4: Pilot
Wählen Sie den Workflow mit der höchsten Wiederholungsfrequenz, bauen Sie einen Skill mit Skill Forge, und lassen Sie ihn eine Woche laufen. Messen Sie: Zeitersparnis, Fehlerquote, LLM-Kosten.
Falls Ihr Team keine Entwickler-Ressourcen hat: KI-Agenten für Schweizer KMU — wir setzen BrowserAct-basierte Workflows auf, testen sie zwei Wochen, und übergeben ein fertiges System.
Technische Limitationen und offene Fragen
Rechtliche Grauzone bei Terms of Service: BrowserAct macht es technisch möglich, Websites zu automatisieren. Ob das rechtlich erlaubt ist, hängt von den Nutzungsbedingungen ab. Der Fall Perplexity Comet vs. Amazon (April 2026) zeigte: Ein Agent, der im Auftrag des Nutzers handelt, überschreibt nicht automatisch die Terms of Service. Urteil des Ninth Circuit Court steht noch aus (Anhörung: 15. Mai 2026) (Quelle: nohacks.co, 1. Mai 2026).
Faustregel: Automatisierung eigener Accounts (Google Ads, Meta Business Suite) ist OK. Automatisierung öffentlicher Websites (Wettbewerbspreise scrapen) kann gegen ToS verstossen.
Anti-Bot-Detection entwickelt sich weiter: BrowserAct löst heute 90 % der Bot-Detection-Fälle. Die restlichen 10 % — hochspezialisierte Fingerprinting-Techniken — werden weiterentwickelt.
Token-Kosten bei skalierten Workflows: Ein Agent, der 200 Websites täglich besucht, kann CHF 300–600/Monat an LLM-Kosten verursachen. Das ist immer noch günstiger als menschliche Arbeit (8 Stunden à CHF 85 = CHF 680), aber nicht vernachlässigbar.
BrowserAct ist der erste produktionsreife Open-Source-Browser für KI-Agenten. Für Schweizer KMU, die repetitive Web-Workflows automatisieren wollen, ist der Zeitpunkt jetzt.