KNUT.NETWORK|v0.1 — PRE-RELEASE|

// PRIVATER LLM-CLUSTER · SELF-HOSTED

Bring Your
Own GPU.

Nutze deine vorhandene Hardware als privaten KI-Cluster. Ohne Cloud-Anbindung, ohne laufende Token-Kosten und mit voller Kontrolle darüber, wo deine Daten bleiben.

Du erhältst eine Bestätigungsmail. Kein Spam.

KNUT DASHBOARD — INFERENCE CLUSTER
[EXPAND]
KNUT Dashboard — aktiver Inference-Cluster mit Nemotron Cascade 2 30B bei 55.3 t/s
01 //

Warum lokale KI-Inference?

[01]KOSTEN / COMPLIANCE

Cloud-KI kostet — und wirft Datenschutzfragen auf

Je nach Modell und Aufgabe kosten Cloud-APIs zwischen 0,55 € und 14 € pro Million Output-Token. Bei regelmäßigem Einsatz summiert sich das. Und wohin die Daten dabei gehen, bleibt oft unklar. KNUT läuft im eigenen Netzwerk: ohne Token-Kosten, ohne externe Datenweitergabe.

[02]HARDWARE

Vorhandene Hardware als ungenutztes Potenzial

Viele Unternehmen haben bereits leistungsfähige Hardware im Haus: Gaming-GPUs, Workstations, ausgemusterte Server. Statt diese Ressourcen brachliegen zu lassen, lassen sie sich mit KNUT zu einem gemeinsamen KI-Cluster zusammenschalten. Die vorhandene Investition fängt an zu arbeiten.

[03]SKALIERUNG

Einzelne Rechner stoßen schnell an ihre Grenzen

Die meisten lokalen KI-Lösungen laufen auf einem einzelnen Rechner oder einer einzelnen GPU. Wer mehr Leistung oder Ausfallsicherheit braucht, findet kaum pragmatische Alternativen. KNUT verteilt die Last auf mehrere Nodes und wächst mit, wenn weitere Hardware dazukommt.

[04]KMU

Der Mittelstand braucht pragmatische Lösungen

Was viele Unternehmen wirklich brauchen, ist keine komplexe Cloud-Infrastruktur, sondern eine Lösung, die mit vorhandener Hardware funktioniert. Ohne monatelange Einrichtung, ohne spezialisiertes DevOps-Team. KNUT ist darauf ausgelegt, schnell produktiv zu sein.

02 //

Was kann KNUT?

KNUT verbindet mehrere Rechner zu einem gemeinsamen KI-Cluster, der sich im eigenen Netzwerk betreiben lässt. Mit OpenAI-kompatibler API, Echtzeit-Dashboard und automatischer Crash-Recovery. Das Beispiel-Cluster zeigt: Bereits mit zwei CUDA-Nodes lassen sich lokal ohne Cloud auf aktuellen 30B-Modellen wie Nemotron Cascade 2 über 50 t/s erreichen. Weitere Nodes oder Apple-Silicon-Clients können den Durchsatz weiter erhöhen.

[A]

MULTI-GPU / MULTI-NODE

ENGINEllama.cpp RPC-Backend
HARDWARENVIDIA CUDA · Apple Metal
VRAM~52 GB total (Worker)
SPEED41–53 t/s (30B MoE Q3_K_M)

NVIDIA- und Apple-Silicon-Nodes lassen sich kombinieren. Das Beispiel-Setup erreicht bereits über 50 t/s. Jeder weitere Node oder Apple-Silicon-Client kann die Performance weiter steigern.

[B]

LOKAL · DATENSOUVERÄN

NETZWERKLAN-only
KOSTEN$0 / 1M Token
KONTEXTbis 65 536 Token / Slot
SLOTS2 parallele Anfragen

Ohne Rate Limits, ohne externe Datenzugriffe. Du entscheidest, welche Modelle laufen und wie sie konfiguriert sind. Die Daten verlassen das eigene Netzwerk nicht.

[C]

OPENAI-KOMPATIBEL

CHAT/v1/chat/completions
MODELS/v1/models
EMBED/v1/embeddings
CLIENTSn8n · LangChain · Zed · Open WebUI

KNUT verhält sich wie die OpenAI-API. Bestehende Integrationen lassen sich in der Regel ohne Code-Änderungen übernehmen.

KNUT — CHAT INTERFACE
[EXPAND]
KNUT — integriertes Chat-Interface mit aktivem Modell
03 //

Für wen ist KNUT gedacht?

[01]AUTOMATION

n8n · LangChain · Workflows

Du baust n8n- oder LangChain-Workflows und möchtest Token-Kosten reduzieren, oder einfach ohne API-Limits arbeiten können.

[02]HARDWARE

2+ NVIDIA-GPUs oder Apple Silicon

Du hast NVIDIA-GPUs oder Apple-Silicon-Geräte im Einsatz und möchtest mehr daraus machen, als sie brachliegen zu lassen.

[03]KMU

Compliance · DSGVO · Kontrolle

Dein Unternehmen möchte KI-Unterstützung nutzen, aber Compliance-Anforderungen oder Datenschutzrichtlinien machen Cloud-Dienste schwierig.

04 //

Überall verfügbar: vom Smartphone bis zum Desktop.

Das KNUT-Dashboard passt sich an jede Bildschirmgröße an, ob du den Cluster-Status kurz auf dem Smartphone prüfst oder das vollständige System-Monitoring am Desktop nutzt.

MOBILEKompakte Ansicht · Touch-optimiert
TABLETErweiterte Panels · Split-View
DESKTOPVollständiges Dashboard · Multi-Column

Eine separate App wird nicht benötigt. Das Web-UI läuft direkt im Browser, lokal im LAN erreichbar. Kein App-Store, keine externen Abhängigkeiten.

KNUT MOBILE — DASHBOARD
[EXPAND]
KNUT Mobile — Dashboard-Ansicht auf dem Smartphone
KNUT MOBILE — CLUSTER STATUS
[EXPAND]
KNUT Mobile — Cluster-Status auf dem Smartphone
05 //

Technische Grundlage

// Gemessene Werte aus dem laufenden Beispiel-Cluster. Mehr Nodes und Apple-Silicon-Clients können Durchsatz und verfügbaren VRAM weiter erhöhen.

$knut --spec-list
BASISllama.cpp mit RPC-Backend
MODELLENemotron-Cascade-2 · Qwen3.5 · Gemma 4 · Llama (GGUF)
HARDWARENVIDIA CUDA · Apple Silicon (Metal) · CPU-Fallback
API/v1/chat/completions · /v1/models · /v1/embeddings · /v1/responses
KONTEXTbis 65 536 Token pro Slot, 2 parallele Slots
PROXYCaddy mit Auto-HTTPS
OSDebian 13 CUDA · macOS 26 Metal
MONITORINGVRAM · RAM · CPU · GPU-Temp · t/s (Echtzeit-Sparklines)
RECOVERYAuto-Retry bei Crash, bis zu 3 Versuche
LIZENZBusiness Source License 1.1
KNUT DASHBOARD — SYSTEM LOGS
[EXPAND]
KNUT Dashboard — Echtzeit-Logs und System-Monitoring
06 //

Dabei sein, wenn KNUT startet.

Du bekommst frühen Zugang zur Beta, Hilfe beim Einrichten und Updates nur dann, wenn es wirklich etwas Neues gibt.
Kein Rauschen, kein Spam.

Du erhältst eine Bestätigungsmail. Kein Spam.