KNUT.NETWORK|v0.1 — PRE-RELEASE|BEISPIEL-CLUSTER · NODES: 4 · VRAM: ~52 GB · ~54 T/S

// PRIVATER LLM-CLUSTER · SELF-HOSTED

Bring Your
Own GPU.

Nutze deine vorhandene Hardware als privaten KI-Cluster. Ohne Cloud-Anbindung, ohne laufende Token-Kosten und mit voller Kontrolle darüber, wo deine Daten bleiben.

CLUSTER_STATUSRUNNING

// Beispiel-Setup mit Consumer-Hardware — weitere Nodes
// und Apple-Silicon-Clients können die Performance weiter steigern.

KNUT DASHBOARD — INFERENCE CLUSTER

[EXPAND]

KNUT Dashboard — aktiver Inference-Cluster mit Nemotron Cascade 2 30B bei 55.3 t/s

01 //

Warum lokale KI-Inference?

[01]KOSTEN / COMPLIANCE

Cloud-KI kostet — und wirft Datenschutzfragen auf

Je nach Modell und Aufgabe kosten Cloud-APIs zwischen 0,55 € und 14 € pro Million Output-Token. Bei regelmäßigem Einsatz summiert sich das. Und wohin die Daten dabei gehen, bleibt oft unklar. KNUT läuft im eigenen Netzwerk: ohne Token-Kosten, ohne externe Datenweitergabe.

[02]HARDWARE

Vorhandene Hardware als ungenutztes Potenzial

Viele Unternehmen haben bereits leistungsfähige Hardware im Haus: Gaming-GPUs, Workstations, ausgemusterte Server. Statt diese Ressourcen brachliegen zu lassen, lassen sie sich mit KNUT zu einem gemeinsamen KI-Cluster zusammenschalten. Die vorhandene Investition fängt an zu arbeiten.

[03]SKALIERUNG

Einzelne Rechner stoßen schnell an ihre Grenzen

Die meisten lokalen KI-Lösungen laufen auf einem einzelnen Rechner oder einer einzelnen GPU. Wer mehr Leistung oder Ausfallsicherheit braucht, findet kaum pragmatische Alternativen. KNUT verteilt die Last auf mehrere Nodes und wächst mit, wenn weitere Hardware dazukommt.

[04]KMU

Der Mittelstand braucht pragmatische Lösungen

Was viele Unternehmen wirklich brauchen, ist keine komplexe Cloud-Infrastruktur, sondern eine Lösung, die mit vorhandener Hardware funktioniert. Ohne monatelange Einrichtung, ohne spezialisiertes DevOps-Team. KNUT ist darauf ausgelegt, schnell produktiv zu sein.

02 //

Was kann KNUT?

KNUT verbindet mehrere Rechner zu einem gemeinsamen KI-Cluster, der sich im eigenen Netzwerk betreiben lässt. Mit OpenAI-kompatibler API, Echtzeit-Dashboard und automatischer Crash-Recovery. Das Beispiel-Cluster zeigt: Bereits mit zwei CUDA-Nodes lassen sich lokal ohne Cloud auf aktuellen 30B-Modellen wie Nemotron Cascade 2 über 50 t/s erreichen. Weitere Nodes oder Apple-Silicon-Clients können den Durchsatz weiter erhöhen.

[A]

MULTI-GPU / MULTI-NODE

ENGINEllama.cpp RPC-Backend

HARDWARENVIDIA CUDA · Apple Metal

VRAM~52 GB total (Worker)

SPEED41–53 t/s (30B MoE Q3_K_M)

NVIDIA- und Apple-Silicon-Nodes lassen sich kombinieren. Das Beispiel-Setup erreicht bereits über 50 t/s. Jeder weitere Node oder Apple-Silicon-Client kann die Performance weiter steigern.

[B]

LOKAL · DATENSOUVERÄN

NETZWERKLAN-only

KOSTEN$0 / 1M Token

KONTEXTbis 65 536 Token / Slot

SLOTS2 parallele Anfragen

Ohne Rate Limits, ohne externe Datenzugriffe. Du entscheidest, welche Modelle laufen und wie sie konfiguriert sind. Die Daten verlassen das eigene Netzwerk nicht.

[C]

OPENAI-KOMPATIBEL

CHAT/v1/chat/completions

MODELS/v1/models

EMBED/v1/embeddings

CLIENTSn8n · LangChain · Zed · Open WebUI

KNUT verhält sich wie die OpenAI-API. Bestehende Integrationen lassen sich in der Regel ohne Code-Änderungen übernehmen.

KNUT — CHAT INTERFACE

[EXPAND]

KNUT — integriertes Chat-Interface mit aktivem Modell

03 //

Für wen ist KNUT gedacht?

[01]AUTOMATION

n8n · LangChain · Workflows

Du baust n8n- oder LangChain-Workflows und möchtest Token-Kosten reduzieren, oder einfach ohne API-Limits arbeiten können.

[02]HARDWARE

2+ NVIDIA-GPUs oder Apple Silicon

Du hast NVIDIA-GPUs oder Apple-Silicon-Geräte im Einsatz und möchtest mehr daraus machen, als sie brachliegen zu lassen.

[03]KMU

Compliance · DSGVO · Kontrolle

Dein Unternehmen möchte KI-Unterstützung nutzen, aber Compliance-Anforderungen oder Datenschutzrichtlinien machen Cloud-Dienste schwierig.

04 //

Überall verfügbar: vom Smartphone bis zum Desktop.

Das KNUT-Dashboard passt sich an jede Bildschirmgröße an, ob du den Cluster-Status kurz auf dem Smartphone prüfst oder das vollständige System-Monitoring am Desktop nutzt.

MOBILEKompakte Ansicht · Touch-optimiert

TABLETErweiterte Panels · Split-View

DESKTOPVollständiges Dashboard · Multi-Column

Eine separate App wird nicht benötigt. Das Web-UI läuft direkt im Browser, lokal im LAN erreichbar. Kein App-Store, keine externen Abhängigkeiten.

KNUT MOBILE — DASHBOARD

[EXPAND]

KNUT MOBILE — CLUSTER STATUS

[EXPAND]

05 //

Technische Grundlage

// Gemessene Werte aus dem laufenden Beispiel-Cluster. Mehr Nodes und Apple-Silicon-Clients können Durchsatz und verfügbaren VRAM weiter erhöhen.

$knut --spec-list

BASISllama.cpp mit RPC-Backend

MODELLENemotron-Cascade-2 · Qwen3.5 · Gemma 4 · Llama (GGUF)

HARDWARENVIDIA CUDA · Apple Silicon (Metal) · CPU-Fallback

API/v1/chat/completions · /v1/models · /v1/embeddings · /v1/responses

KONTEXTbis 65 536 Token pro Slot, 2 parallele Slots

PROXYCaddy mit Auto-HTTPS

OSDebian 13 CUDA · macOS 26 Metal

MONITORINGVRAM · RAM · CPU · GPU-Temp · t/s (Echtzeit-Sparklines)

RECOVERYAuto-Retry bei Crash, bis zu 3 Versuche

LIZENZBusiness Source License 1.1

KNUT DASHBOARD — SYSTEM LOGS

[EXPAND]

KNUT Dashboard — Echtzeit-Logs und System-Monitoring

06 //

Dabei sein, wenn KNUT startet.

Du bekommst frühen Zugang zur Beta, Hilfe beim Einrichten und Updates nur dann, wenn es wirklich etwas Neues gibt.
Kein Rauschen, kein Spam.

// EARLY ACCESS

→Frühzeitiger Zugang zur Beta

→Technische Dokumentation & Setup-Support

→Einfluss auf die Roadmap

→Nur relevante Updates, kein Newsletter-Rauschen

Bring YourOwn GPU.

Warum lokale KI-Inference?

Cloud-KI kostet — und wirft Datenschutzfragen auf

Vorhandene Hardware als ungenutztes Potenzial

Einzelne Rechner stoßen schnell an ihre Grenzen

Der Mittelstand braucht pragmatische Lösungen

Was kann KNUT?

MULTI-GPU / MULTI-NODE

LOKAL · DATENSOUVERÄN

OPENAI-KOMPATIBEL

Für wen ist KNUT gedacht?

Überall verfügbar: vom Smartphone bis zum Desktop.

Technische Grundlage

Dabei sein, wenn KNUT startet.

Bring Your
Own GPU.