Ho costruito il mio ChatGPT privato a casa. Costa €0 al mese. Gira su 5 watt.
Nessun abbonamento mensile. Nessun prompt che esce dalla rete domestica. Nessuna telemetria, nessun training-on-user-data, nessun OpenAI che legge le mie cronologie. E l'interfaccia è identica a quella a cui siamo abituati: sidebar con la storia, input centrale, selettore modello in alto. Tutto su una board grande come un mazzo di carte accesa h24 sul tavolo.
Open WebUI v0.9.1 con gemma3:1b in italiano — LattePanda Alpha 800s, 5W, zero cloud
Cosa significa davvero avere un ChatGPT privato in casa
Open WebUI è l'interfaccia che gira davanti a Ollama sulla LattePanda Alpha e che dà alla board l'aspetto di un ChatGPT privato. Nella schermata sopra c'è una chat vera: prompt scritto dal browser, risposta generata in locale dal modello gemma3:1b, nessuna chiamata esterna. Il tempo misurato per la prima risposta è stato di 3,5 secondi. L'intero stack — Ollama più Open WebUI più sistema operativo — consuma 2,8 GiB di RAM su 7,6 GiB disponibili, con 4,8 GiB ancora liberi per chat concorrenti. Il processo Docker dell'interfaccia da fermo pesa lo 0,17% di CPU e 935 MiB di RAM.
La parte interessante non è il numero. È il fatto che questa chat sta girando dentro casa mia, sulla stessa board che nel test del post precedente ha fatto 12,53 token al secondo con 5W di consumo medio. Il risultato è un'assistente AI privata, sempre accesa, accessibile dal telefono quando sono sul divano, senza un centesimo di abbonamento.
Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
Intelligenza Artificiale
MoneyPrinterTurbo + Ollama: video AI a costo zero in locale (Parte 1)
MoneyPrinterTurbo con Ollama self-hosting: cos'è, feature e setup Docker per generare video AI in locale gratis. Parte 1, con un asterisco su Pexels.
Chat live su Open WebUI (LattePanda Alpha, gemma3:1b) — prompt digitato, risposta generata in tempo reale.
Perché questo conta davvero
Il punto dell'AI self-hosted non è la velocità — là ChatGPT vince sempre. Il punto è che ogni prompt scritto in Open WebUI resta sul disco della LattePanda Alpha, nella rete di casa, dietro al firewall domestico. Nessuna policy di OpenAI che cambia a giugno. Nessun abbonamento che aumenta di prezzo. Nessuna compagnia che un giorno decide che la tua cronologia vale più di te. Il container Docker di Open WebUI parla solo con localhost:11434, dove sta Ollama. Fine del perimetro.
C'è anche la parte economica — ma arriva dopo, e fa più rumore di quanto pensi. Prima viene la parte di controllo: scegli tu il modello, scegli tu la retention, scegli tu chi può accedere. Sei padrone dello stack dalla porta Ethernet fino al prompt.
Cosa aggiungiamo sopra Ollama
Ollama da solo parla via CLI o via API REST sulla porta 11434 — perfetto per chi smanetta, zero accessibile per il resto della famiglia. Open WebUI è l'interfaccia web che ci sta davanti: una PWA distribuita come container Docker, che replica quasi pixel per pixel l'esperienza ChatGPT. Sidebar con la storia delle conversazioni, selettore modello al volo, supporto multi-utente, responsive sul telefono. Se non hai ancora Ollama girante, parti da qui — il post 1 di questa serie assume che Ollama sia già su.
Interfaccia web identica a ChatGPT — nessuna curva di apprendimento per chi la userà
Storia conversazioni persistente sul disco locale, nessun cloud
Multi-utente: primo account = admin, può invitare gli altri con ruolo limitato
Selettore modello a caldo tra gli 8 modelli Ollama già installati dal post 1
UI nativa in italiano, responsive per accesso da mobile in LAN
Autenticazione obbligatoria via WEBUI_AUTH, nessun accesso anonimo
Setup in un comando solo
Tutto lo stack Open WebUI entra in produzione con una singola riga Docker. Prerequisito unico: Docker installato sulla LattePanda Alpha — nella nostra sessione abbiamo usato Docker 29.4.1 con Compose v5.1.3 dal repository ufficiale Docker per Debian 13 Trixie. Una volta che Ollama gira già sulla porta 11434 (dal post 1), il container di Open WebUI si aggancia con host network e monta un volume persistente per conversazioni e configurazione. Niente reverse proxy, niente TLS, niente complicazioni — quello viene dopo, se e quando esporrai la board fuori dalla LAN.
L'immagine pesa 6,69 GB in download la prima volta (resta in cache dopo). Il volume open-webui arriva a 1,1 GB dopo il setup iniziale, perché Open WebUI scarica i modelli di embedding per il supporto RAG nativo. Il primo startup richiede circa 90 secondi; a runtime, un restart del container è questione di 10 secondi.
Primo login e setup admin
Appena il container è su, Open WebUI risponde su http://localhost:8080 con una pagina di registrazione. La regola d'oro di questa applicazione è semplice: il primo utente creato diventa automaticamente amministratore, con pieno controllo su utenti, modelli, permessi e policy. Nessun wizard di attivazione via email, nessun account esterno da collegare — la creazione avviene via form nel browser oppure, come abbiamo fatto nella sessione hands-on, via chiamata REST all'endpoint signup. Qui in basso la dashboard pulita subito dopo il primo accesso.
Home di Open WebUI dopo il primo login — UI nativa in italiano, selettore modello in alto
Password mascherata nel comando qui sotto (*** al posto di quella vera). Il JWT che torna nella risposta è già un token admin valido per le chiamate successive.
Multi-utente per la famiglia, accesso dal telefono
Open WebUI gestisce utenti multipli dal pannello admin: ogni account ha le sue conversazioni private, isolate sul disco della LattePanda Alpha. Dopo aver creato il mio utente admin ho aperto il pannello Admin > Users e ho verificato che da lì posso invitare moglie, padre, chiunque condivida il Wi-Fi di casa, con ruolo limitato o standard. Nessuno vede le chat degli altri. La stessa applicazione è pienamente responsive: dal telefono di casa, sulla stessa LAN, l'esperienza è identica a quella desktop.
Stessa chat dal telefono — layout responsive, accessibile da qualunque device in LAN
Questo è il dettaglio che chiude il cerchio. Non è più "la mia AI sul server" per smanettoni. È un servizio di casa, come Plex, come Home Assistant: apri il browser del telefono, scrivi, ottieni risposta. Con una differenza non banale rispetto a ChatGPT — quando il router di casa cade, questa continua a funzionare comunque, perché vive in una stanza sopra al frigo.
Un test vero, in italiano, senza ritocchi
Perché il post non sia una brochure di marketing, ecco una risposta vera di gemma3:1b così come è uscita dalla chat. Prompt: "Spiegami cosa è un homelab in 3 frasi, in italiano. Sii chiaro e pratico." Nessun prompt-engineering avanzato, nessun system prompt caricato, nessuna ritentativo. È quello che otterresti tu, aperta la chat a freddo, sulla stessa board da 5W.
Un homelab è un ambiente dedicato all'esperimento scientifico e all'apprendimento digitale, dove puoi utilizzare hardware e software per esplorare concetti scientifici, programmare e creare progetti. È un luogo accessibile e a basso costo, ideale per studenti, appassionati e chiunque voglia approfondire un determinato campo. La sua principale funzione è imparare facendo, sperimentando e sviluppando le proprie competenze in modo divertente ed efficace. — gemma3:1b su LattePanda Alpha, 5W
La risposta non è perfetta. Parla di 'esperimento scientifico' invece che di self-hosting — un modello da 1 miliardo di parametri ha il suo perimetro di conoscenza, e il concetto di homelab come lo intendiamo noi ci sta fuori. Il punto da chiarire subito è un altro: questo limite è del modello Google gemma3:1b, non della LattePanda Alpha. L'hardware DFRobot ha fatto il suo lavoro in modo impeccabile — ha macinato i token, ha servito la pagina, ha streammato la risposta al browser. Se domani Google rilascia un 1B migliore, la stessa board gira più veloce e risponde meglio senza che tu cambi niente.
Il costo reale, calcolato sull'anno
Qui arriva il pezzo che nessun confronto 'locale contro cloud' mette in chiaro. La LattePanda Alpha consuma circa 5 watt medi in idle e sotto carico di inferenza leggera, misurati nel test hardware del post precedente. È progettata per stare accesa sempre — non è un compromesso, è il punto. 5 watt sono meno di una lampadina LED: una board che lavora ventiquattro ore su ventiquattro per tutta la famiglia costa quanto lasciare acceso un caricatore del telefono. Il calcolo: 5W × 24h × 365g = 43,8 kWh all'anno × €0,30 al kWh = circa 13 euro l'anno di corrente.
€13 all'anno di elettricità contro €240 di ChatGPT Plus. Diciotto volte meno.
Quasi la metà del costo annuale della board in bolletta va via in un solo mese di abbonamento cloud. E stiamo parlando solo di elettricità — il software è tutto open source (Ollama e Open WebUI sotto licenza MIT), Debian è gratuito, la board è un acquisto una tantum. Se la fai durare cinque anni — e non c'è motivo per cui non dovrebbe, vista la temperatura sul package CPU misurata post-chat a 52°C — il confronto diventa assurdo. Il risparmio cumulato supera i €1.100.
Il ragionamento completo sui costi dell'AI locale contro le varie soluzioni cloud l'abbiamo fatto in un post dedicato — a parità di uso moderato, la soglia di break-even contro un abbonamento è questione di mesi, non di anni.
I limiti, senza marketing
Non c'è magia. Questo stack non sostituisce GPT-4 o Claude Opus per task complessi — su LattePanda Alpha 800s con 8 GiB di RAM e zero GPU girano modelli open fino a 3 miliardi di parametri, e la velocità di generazione oscilla tra 5 e 13 token al secondo a seconda del modello. Per scrivere email, riassumere testi in italiano, domande di cultura generale, bozze di codice semplice, idee rapide — funziona bene. Per ragionamento multi-step complesso o coding avanzato serve altro hardware, oppure si torna al cloud.
L'altro limite onesto è che esporre Open WebUI fuori dalla rete domestica richiede un reverse proxy con TLS e autenticazione forte — quello non l'abbiamo coperto qui perché non serve nel 90% dei casi d'uso casalinghi. Se apri il browser da casa, la porta 8080 in HTTP sulla LAN basta. Se vuoi accedere dal lavoro o dal 4G, è un discorso di VPN mesh o reverse proxy pubblico — e lì ci sono scelte che meritano un post dedicato.
Una LattePanda Alpha, 5 watt, 2,8 GiB di RAM, €13 all'anno di corrente. Un container Docker. Un modello open source da 815 MB. Una chat in italiano che risponde in 3,5 secondi, accessibile dal telefono di chiunque sia connesso al Wi-Fi di casa. Zero prompt usciti dalla rete domestica. Zero fatture ricorrenti.
Open WebUI sulla LattePanda Alpha di DFRobot, 5 watt in casa, 13 euro l'anno di corrente, chat private che non escono dalla tua rete. Tu a cosa stai pagando l'abbonamento, esattamente?