E se il tuo AI coding assistant potesse montare un video al posto tuo — ricercando le fonti, scrivendo lo script, scegliendo il footage, orchestrando la voce sintetica e componendo il tutto con FFmpeg — senza che tu scriva una riga di codice video? OpenMontage ci prova. Ed è già il progetto Python più popolare del momento su GitHub.
La tesi: una pipeline agentica vera, non l'ennesimo wrapper
OpenMontage è il primo sistema open-source (AGPLv3) di produzione video definito agentico non come etichetta di marketing, ma come scelta architetturale precisa. Il tuo AI coding assistant — Claude Code, Cursor, Copilot, Windsurf o Codex — non è un'interfaccia grafica: è letteralmente l'orchestratore dell'intera produzione. Legge YAML pipeline manifests, interpreta Markdown skill files, valida gli output tramite JSON schemas e chiama tool Python in sequenza. Non c'è un server intermedio, non c'è una WebUI. C'è il tuo assistente che legge il repository come farebbe un senior engineer.
Il progetto è sbarcato su GitHub intorno al 20 giugno 2026. In pochi giorni ha raggiunto la vetta di GitHub Trending e ha conquistato la posizione numero uno su Trendshift Daily il 21 giugno 2026, sia per Python che in classifica generale. Le stelle riportate oscillano tra 18.800 e 19.000 — la crescita è stata rapida al punto da attirare già un tentativo di typosquatting (ne parleremo, perché la cosa conta se fai self-hosting).
Le dimensioni sono significative per un progetto così giovane: 12 pipeline di produzione specializzate, 52 tool Python categorizzati, oltre 500 agent skills. Le pipeline coprono casi d'uso che vanno dagli animated explainers ai motion graphics, dai talking head ai cinematic trailer, dal documentary montage al dubbing e localizzazione.
Rispetto a MoneyPrinterTurbo — già trattato in tre puntate su questo blog — OpenMontage è una categoria diversa. MPT è la macchina da caffè: input topic, output video corto verticale. OpenMontage è l'intera cucina di produzione.
L'antitesi: un progetto di quattro giorni con 44 problemi aperti
OpenMontage ha quattro giorni di vita alla data di questa analisi (24 giugno 2026) e 44 issue aperte — la parte onesta che ogni articolo entusiasta tende a sorvolare. Quarantaquattro issue aperte su GitHub includono un bug di Remotion su Windows (issue #172), l'assenza completa di tutorial video (issue #150), richieste di supporto per Hermes e MCP (issue #165 e #164), e problemi di type safety non risolti (issue #142).
Tosea.ai, in una guida pratica consultata per questa analisi, è esplicita: "breadth is not the same as polish." La complessità delle dipendenze può generare problemi di compatibilità. I risultati migliori richiedono modelli video premium a pagamento. Il sistema richiede supervisione costante per lavori complessi.
Headroom compressione contesto LLM: il 90% di token in meno è hype
Headroom promette 60-95% di token in meno agli AI agent, ma i benchmark del repo dicono 19-77% e un utente in produzione ha visto 0%. Cosa regge e cosa no.
NerdZap lo dice ancora più chiaro: il setup richiede "an AI coding environment and command-line setup." Non è un tool per chi vuole installare un'app e premere un bottone. Richiede Python 3.10+, Node.js 18+ (22+ se usi HyperFrames), FFmpeg, e un AI coding assistant funzionante. Più parti in gioco significano più punti di rottura.
La licenza AGPLv3 aggiunge un'ulteriore riflessione. Per il self-hoster individuale è irrilevante — puoi usarlo, modificarlo, girarlo nella tua infrastruttura senza obblighi. Ma chiunque voglia costruire un servizio hosted sopra OpenMontage, con modifiche proprietarie, deve rilasciare il codice modificato. OpenCore Ventures lo definisce direttamente "a non-starter for most companies" con interessi commerciali competitivi. Per noi non è un problema. Lo è per chiunque pensi di monetizzarlo senza contribuire.
L'avviso di sicurezza merita un paragrafo dedicato. Il 24 giugno 2026, l'issue #175 ha segnalato l'esistenza di un repo malevolo che si chiama "OpenMontage/OpenMontage" e distribuisce un binary Windows camuffato. Il repo legittimo ha un maintainer diverso: calesthio/OpenMontage. Prima di clonare qualsiasi cosa, verifica l'URL. Questo è il tipo di rischio che cresce con la popolarità, ed è un segnale che il progetto ha già raggiunto una massa critica sufficiente da attirare attori malevoli.
C'è anche un limite architetturale sottile ma importante: la qualità dell'orchestrazione dipende dal modello AI che usi come cervello. Con un modello debole la pipeline degrada — non si blocca, semplicemente produce output peggiori con meno coerenza tra le fasi. OpenMontage amplifica il tuo AI coding assistant, non lo sostituisce.
Come funziona davvero: il flusso a sette stadi
La pipeline di produzione di OpenMontage segue sette stadi con approval gate obbligatori prima della generazione degli asset. Il flusso è: Research, poi Proposal, poi Script, poi Scene Plan, poi Assets, poi Edit, infine Compose. In ogni transizione c'è una soglia di approvazione umana — il sistema non può accelerare autonomamente verso la generazione costosa senza che tu abbia dato il via libera.
Questo non è solo una questione di controllo editoriale. È anche protezione economica. Il budget cap predefinito è fissato a $10, con una soglia di approvazione per singola azione a $0,50. Un esempio concreto riportato da tosea.ai: un video animato di 60 secondi chiamato "The Last Banana" ha costato $1,33 con API cloud. Questo dato è attribuito a una singola fonte con un singolo test — non va trattato come benchmark universale, ma dà un ordine di grandezza.
Per la selezione dei provider video, OpenMontage usa uno scoring engine a sette dimensioni: task fit al 30%, qualità output al 20%, controllo al 15%, affidabilità al 15%, costo al 10%, latenza al 5% e continuità al 5%. I provider supportati sono 15: sul lato cloud trovi Kling, Runway Gen-4, Google Veo 3, Grok, Higgsfield, MiniMax e HeyGen; sul lato locale trovi WAN 2.1 (nelle varianti da 1,3B e 14B parametri), Hunyuan 1.5, CogVideo 5B e LTX-Video; per il footage stock ci sono Pexels, Pixabay e Wikimedia Commons.
Qui c'è una digressione tecnica che vale la pena fare, perché chi ha GPU nel proprio homelab troverà una biforcazione nel setup che non è immediata. Il percorso di installazione base — git clone seguito da make setup — non include la video generation generativa locale. Per sbloccarla servono i modelli. Il comando make install-gpu aggiunge il supporto a WAN 2.1, Hunyuan 1.5, LTX2 e CogVideo 5B. Questi modelli girano su GPU NVIDIA o Apple Silicon. Quanto VRAM serve per ciascun modello non è documentato esplicitamente nel README — la variante da 1,3B di WAN 2.1 è ragionevolmente gestibile anche su schede mid-range con offload, la variante da 14B è un'altra storia. Chi ha una scheda di fascia alta può sperimentare; chi ha hardware più modesto deve aspettare documentazione più precisa o fare prove empiriche. Tornando al punto principale: senza questa distinzione tra make setup e make install-gpu, potresti installare tutto e non capire perché il sistema continua a chiamare Kling invece di usare la tua GPU.
Il percorso a zero costo: Piper TTS, FFmpeg e footage libero
La proposta più interessante per chi gestisce un homelab è il path che elimina completamente i provider a pagamento. OpenMontage è progettato per funzionare senza nessuna API key: Piper TTS gira interamente in locale, offline, senza inviare nulla al cloud e senza costi. Il footage viene da Archive.org, NASA e Wikimedia Commons — archivi liberi con materiale enorme, particolarmente adatto a video documentaristici e divulgativi. Per lo stock commerciale c'è il free tier di Pexels e Pixabay. La composizione avviene con Remotion o HyperFrames, e il post-processing finale con FFmpeg — che in ogni homelab che si rispetti è già installato.
Questa configurazione non genera video con scene create da zero da un modello generativo. La differenza è precisa: senza GPU e senza API video a pagamento, OpenMontage orchestra e compone footage esistente, aggiunge voce sintetica locale con Piper TTS, e monta il tutto. Il risultato è un video strutturato, con script coerente e voce, ma non con generazione visiva generativa. È comunque notevolmente più avanzato di uno script Bash con yt-dlp e ffmpeg — ma conviene sapere cosa significa concretamente "path zero-costo."
Il vantaggio operativo del path locale non è solo economico. È anche privacy, velocità di iterazione (nessuna latenza di rete per la sintesi vocale) e indipendenza da API che cambiano prezzi o termini di servizio. Per chi ha già esplorato GPU passthrough su Proxmox o gestisce modelli LLM in locale tramite Ollama, aggiungere WAN 2.1 1.3B al proprio homelab è un passo naturale.
La sintesi: a chi serve davvero OpenMontage oggi
OpenMontage non è per chi vuole risultati immediati senza sforzo. È per chi ha già un AI coding assistant nel proprio workflow quotidiano, sa usare la riga di comando, e vuole sperimentare un approccio agentico alla produzione video prima che questo tipo di architettura diventi comune.
Il profilo ideale è chi: conosce Python e non si spaventa di risolvere conflitti di dipendenze; ha già un assistente AI come Claude Code integrato nel proprio editor; è disposto a supervisionare l'orchestrazione invece di aspettarsi magia autonoma; e vuole esplorare la video production senza impegnarsi subito con budget API significativi.
Il profilo sbagliato è chi si aspetta un'applicazione con interfaccia grafica, chi non ha familiarità con l'installazione di toolchain Python/Node.js/FFmpeg, o chi vuole produrre video in volume senza supervisione. Per quel caso esistono altri strumenti più maturi.
L'elemento che trovo più onesto nell'approccio di OpenMontage è la trasparenza dell'architettura. L'AI coding assistant come orchestratore non è nascosto dentro un server opaco — è letteralmente tu che dai i comandi al tuo assistente e l'assistente legge il repository. Capisci cosa sta succedendo, puoi intervenire, puoi modificare i manifesti YAML, puoi aggiungere tool. Questo livello di controllo ha un costo — la complessità del setup — ma è la differenza tra usare uno strumento e capirne il funzionamento.
Domande frequenti
OpenMontage funziona senza GPU dedicata?
Sì, ma con limiti precisi. Il path zero-costo con Piper TTS e footage da archivi liberi non richiede GPU: gira su qualsiasi macchina con Python, Node.js e FFmpeg. La video generation generativa locale (WAN 2.1, Hunyuan, CogVideo) richiede invece GPU NVIDIA o Apple Silicon e si installa separatamente con make install-gpu. Senza GPU puoi comunque usare i provider cloud a pagamento per la generazione visiva.
Claude Code è l'unico AI coding assistant supportato?
No. OpenMontage elenca esplicitamente Claude Code, Cursor, GitHub Copilot, Windsurf e OpenAI Codex come assistenti supportati. Il sistema è agnostico rispetto all'assistente: legge file locali (YAML manifests, Markdown skills, JSON schemas) e chiama tool Python. Qualsiasi assistente che possa leggere un repository ed eseguire comandi da terminale funziona.
Qual è il rischio principale del typosquatting segnalato?
Il repo legittimo è all'indirizzo calesthio/OpenMontage su GitHub. Esiste almeno un repo malevolo che usa un nome visivamente simile e distribuisce un binary Windows camuffato. Prima di clonare, verifica l'URL completo nel browser. Non fare affidamento su link trovati in post o thread di community — vai direttamente a GitHub, cerca il maintainer calesthio e clona da lì.
OpenMontage è adatto alla localizzazione e al dubbing?
Sì, è una delle 12 pipeline incluse. La pipeline "localization/dubbing" è progettata per rimpiazzare o aggiungere tracce audio in altre lingue. Piper TTS supporta più lingue e gira offline, il che lo rende una scelta naturale per il dubbing locale senza API a pagamento. Non è documentato in dettaglio quante lingue siano supportate nel default — richiede verifica diretta nella documentazione di Piper.