Che cos'è ponytail e come si installa?

È un plugin che fa scrivere meno codice agli agenti di coding (Claude Code, Codex, Cursor, Cline, Aider e altri) iniettando una «scala della pigrizia» basata su YAGNI nel loro contesto. Su Claude Code si aggiunge con /plugin marketplace add DietrichGebert/ponytail . Non è un modello e non gira in locale: è un ruleset comportamentale di un centinaio di righe, licenza MIT.

ponytail fa davvero scrivere il 54% di codice in meno?

Dipende dal modello e dai task. Il -54% del vendor è misurato su Claude Haiku 4.5, n=4, su task scelti pieni di trappole di over-engineering; sul codice già minimale il guadagno è vicino a zero. Nel mio test indipendente la media è -33% di righe, che sale a -52,6% proprio sul task-trappola con un modello economico, e scende a cosmesi su un modello forte.

Non basta scrivere «YAGNI» nel system prompt?

Quasi. Sia la critica di Scott Logic sia il braccio di controllo del benchmark ufficiale mostrano che un prompt YAGNI di sette parole ottiene gran parte del risultato (-33%), e il mio test lo conferma. Quello che ponytail aggiunge è disciplina coerente su molti agenti diversi e un floor di sicurezza migliore del prompt nudo (100% contro 95% sui task di sicurezza).

Conviene su un modello forte o su uno economico?

Soprattutto su quelli economici. Su un modello capace l'effetto è quasi solo formattazione e commenti in meno; su un modello piccolo e prolisso evita over-engineering reale, codice fragile fatto a mano e qualche bug. Se fai girare agenti su modelli piccoli per contenere i costi, è lì che rende di più. Fonti: repository ponytail , benchmark agentico ufficiale , critica di Colin Eberhardt (Scott Logic) . Benchmark indipendente: 48 run su Claude Sonnet e Haiku, dati e codice di test su homelabz.cc.

ponytail: far scrivere meno codice agli agenti AI?

Sì, ponytail fa scrivere meno codice agli agenti AI — ma quasi tutto il merito è di YAGNI, un principio degli anni '90. L'ho verificato con 48 run indipendenti su Claude Code, due modelli e giudici ciechi: su un modello forte è quasi solo formattazione in meno, su uno economico evita over-engineering vero. Il mio -33% medio coincide con quello di un banale prompt «YAGNI» di sette parole.

ponytail è il fenomeno open-source del momento: 54.500 stelle su GitHub in pochi giorni, licenza MIT, e un'idea semplice. È un plugin comportamentale per agenti di coding — Claude Code, Codex, Cursor, Cline, Aider e altri 14 in tutto — che, prima di far scrivere una riga nuova, obbliga l'agente a salire una «scala della pigrizia»: serve davvero (YAGNI)? lo fa la standard library? una feature nativa? una dipendenza già installata? si fa in una riga? E solo allora scrivere il minimo. Non tocca il modello e non gira in locale: nel cuore è un file SKILL.md di un centinaio di righe.

La promessa che ha fatto il giro è forte: circa -54% di codice (fino al 94% negli scenari di over-engineering), -22% di token, -20% di costo, -27% di tempo, e «100% safe». Numeri auto-dichiarati. Mi sembrava il caso di verificarli in modo indipendente — non con un colpo fortunato, ma con un banco ripetibile e la varianza in chiaro. È lo stesso spirito con cui ho misurato quanto risparmia davvero Headroom invece di fidarmi della brochure.

La storia vera dietro il -54%

Vale la pena raccontarla, perché è più interessante del numero. La prima versione del benchmark di ponytail era single-shot — un prompt, una risposta, conta le righe — e dichiarava un taglio dell'80-94%. A giugno 2026 Colin Eberhardt, CTO di Scott Logic, l'ha smontata: quel vantaggio era in gran parte un artefatto del confronto, perché il modello «nudo» riempie la risposta di prosa e di opzioni alternative, gonfiando il conteggio. Eberhardt ha mostrato che bastava scrivere «Follow YAGNI principles» (tre parole) per quasi pareggiare ponytail, e che la versione di sette parole lo batteva, mantenendo il 100% di correttezza. Il suo verdetto: ponytail cavalca l'onda dell'hype più che innovare.

Qui arriva la parte che fa onore all'autore: invece di difendersi, ha

Articoli Correlati

Perché usare LM Studio (e quanto corre davvero sul mio portatile RTX 5080)

Q3, Q4 o Q8? Quale versione di un'AI locale scaricare (la quantizzazione)

ponytail alla prova: un plugin fa scrivere meno codice agli agenti AI?

La storia vera dietro il -54%

Commenti (0)

Quanto grande può essere un'AI in locale? Il limite della VRAM sui 16GB

Come ho costruito il mio banco di prova

Modello forte: il -33% c'è, ma è quasi solo cosmesi

Modello economico: qui le trappole scattano davvero

La sicurezza, e perché eseguo il codice invece di crederci

Verdetto onesto: è YAGNI confezionato bene (e non è un insulto)

Domande frequenti