Il 16 aprile 2026 Anthropic ha rilasciato Claude Opus 4.7 come nuovo modello di punta, raccontando la Claude Opus 4.7 novità come la più capace di sempre per coding agentico e lavoro autonomo su repository reali. Pricing invariato ($5/$25 per milione di token input/output), context window da 1M, SWE-bench Verified portato dall'80.8% di Opus 4.6 all'87.6%. Il marketing è leggibile, la promessa semplice: stesso prezzo, più intelligenza.
Poi si guardano i dettagli di implementazione, e il quadro cambia. Il tokenizer è cambiato: lo stesso testo ora consuma da 1.0× a 1.35× i token di prima. L'effort level di default in Claude Code è salito da high a xhigh. La risoluzione immagini è triplicata a 3.75 megapixel. Il pricing per-token resta identico, ma il costo reale per task può salire del 20-40% su carichi misti. Sul benchmark BrowseComp, dedicato alla ricerca web, Opus 4.7 perde 4.4 punti rispetto a Opus 4.6. E Anthropic stessa ammette in modo esplicito di avere internamente un modello più potente, Claude Mythos Preview, che non rilascia perché troppo rischioso.
Non è un cattivo rilascio. È un rilascio che va letto nei suoi numeri veri prima di decidere se migrare, quanto allocare di budget API e se questo Opus merita davvero di sostituire il precedente in pipeline che funzionano. E va letto sapendo che la community arrivava alla release già caldissima: da settimane i dev denunciavano regressioni su Opus 4.6, con un senior director AMD che sul repo Claude Code ha scritto di non potersi più affidare al modello per engineering complesso. 4.7 entra su un campo minato di aspettative negative.
Immagine: anthropic.com/news/claude-opus-4-7
Cosa cambia davvero nel pricing di Claude Opus 4.7
Nel confronto Claude Opus 4.7 vs 4.6 il listino resta identico: $5 per milione di token input, $25 per milione di token output. Cache read $0.50, cache write a 5 minuti $6.25. La Batch API è al 50% ($2.50/$12.50). Nulla si muove sulla colonna del prezzo.
Iscriviti alla newsletter per ricevere i migliori articoli direttamente nella tua inbox.
Hardware
LLM locale costi reali: serve davvero una GPU da 1.700 euro per battere ChatGPT gratis?
Quanto hardware serve per pareggiare i free tier di ChatGPT, Claude e Gemini con un LLM locale? Ho fatto i conti: GPU, VRAM, elettricità, break-even.
Input $/MTok
$5
Output $/MTok$25
Cache Write 5m$6.25
Cache Read$0.50
ModelloOpus 4.6
Input $/MTok$5
Output $/MTok$25
Cache Write 5m$6.25
Cache Read$0.50
ModelloOpus 4.1 (legacy)
Input $/MTok$15
Output $/MTok$75
Cache Write 5m$18.75
Cache Read$1.50
ModelloSonnet 4.6
Input $/MTok$3
Output $/MTok$15
Cache Write 5m$3.75
Cache Read$0.30
ModelloHaiku 4.5
Input $/MTok$1
Output $/MTok$5
Cache Write 5m$1.25
Cache Read$0.10
Modello
Input $/MTok
Output $/MTok
Cache Write 5m
Cache Read
Opus 4.7
$5
$25
$6.25
$0.50
Opus 4.6
$5
$25
$6.25
$0.50
Opus 4.1 (legacy)
$15
$75
$18.75
$1.50
Sonnet 4.6
$3
$15
$3.75
$0.30
Haiku 4.5
$1
$5
$1.25
$0.10
Poi arriva il tokenizer nuovo. È la singola voce che Anthropic menziona nel changelog quasi di sfuggita, ma è quella che cambia la fattura. Lo stesso identico prompt, la stessa identica risposta, può ora produrre fino al 35% di token in più rispetto a Opus 4.6. In pratica il costo per-token è invariato ma il numero di token per compito cresce. Su workload reali — assistenza coding su repository medio, analisi log, revisione documenti tecnici — gli utenti in produzione su Hacker News stanno riportando incrementi effettivi del 20-40% a parità di risultato.
A questo si somma il default xhigh in Claude Code per tutti i piani e provider quando si usa Opus 4.7: più tempo di ragionamento, più token di reasoning, più accuratezza ma anche più consumo. Chi ha configurato pipeline su 4.6 scoprirà la differenza nella prima fattura, non nel commit del migration guide.
I benchmark: dove Claude Opus 4.7 sale e dove scende
Sul coding il salto è reale e difficile da contestare. SWE-bench Verified passa da 80.8% a 87.6%, superando sia GPT-5.4 sia Gemini 3.1 Pro (80.6%). SWE-bench Pro — il benchmark che simula pull request complesse — fa un salto ancora più netto, da 53.4% a 64.3% contro il 57.7% di GPT-5.4 e il 54.2% di Gemini 3.1 Pro. Su CursorBench la variazione è di 12 punti pieni: 58% → 70%. Sul tool use misurato da MCP-Atlas, Opus 4.7 è al 77.3% contro il 68.1% di GPT-5.4 e il 73.9% di Gemini 3.1 Pro — posizione di leadership netta.
Anche sulla vision il progresso è concreto: CharXiv Reasoning senza tool passa dal 69.1% all'82.1% (+13 punti), con tool dall'84.7% al 91.0%. OSWorld-Verified per computer use sale dal 72.7% al 78.0%. Sulla conoscenza GPQA Diamond tocca il 94.2% — in linea con GPT-5.4 Pro (94.4%) e Gemini 3.1 Pro (94.3%). GDPval-AA con Elo 1753 stacca GPT-5.4 (1674) e soprattutto Gemini 3.1 Pro (1314).
Poi arriva la riga che quasi nessun articolo ha raccontato. BrowseComp, il benchmark che misura la capacità di ricerca web autonoma: Opus 4.6 stava a 83.7%, Opus 4.7 cala a 79.3%. Una regressione di 4.4 punti. Per confronto, GPT-5.4 Pro su BrowseComp è a 89.3%, Gemini 3.1 Pro a 85.9%. Per chi usa Opus per agent di scraping, assistenza ricerca o ingestion web, questo non è un dettaglio: è il caso d'uso che degrada.
Terminal-Bench 2.0 è l'altro dato che va letto senza filtri: Opus 4.7 al 69.4%, in miglioramento, ma ancora sotto GPT-5.4 al 75.1%. Sulla shell autonoma, Claude non è ancora il migliore. Sul coding in repository sì.
Le feature API nuove — e i breaking change silenziosi
Il model ID dell'API di Anthropic Claude 4.7 è claude-opus-4-7, su Bedrock us.anthropic.claude-opus-4-7. Claude Opus 4.7 1M context resta 1M input, 128K output, senza premium aggiuntivo. Amazon Bedrock è disponibile in quattro regioni: Virginia, Tokyo, Ireland, Stockholm — comoda per chi ha vincoli GDPR. Vertex AI e Microsoft Foundry completano il quadro enterprise.
Le novità funzionali che importano davvero sono quattro.
Effort level xhigh: nuovo livello tra high e max, raccomandato per coding e agentic. In Claude Code è già il default per i piani paganti.
Task Budgets in beta: header task-budgets-2026-03-13, parametro task_budget (minimo 20k token) che suggerisce al modello quanti token consumare sull'intero loop agentico. Diverso da max_tokens, che è hard cap per-request.
Vision 2576 pixel lato lungo, 3.75 megapixel: screenshot Proxmox, Grafana, dashboard NetBird si leggono senza downsampling distruttivo. Coord 1:1 con pixel reali.
Memory tool migliorata: scratchpad file-system-based client-side più affidabile per agent autonomi.
I breaking change, invece, Anthropic li chiama semplificazioni e sono tre, tutti capaci di rompere pipeline in produzione. I sampling parameters (temperature, top_p, top_k) con valore non-default restituiscono 400. Gli extended thinking budgets (thinking:{"type":"enabled","budget_tokens":N}) sono rimossi: resta solo adaptive, off by default. Il thinking content ora è omesso se non chiedi esplicitamente display:"summarized": chi ha pipeline che consumano riassunti di CoT si ritrova con stream vuoti.
L'utente gck1 su Hacker News ha riassunto bene il problema: "Ho interi processi costruiti sopra i riassunti di CoT. Forniscono un valore enorme." La critica dominante nel thread HN — 1358 upvote, 983 commenti in 24 ore — non sono però i sampling parameters: è l'adaptive thinking stesso, il router che decide quando attivare il ragionamento esteso. Il commento più votato parla di un modello che "sceglie di non pensare quando dovrebbe". JamesSwift sulla stessa discussione riporta che "disabilitare adaptive thinking più aumentare l'effort sembra essere quello che mi ha riportato al baseline" — il drop-in migration semplicemente non esiste, e la sola configurazione che riporta la qualità al livello 4.6 è disable adaptive + effort xhigh. Il pattern di questa release va letto in chiaro: meno parametri, più opinioni del modello, prompt più letterali. Abbiamo raccontato una dinamica simile analizzando la pipeline Anthropic che automatizza la caccia a zero-day tra LLM — stessa filosofia: Anthropic opinioniza i default e chi ha automatizzato si adegua o paga tempo di debug.
La stranezza: Claude Mythos Preview, il modello che Anthropic dice di non volerti dare
Nella stessa release Anthropic fa un'affermazione rara tra i vendor AI: esiste un modello interno, Claude Mythos Preview, più potente di Opus 4.7, che non viene rilasciato perché considerato rischioso. Su SWE-bench Verified Mythos sta al 93.9%, su HLE con tools al 64.7%, su Terminal-Bench 2.0 all'82.0%. L'UK AI Security Institute — citato direttamente nella comunicazione Anthropic — descrive Mythos come il primo modello capace di portare a termine attacchi cyber autonomi a livelli che nessun modello frontier aveva raggiunto prima, con 3 successi su 10 tentativi nel test "The Last Ones", simulazione di attacco in 32 step.
"I'm giving this one to Qwen 3.6. Opus managed to mess up the bicycle frame! [...] if the thing you need is an SVG illustration of a pelican riding a bicycle though, right now Qwen3.6-35B-A3B running on a laptop is a better bet than Opus 4.7!" — Simon Willison
La citazione di Willison è deliberatamente frivola — è il suo benchmark del pellicano in bicicletta, notoriamente bizzarro — e per questo fa centro. La narrativa ufficiale è "abbiamo il modello più capace del mondo, ma il più capace che decidiamo di darvi è Opus 4.7, perché il vero top è troppo pericoloso." Ma per certi task, un modello open da 35 miliardi di parametri che gira in 21 GB quantizzati su un laptop batte il top di gamma proprietario. Willison stesso precisa di non credere che Qwen sia globalmente superiore. Il punto è un altro: "il modello più capace" dipende dal lavoro, e il frame Mythos-as-locked-weapon serve anche a raccontare una storia di controllo responsabile che funziona da messaggio pubblico oltre che da cautela reale.
Decrypt e Axios hanno letto la mossa in modo quasi speculare: Anthropic sta virando da language model provider a full-stack AI studio, con il design tool che genera siti, slide e landing da prompt inglese. Mythos non rilasciato rafforza il posizionamento regolatorio — utile sia davanti ai governi sia davanti agli investitori della Series G da $30 miliardi chiusa a febbraio. Non significa che la cautela sia finta. Significa che è anche marketing strutturale.
Quando usare Claude Opus 4.7 e quando restare su 4.6 o Sonnet
Il contesto da 1M token senza premium è la feature che cambia un workflow realistico per chi ha un homelab o un repository di medie dimensioni. Un progetto personale con script, docker-compose, configurazioni NetBird e documentazione sta in 1M token. Caricare tutto in una sola chiamata significa niente più pre-filtraggio artificiale o embedding retrieval per ogni sessione di pair-programming.
Il conto base: 1M token input a $5/MTok = $5 per una query full-context. Con la cache a 1 ora, il primo caricamento costa $10 di write, ma ogni chiamata successiva costa $0.50 se il prefisso è identico. Su una sessione di un'ora con 20 query su stesso contesto, si passa da $100 teorici a $19.50 reali. Questo cambia davvero qualcosa. Su workload con prompt ripetitivi, l'impatto del prompt caching è il motivo per cui il TCO reale non esplode — lo stesso principio che rende sostenibile un workflow agentico self-hosted come Archon su un cluster casalingo.
Per chi fa ricerca web agentica, il quadro si rovescia. La regressione BrowseComp (−4.4 punti) e Terminal-Bench ancora sotto GPT-5.4 suggeriscono di non migrare pipeline di scraping o di shell autonoma a cuor leggero. Test A/B prima del cutover, con misure reali e non percepite. Se l'agent corre in un CT Proxmox dedicato, l'economia del confronto tra inference locale e API cambia a sua volta: con Opus 4.7 a TCO effettivo +30%, il break-even di un Mac Mini M4 Pro a 30-40W rispetto ai $200/mese API scende sotto l'anno e mezzo. Non per tutti i task, ma per quelli ripetitivi sì.
Un'altra considerazione per chi gestisce infrastruttura locale: i cyber safeguards attivati di default bloccano richieste di pentest offensivo. Per un security researcher legittimo c'è il Cyber Verification Program, ma per il classico "mi auto-pentesto la rete di casa" diventa un attrito nuovo che prima non c'era. Su Anthropic 4.6 passava quasi sempre; su 4.7 serve riformulare o passare attraverso il programma di verifica.
Anthropic rivendica il 40% della spesa enterprise LLM e il 54% dell'uso per coding (Menlo Ventures 2025 State of Generative AI Report). Opus 4.7 consolida quel primato nella nicchia dove è oggettivamente avanti: SWE-bench, MCP-Atlas, vision technical. Nel resto della classifica degli strumenti AI più usati nel 2026, la posizione di Claude resta legata a quella nicchia. Non è un modello "migliore su tutto". È il modello migliore per scrivere codice, e basta questo a giustificare la migrazione per chi vive di quello.
Il messaggio di marketing è "stesso prezzo, più capacità". Il messaggio tecnico onesto sarebbe: prezzo per-token invariato, prezzo per-task maggiore, capacità in crescita netta sul coding e in regressione misurabile sulla ricerca web, con un modello interno più potente tenuto volutamente in cassaforte. Quello non è lo stesso post. Ma è l'unico che aiuta davvero a decidere se Claude Opus 4.7 entra nel tuo stack domani o la prossima settimana.