Anthropic wypuścił Claude Opus 4.7 z trybem xhigh

Firma Anthropic w dniu 16 kwietnia 2026 roku otworzyła ogólny dostęp do Claude Opus 4.7 – zaktualizowanego flagowego modelu, który zastępuje Opus 4.6. Główny nacisk położono na złożone tworzenie oprogramowania: deweloperzy deklarują zauważalny wzrost wydajności w najtrudniejszych zadaniach programistycznych i w długotrwałych scenariuszach agentowych. Nowa wersja potrafi również pracować z obrazami o trzykrotnie wyższej rozdzielczości, lepiej stosuje się do instrukcji i wykorzystuje pamięć plikową do pracy wielosesyjnej. Jednocześnie Opus 4.7 otrzymał wbudowane mechanizmy ochrony przed zabronionymi scenariuszami w dziedzinie cyberbezpieczeństwa.

Co nowego w porównaniu z Opus 4.6

Według Anthropic, Opus 4.7 znacząco się rozwinął właśnie w tych zadaniach programistycznych, gdzie wcześniej wymagany był intensywny nadzór człowieka: długie łańcuchy działań, wieloetapowe refaktoryzacje, debugowanie w dużym kodzie. Model oblicza strategię weryfikacji własnych wyników, zanim zgłosi zakończenie pracy – co zmniejsza liczbę fałszywych alarmów „gotowe”.

Osobno podkreśla się wzrost w zakresie wsparcia analizy obrazów. Opus 4.7 przyjmuje obrazy o rozmiarze do 2576 pikseli na dłuższym boku (około 3,75 megapiksela) – to ponad trzykrotnie więcej niż w poprzednich modelach Claude. Zmiana została zaimplementowana na poziomie modelu, a nie jako parametr API: każdy obraz przekazany do Claude jest teraz przetwarzany w wyższej rozdzielczości. Anthropic wskazuje trzy docelowe scenariusze: agenci z kontrolą komputera, którzy czytają gęste zrzuty ekranu; ekstrakcja danych ze złożonych schematów; praca wymagająca odniesień na poziomie pikseli.

W ocenach na podstawie wielu benchmarków Opus 4.7 przewyższa Opus 4.6, pozostając jednocześnie mniej zdolnym w szerokim znaczeniu niż ograniczenie dostępny Claude Mythos Preview. W niezależnej ocenie GDPval-AA (ekonomicznie istotna praca intelektualna w finansach, orzecznictwie i pokrewnych dziedzinach) oraz w Finance Agent model wykazał najlepszy wynik w momencie premiery. Wewnętrzne testy Anthropic odnotowały również wyższej jakości analizy finansowe, prezentacje i spójność między powiązanymi zadaniami.

Stosowanie się do instrukcji i pamięć

Anthropic ostrzega: Opus 4.7 interpretuje instrukcje bardziej dosłownie niż jego poprzednicy. Prompty napisane dla Opus 4.6 i wcześniejszych mogą dawać nieoczekiwane wyniki – tam, gdzie stare modele traktowały wskazówki swobodnie lub po cichu pomijały ich część, Opus 4.7 wykona je dosłownie. Deweloperom zaleca się dostrojenie promptów i otoczki do nowego modelu.

Osobne ulepszenie dotyczy pamięci opartej na systemie plików. Model lepiej sięga po notatki zapisane w plikach i wykorzystuje je między sesjami długotrwałej pracy – dzięki czemu nowe zadania wymagają mniej kontekstu wprowadzającego.

Pamięć oparta na systemie plików to podejście, w którym model samodzielnie prowadzi robocze zapisy w plikach i sięga do nich w kolejnych uruchomieniach, zamiast polegać wyłącznie na zawartości bieżącego okna kontekstu.

Cyberbezpieczeństwo: wbudowane filtry i program weryfikacji

W zeszłym tygodniu Anthropic ogłosił Project Glasswing – inicjatywę, w ramach której Claude Mythos Preview jest używany do wyszukiwania luk w krytycznej infrastrukturze przez ograniczoną grupę partnerów. Firma natychmiast oświadczyła, że szeroka dostępność Mythos Preview nie jest planowana, a nowe mechanizmy ochrony przed niezamierzonym użyciem będą najpierw testowane na mniej zdolnych modelach.

Opus 4.7 jest pierwszym takim modelem. Jego możliwości cybernetyczne są niższe niż Mythos Preview: podczas treningu Anthropic przeprowadzał eksperymenty zróżnicowanego tłumienia właśnie tej klasy zdolności. Dodatkowo Opus 4.7 został wydany z wbudowanymi środkami ochrony, które automatycznie identyfikują i blokują żądania z oznakami zabronionego lub wysokiego ryzyka zastosowania w dziedzinie cyberbezpieczeństwa. Anthropic postrzega Opus 4.7 jako poligon testowy przed ewentualną szeroką premierą modeli z klasy Mythos.

Do legalnych zadań – badania luk, testów penetracyjnych, red teamingu – otwarto Cyber Verification Program: specjaliści ds. bezpieczeństwa mogą złożyć wniosek i uzyskać dostęp do Opus 4.7 bez standardowych ograniczeń.

Red teaming to symulowanie działań prawdziwego napastnika w celu sprawdzenia bezpieczeństwa systemu. W kontekście AI oznacza to również celowe poszukiwanie sposobów obejścia ograniczeń modelu.

Poziom wysiłku xhigh, budżety zadań i aktualizacje Claude Code

Wraz z modelem Anthropic wprowadził nowy poziom wysiłku – xhigh („extra high”), który plasuje się między high a max. Zapewnia on drobniejszą kontrolę nad równowagą między głębokością rozumowania a opóźnieniem odpowiedzi w złożonych zadaniach. W Claude Code poziom xhigh stał się wartością domyślną dla wszystkich taryf. Podczas używania Opus 4.7 do programowania i scenariuszy agentowych deweloperzy zalecają zaczynanie od high lub xhigh.

Na platformie Claude (API), oprócz obsługi obrazów o wyższej rozdzielczości, w publicznej becie uruchomiono task budgets – budżety zadań. Pozwalają one kierować wydatkowaniem tokenów przez model tak, aby Claude ustalał priorytety między podzadaniami w trakcie długotrwałych uruchomień.

W Claude Code pojawiło się polecenie /ultrareview: uruchamia ono oddzielną sesję przeglądu, w której model przechodzi przez zmiany i wskazuje błędy oraz wady projektowe, które zauważyłby uważny recenzent. Użytkownicy Claude Code w taryfach Pro i Max otrzymują trzy darmowe uruchomienia do zapoznania się. Ponadto tryb auto (w którym Claude samodzielnie podejmuje decyzje dotyczące uprawnień) został rozszerzony na subskrybentów Max – pozwala to uruchamiać długotrwałe zadania z mniejszą liczbą przerwań i mniejszym ryzykiem niż przy całkowitym wyłączeniu sprawdzania uprawnień.

Poziom wysiłku to parametr API Claude, który reguluje, ile tokenów model zużywa na wewnętrzne rozumowanie przed odpowiedzią. Możliwe wartości od low do max; im wyższy poziom, tym głębsza analiza i droższe żądanie.

Dostępność i ceny

Opus 4.7 jest dostępny już dziś we wszystkich produktach Claude oraz przez API Claude, a także na Amazon Bedrock, Google Cloud Vertex AI i Microsoft Foundry. Identyfikator modelu dla API to claude-opus-4-7. Cena została utrzymana na poziomie Opus 4.6: za milion tokenów wejściowych i za milion tokenów wyjściowych.

Przy przejściu z Opus 4.6 należy wziąć pod uwagę dwa czynniki bezpośrednio wpływające na zużycie tokenów. Po pierwsze, Opus 4.7 używa zaktualizowanego tokenizatora: ten sam tekst wejściowy może być mapowany na większą liczbę tokenów, mniej więcej w zakresie 1,0–1,35x w zależności od typu treści. Po drugie, na wysokich poziomach wysiłku model zużywa więcej tokenów na wewnętrzne rozumowanie, szczególnie w późnych iteracjach sesji agentowych. Niezawodność w złożonych zadaniach rośnie, ale rośnie też licznik wyjściowy. Anthropic wskazuje, że w wewnętrznej ocenie programowania łączne zużycie tokenów na wszystkich poziomach wysiłku uległo poprawie, jednak dla rzeczywistego ruchu zaleca się przeprowadzenie własnych pomiarów.

Bezpieczeństwo i zgodność

Według wewnętrznych ocen Anthropic profil bezpieczeństwa Opus 4.7 jest zbliżony do Opus 4.6: niskie wskaźniki oszustwa, pochlebstwa i gotowości do niezamierzonego użycia. Pod względem uczciwości i odporności na prompt injection nowy model przewyższa swojego poprzednika. Istnieją też regresje: Opus 4.7 chętniej niż Opus 4.6 udziela nadmiernie szczegółowych zaleceń dotyczących redukcji szkód przy spożywaniu substancji kontrolowanych. Końcowe sformułowanie audytu zgodności brzmi: model jest „w większości dobrze zgodny i godny zaufania, chociaż jego zachowanie nie jest idealne”. Mythos Preview według zbioru ocen pozostaje najbardziej zgodnym modelem Anthropic.

Prompt injection to atak, w którym w zewnętrznych danych (plik, strona internetowa, e-mail) ukrywane są instrukcje, które zmuszają model do wykonania niepożądanego działania zamiast zadania użytkownika.

Podsumowanie

Opus 4.7 jest bezpośrednią aktualizacją Opus 4.6 z myślą o długotrwałych zadaniach programistycznych agentów, pracy z obrazami o wysokiej rozdzielczości i profesjonalnych scenariuszach w finansach i orzecznictwie. Dla deweloperów oznacza to jedno: nowa wersja wymaga staranniej sformułowanych instrukcji i pomiaru rzeczywistego zużycia tokenów z powodu nowego tokenizatora i głębszego rozumowania na poziomie xhigh. Dla specjalistów ds. bezpieczeństwa, którym wbudowane filtry przeszkadzają w legalnej pracy, otwarto Cyber Verification Program. Model jest już dostępny w Claude, Claude Code, a także przez API Claude, Amazon Bedrock, Google Cloud Vertex AI i Microsoft Foundry w cenach Opus 4.6.