OpenAI wypuściło rozszerzenie Codex dla Chrome – bezpośrednia praca z przeglądarką na Windows i macOS

OpenAI wypuściło rozszerzenie Codex dla Chrome – bezpośrednia praca z przeglądarką na Windows i macOS — Factivera

OpenAI zintegrowało Codex z Chrome poprzez natywne rozszerzenie dla macOS i Windows. Agent AI wykonuje automatyzacje przeglądarki, zarządzanie kartami i interakcje z aplikacjami internetowymi poprzez aktywne sesje użytkownika, bez całkowitego przejmowania kontroli.

Korporacja OpenAI przedstawiła rozszerzenie Codex dla przeglądarki Chrome, działające pod systemami operacyjnymi Windows i macOS. To rozwiązanie pozwala modelowi językowemu działać jako agent zdolny do bezpośredniej interakcji ze strukturą DOM stron internetowych, wysyłania zdarzeń kliknięć i wprowadzania tekstu oraz odczytywania danych z zabezpieczonych aplikacji internetowych przez już autoryzowane sesje użytkownika. W przeciwieństwie do klasycznych narzędzi RPA, Codex nie wymaga pełnej emulacji przeglądarki – działa na rzeczywistej instancji Chrome.

Architektura rozszerzenia obsługuje równoległą pracę z grupami kart. Codex może przetwarzać zadania z jednego wątku w ramach dedykowanej grupy kart Chrome, zachowując kontekst nawigacji. Technicznie zaimplementowano scenariusze wypełniania formularzy wieloetapowych, sprawdzania pulpitów nawigacyjnych i debugowania skryptów JavaScript bezpośrednio w konsoli przeglądarki. Rozszerzenie działa również w tle bez blokowania interfejsu użytkownika.

Instalacja wymaga pobrania wtyczki Codex z Chrome Web Store i potwierdzenia uprawnień do odczytu danych ze stron oraz zarządzania kartami. Następnie w aplikacji desktopowej Codex w sekcji „Wtyczki” następuje powiązanie rozszerzenia. Podczas tworzenia nowego wątku usługa automatycznie wybiera narzędzie: używa Chrome dla stron z uwierzytelnianiem użytkownika (np. Salesforce, Gmail) oraz wbudowanej przeglądarki aplikacji dla localhost i plików lokalnych. Bezpośrednie wywołanie przeglądarki jest możliwe za pomocą polecenia „@Chrome”.

Rozszerzenie subskrybuje zdarzenia API chrome.debugger i chrome.tabs, uzyskując bezpośredni dostęp do strumieni CDP (Chrome DevTools Protocol). Za pośrednictwem połączenia WebSocket między rozszerzeniem a lokalnym serwerem aplikacji desktopowej Codex przesyłane są serializowane polecenia. Model OpenAI generuje sekwencję działań (lokalizatory XPath, wprowadzanie tekstu, kliknięcia), które rozszerzenie wykonuje wewnątrz wybranej karty. Ciasteczka sesyjne i localStorage są zachowywane, co zapewnia działanie z istniejącym uwierzytelnieniem. Grupy kart są wiązane z identyfikatorem wątku za pomocą chrome.tabGroups, umożliwiając agentowi izolowanie kontekstów różnych zadań.

Kluczowa różnica w porównaniu z poprzednimi rozwiązaniami to brak potrzeby stosowania przeglądarki headless ani serwera proxy. Zmniejsza to wykrywanie jako bota przez systemy antybotowe (Cloudflare, reCAPTCHA v3), ponieważ wszystkie zdarzenia są emulowane z rzeczywistego profilu użytkownika Chrome. Zwiększa to jednak ryzyko wycieku danych przez rozszerzenie, które ma dostęp do wszystkich aktywnych kart. Cena dostępu do Codex przez API wynosi od 20 dolarów za tysiąc sesji, w zależności od regionu.