OpenAIは、macOSとWindows向けのネイティブ拡張機能を通じて、CodexをChromeに統合した。このAIエージェントは、ブラウザの自動化、タブ管理、ウェブアプリケーションとの連携を、ユーザーのアクティブセッションを通じて実行し、完全な操作の乗っ取りは行わない。
OpenAIは、WindowsおよびmacOSオペレーティングシステム上で動作するChromeブラウザ向けの拡張機能Codexを発表した。このソリューションにより、言語モデルはエージェントとして機能し、ウェブページのDOM構造と直接対話し、クリックや入力イベントを送信し、既に認証済みのユーザーセッションを通じて保護されたウェブアプリケーションからデータを読み取ることが可能になる。従来のRPAツールとは異なり、Codexはブラウザの完全なエミュレーションを必要とせず、実際のChromeインスタンス上で動作する。
この拡張機能のアーキテクチャは、タブグループの並行処理をサポートする。Codexは、Chromeのタブグループ内で単一のスレッドからタスクを処理し、ナビゲーションコンテキストを維持できる。技術的には、多段階フォームの入力、ダッシュボードの確認、ブラウザコンソールでのJavaScriptスクリプトのデバッグといったシナリオが実装されている。また、この拡張機能はユーザーインターフェースをブロックすることなくバックグラウンドでも動作する。
インストールには、ChromeウェブストアからCodexプラグインをダウンロードし、ページからのデータ読み取りとタブ管理に関する権限を承認する必要がある。その後、デスクトップアプリケーションのCodexの「プラグイン」セクションで拡張機能を連携させる。新しいスレッドを作成する際、サービスは自動的にツールを選択する。ユーザー認証が必要なサイト(SalesforceやGmailなど)ではChromeを使用し、localhostやローカルファイルにはアプリケーション内蔵のブラウザを使用する。ブラウザの直接呼び出しは「@Chrome」コマンドで可能である。
この拡張機能は、chrome.debugger APIとchrome.tabs APIのイベントをサブスクライブし、CDP(Chrome DevTools Protocol)ストリームへの直接アクセスを得る。拡張機能とデスクトップアプリケーションCodexのローカルサーバー間のWebSocket接続を介して、シリアル化されたコマンドが転送される。OpenAIモデルはアクションのシーケンス(XPathロケーター、入力、クリック)を生成し、拡張機能がそれを選択されたタブ内で実行する。セッションCookieとlocalStorageは保持されるため、既存の認証情報での動作が保証される。タブグループはchrome.tabGroupsを通じてスレッドIDにバインドされ、エージェントが異なるタスクのコンテキストを分離できるようにする。
従来のソリューションとの主な違いは、ヘッドレスブラウザやプロキシサーバーが不要な点である。これにより、全てのイベントが実際のユーザープロファイルのChromeからエミュレートされるため、CloudflareやreCAPTCHA v3などのアンチボットシステムによるボット検出を低減できる。しかしその一方で、全てのアクティブなタブにアクセス可能な拡張機能を通じたデータ漏洩のリスクが高まる。APIを通じたCodexへのアクセス料金は、地域に応じて1,000セッションあたり20ドルからとなっている。