AI 瀏覽器基礎設施公司 Browserbase 正式推出 browse.sh,一個專門給 AI 代理(agent)使用的瀏覽器命令列工具(CLI),並附帶超過 500 個預寫好的「網路操作技能」。
(前情提要:Claude Code 終極速查表:快捷鍵、Slash 指令、技能、Agents 代理、MCP 完整操作密技)
(背景補充:Y Combinator 創業指南解讀:AI Agent 在未來有哪些發展趨勢?)
本文目錄
- browse.sh 是什麼?Browserbase 推出的 AI 代理瀏覽器命令列工具
- browse CLI 怎麼用?基礎指令與雲端切換
- 500 個技能涵蓋哪些網站?
- Free 免信用卡,$20 起支援 25 個並行瀏覽器
- Browserbase 是誰?累計募資 $67.5M 的 AI 瀏覽器基礎設施公司
- 現有限制與未來:agent 真的「會做事」還需要幾步?
5月份,一個名叫 browse.sh 的工具正式上線,它要解決的是如何讓 AI 代理(agent)如何更快速、正確的「上網做事」?
以往的答案是:自己把整個網頁的 HTML 原始碼交給語言模型判斷要點擊哪裡、填什麼欄位。這個方式不只慢,還非常燒錢:一個稍微複雜的電商頁面,光 HTML 就可能有好幾萬個字元,全部餵給語言模型,token費用支出不小。
Browserbase 給的答案是:預先把每個網站的操作邏輯寫成一個「技能包 skill」,agent 只要呼叫技能,不用每次都讀整頁 HTML。browse.sh 就是這個想法的命令列入口,也是一個開放的技能目錄(open web skill catalog)。
browse.sh 是什麼?Browserbase 推出的 AI 代理瀏覽器命令列工具
browse.sh 的官方定義是「Browser CLI and open web skill catalog for agents」,翻成白話:一個給 AI 代理用的瀏覽器命令列工具,外加一個開放的網路操作技能商店。
這裡有兩個核心概念要先拆開說清楚:
什麼是 CLI(命令列介面)?就是你在終端機視窗裡打字執行的工具。npm、git、python 都是 CLI 工具。browse 也是,安裝後就能在終端機打 browse click "input#search" 讓瀏覽器點一個特定元素。
什麼是 headless browser(無頭瀏覽器)?一個不會實際在螢幕上開啟視窗的瀏覽器程式,但行為跟真實的 Chrome 完全一樣:可以執行 JavaScript、處理 Cookie、繞過基本的反機器人偵測。AI agent 透過它「看」網頁、填表單、點按鈕,用戶什麼都不用開。
什麼是 skill(技能)?一個預先寫好的操作指令碼,告訴 agent「這個網站的搜尋欄在哪、下單按鈕是什麼 id、API 回傳的 JSON 格式長什麼樣」。比起讓 agent 每次都自己摸索,skill 讓整個流程又快又省 token。
browse.sh 的底層是 Browserbase 自家開源的 Stagehand:Browserbase 自己寫的「讓 AI 操作瀏覽器」的開源工具包,可以把它想成 Playwright 加上 AI 語意理解層。browse.sh 是把 Stagehand 的功能包裝成更好用的命令列工具,並在上面加了 500 多個現成技能。
整個生態的入口有三個:
- https://browse.sh/:官方網站與技能目錄瀏覽入口
- https://browse.sh/llms.txt:給 AI agent 讀的精簡技能索引(體積小,適合直接餵給語言模型)
- https://browse.sh/llms-full.txt:完整的 SKILL.md 說明,包含每個技能的 DOM 選擇器與使用方式
這個設計本身就很有意思:browse.sh 知道它的用戶不是人,而是 AI,所以索引格式從一開始就是為語言模型設計的。
browse CLI 怎麼用?基礎指令與雲端切換
安裝只需一行:
$ npm install -g browse
裝好之後,基礎操作指令涵蓋了一個瀏覽器 session 的完整生命週期:
$ browse click "input#search" $ browse type "Apartments in SF" $ browse press "Enter" $ browse screenshot $ browse network --tail $ browse console --tail
這裡的 DOM 選擇器(DOM selector)是什麼?DOM 是網頁的結構樹,每個按鈕、輸入框、連結都是樹上的一個節點。DOM 選擇器就是告訴瀏覽器「要操作哪個節點」的精確地址,例如 input#search 意思是「id 叫 search 的輸入框」,button.submit-btn 意思是「class 叫 submit-btn 的按鈕」。
browse screenshot 讓 agent 在操作過程中隨時截圖確認畫面狀態;browse network --tail 則會即時列印出瀏覽器發出的所有 HTTP 請求:這對除錯非常有用,也讓開發者能直接看到網站呼叫的後端 API 端點,方便之後寫成 api 型別的 skill。
安裝技能只需要一行,之後 agent 就能直接用該網站的預寫好操作邏輯:
$ browse skills add airbnb.com
官方給的完整場景範例示範了這個工具的能力上限,讓 Claude 規劃一趟猶他州公路旅行,包含充電站、露營地,最後還自動到 Ramp 申請報帳:
$ browse skills add alltrails.com $ browse skills add recreation.gov $ browse skills add weather.gov $ browse skills add plugshare.com $ browse skills add ramp.com $ claude "Plan a road trip to Utah with EV charging stops and campsites for each night. Book and reimburse on Ramp."
本地模式 vs 雲端模式是一個很實用的設計:預設情況下 browse 跑的是電腦上的本地 Chromium,適合開發和測試。當要上正式環境,只要在指令前加 cloud 就能切到 Browserbase 的雲端瀏覽器基礎設施:自動幫你處理 CAPTCHA(圖形驗證碼)、身份驗證、IP 輪換:
$ browse cloud sessions create $ browse cloud fetch "https://www.nytimes.com/section/us" $ browse cloud search "Latest White House press release"
這個「本地開發、雲端生產」的分離設計讓開發者在本機測試不用付費,只有真正大量執行時才產生費用,對獨立開發者相當友善。
500 個技能涵蓋哪些網站?
超過 500 個技能全部開源在 GitHub 的 browserbase/skills 倉庫,任何人可以用 Pull Request 貢獻新技能。主要分類如下:
| 類別 | 代表站點 | 技能型別 |
|---|---|---|
| 旅遊 | Airbnb、Booking.com、AllTrails、Recreation.gov | browser / hybrid |
| 電商 | Amazon、AliExpress、eBay | browser |
| 房地產 | Zillow、Redfin | browser |
| 餐廳 / 外送 | Allrecipes、Yelp、DoorDash | browser / api |
| 求職 | LinkedIn、Indeed | browser |
| 金融服務 | Ramp(企業報帳) | hybrid |
| 政府 / 監管 | weather.gov、12306.cn | browser |
| 醫療 | (多個預約平台) | browser |
| 媒體 / 娛樂 | (主流新聞、串流平台) | api / hybrid |
| 汽車 / 居家 | (多個服務平台) | browser |
技能分三種型別,差異在「agent 用什麼方法取得資料」:
- browser 型別:agent 用 headless Chromium 直接操作網頁畫面,適合沒有公開 API 的網站
- api 型別:agent 直接打網站的後端 API 端點,繞過瀏覽器渲染,速度更快、更穩定
- hybrid 型別:混合使用,例如登入用瀏覽器,抓資料用 API
token 成本邏輯是這個分類設計最重要的理由。以往 agent 操作一個電商網頁,要把完整 HTML 塞給語言模型分析,一個亞馬遜商品頁可能有 3 萬個字元,換算成 token 大約是 7,000 至 10,000 個。如果 agent 每步都要讀一次頁面,一個 10 步的操作就要消耗 10 萬個 token,費用很快就失控。
browse.sh 的 skill 預先標好了「搜尋欄在哪、結果清單的 DOM 是什麼、API 回傳的關鍵欄位是哪幾個」,agent 收到的是精簡指令而非整頁 HTML。
Browserbase 官方宣稱這能把 token 成本降低 50 倍,雖然實際數字因使用場景而異,但這個方向是正確的,這也是讓「會上網的 agent」從燒錢的噱頭變成可商業化產品的關鍵一步。
Free 免信用卡,$20 起支援 25 個並行瀏覽器
browse.sh 本身是免費開源工具,但其底層的雲端執行環境 Browserbase 是付費服務。定價架構如下:
| 方案 | 月費 | 並行瀏覽器數 | 內含小時數 | 超用費 | 住宅代理 |
|---|---|---|---|---|---|
| Free | $0 | 3 | 1 小時 | — | — |
| Developer | $20 | 25 | 100 小時 | $0.12 / 小時 | 1 GB |
| Startup | $99 | 100 | 500 小時 | $0.10 / 小時 | 5 GB |
| Scale | 客製報價 | 250+ | 客製 | 客製 | 客製 |
幾個值得注意的細節:
- Free 方案不需信用卡,每月 1 小時內含量適合快速驗證想法
- Developer 以上含 Stealth 模式(讓瀏覽器看起來更像真人在操作,降低被封鎖的機率)與自動 CAPTCHA 破解
- 計費是 usage-based(按實際用量計費,透過 Stripe 結算),不是固定席位費
- 住宅代理(residential proxy):用真實住宅 IP 位址發出請求,避免被網站識別為機房 IP 而封鎖。Developer 方案含 1 GB、Startup 含 5 GB
browse.sh 與市面上主要競品的差異比較:
| 工具 | 定位 | 與 browse.sh 的核心差異 | 適合物件 |
|---|---|---|---|
| Playwright / Puppeteer | 通用瀏覽器自動化框架 | 無 skill catalog;每個網站的操作邏輯需自行撰寫;學習門檻較高 | 熟悉前端的全端工程師 |
| Stagehand | Browserbase 自家 AI SDK | browse.sh 是 Stagehand 的命令列封裝,加了 skill catalog;Stagehand 更偏向程式庫用法 | 需要深度客製化的開發者 |
| Vercel agent-browser | Vercel 的 agent 瀏覽器 | 偏向 Next.js 生態系整合,skill 數量較少 | 在 Vercel 平台上構建應用的開發者 |
| BrowserAct | 開源 AI agent skill | 較新,skill 數量目前遠少於 500 | 偏好完全開源且自託管的開發者 |
| TinyFish | 雲端瀏覽器自動化 | 主打企業 RPA(機器人流程自動化),較少針對 AI agent 最佳化 | 企業流程自動化需求 |
browse.sh 的主要優勢在於:技能目錄的規模(500 個 skill 遠超競品)、與 Claude Code 的深度整合(可從對話直接呼叫)、以及開發體驗的友善度(本地免費開發、一個 cloud 字首切換生產環境)。
Browserbase 是誰?累計募資 $67.5M 的 AI 瀏覽器基礎設施公司
Browserbase 成立於 2024 年,核心產品是「雲端 headless Chromium 瀏覽器即服務(BaaS)」——簡單說,就是把高度擬人化的瀏覽器環境包裝成 API,讓開發者不用自己維護瀏覽器叢集。
融資歷程:
- 種子輪(Seed):$6.5M
- A 輪(2024 Q3):$21M,CRV 與 Kleiner Perkins 共同領投
- B 輪(2025 Q2):$40M,Notable Capital 領投、CRV 與 Kleiner Perkins 跟投,估值約 $3 億美元
- 累計募資:$67.5M
兩輪合計吸引到 Kleiner Perkins(早期投過 Google、Amazon)這個等級的 VC 持續加碼,顯示這個賽道的吸引力不是短期熱潮。
Browserbase 的技術差異化在基礎設施層:
- Identity(身份系統):幫 agent 管理登入狀態與 Cookie,讓每個 session 都像真實用戶
- Verified browsers(已驗證瀏覽器):透過主要網站的機器人偵測篩查
- 自動 CAPTCHA 破解:無需人工幹預,agent 可以無縫透過圖形驗證
- 住宅 IP 代理:用真實家用網路 IP 出口,避免機房 IP 被封鎖
合作夥伴名單本身就是一張背書清單:Anthropic(Claude 的母公司)、Perplexity(AI 搜尋引擎)、LangChain(最廣泛使用的 AI agent 框架)、Vercel(前端部署平台)都是客戶或整合夥伴。
從生態系時間軸來看,browse.sh 的推出不是孤立事件:2026 年 1 月 Vercel 推出 skills.sh(agent skill 公開目錄),2026 年 5 月 Anthropic 擴大 Claude Skills 生態(推出金融分析 41 個 skill、Claude Design 等),同月 Browserbase 推出 browse.sh 並深度整合 Claude Code。
這些動作共同描繪了一個趨勢:從「會聊天的語言模型」走向「會做事的 agent」,而 skill = 動作模組,是讓 agent 真正落地的關鍵零件。
現有限制與未來:agent 真的「會做事」還需要幾步?
browse.sh 目前仍有幾個值得注意的限制:
- 讀多於寫:目前 500 個 skill 中,查詢、搜尋、抓資料類的技能佔多數;涉及「下單付款」「提交表單」這類有真實副作用的操作較少,風險控管邏輯尚未標準化
- 網站更新維護成本:網站改版後,DOM 選擇器就可能失效。500 個 skill 需要社群持續維護,這是開放生態的共有難題
- 登入態管理複雜度:需要 OAuth、雙因素驗證(2FA)的網站,agent 的登入流程仍然較複雜,目前主要靠 Browserbase 的 Identity 系統輔助
- 法規灰色地帶:自動化操作某些網站可能觸及服務條款,各地法律明確性不一
即便如此,browse.sh 的推出時機點抓得很精準:Claude Code 已有大量開發者在用,skills 生態正在快速擴張,agent 基礎設施的標準化正在凝聚。Browserbase 在賣的不只是雲端瀏覽器服務,而是讓 agent「真的會做事」的能力層,這和只會回答問題的聊天機器人是本質上不同的產品形態。
從 token 成本降 50 倍、到深度整合 Claude Code、到 500 個現成技能,browse.sh 試圖讓「會上網的 agent」從技術論文裡走到任何開發者的終端機。對加密產業而言,這既是效率工具,也是需要提前思考防禦的新變數。
📍相關報導📍
Anthropic 工程師萬字解析:我們如何用「Skills」把 Claude Code 逼出極限?9 大應用情境送給你
Anthropic 開源金融分析外掛:41 個 Skills 一鍵研究股票、財報分析、財富管理
Cloudflare Email 公測:AI Agent 現在能獨立收發郵件,MCP 伺服器讓 Claude Code 一句話就能
Coinbase x402 整合 AWS AgentCore:讓 AI 代理能自主找服務、付款、完成任務
Anthropic 報告:2028 年 AI 霸主之爭,美國不守住算力優勢恐被中國反超







