爬蟲神器 browse.sh：提供 AI 代理超 500＋常用網站完整操作技能包 Skill

AI 瀏覽器基礎設施公司 Browserbase 正式推出 browse.sh，一個專門給 AI 代理（agent）使用的瀏覽器命令列工具（CLI），並附帶超過 500 個預寫好的「網路操作技能」。
（前情提要：Claude Code 終極速查表：快捷鍵、Slash 指令、技能、Agents 代理、MCP 完整操作密技）
（背景補充：Y Combinator 創業指南解讀：AI Agent 在未來有哪些發展趨勢？）

本文目錄

Toggle

browse.sh 是什麼？Browserbase 推出的 AI 代理瀏覽器命令列工具
browse CLI 怎麼用？基礎指令與雲端切換
500 個技能涵蓋哪些網站？
Free 免信用卡，$20 起支援 25 個並行瀏覽器
Browserbase 是誰？累計募資 $67.5M 的 AI 瀏覽器基礎設施公司
現有限制與未來：agent 真的「會做事」還需要幾步？

5月份，一個名叫 browse.sh 的工具正式上線，它要解決的是如何讓 AI 代理（agent）如何更快速、正確的「上網做事」？

以往的答案是：自己把整個網頁的 HTML 原始碼交給語言模型判斷要點擊哪裡、填什麼欄位。這個方式不只慢，還非常燒錢：一個稍微複雜的電商頁面，光 HTML 就可能有好幾萬個字元，全部餵給語言模型，token費用支出不小。

Browserbase 給的答案是：預先把每個網站的操作邏輯寫成一個「技能包 skill」，agent 只要呼叫技能，不用每次都讀整頁 HTML。browse.sh 就是這個想法的命令列入口，也是一個開放的技能目錄（open web skill catalog）。

browse.sh 是什麼？Browserbase 推出的 AI 代理瀏覽器命令列工具

browse.sh 的官方定義是「Browser CLI and open web skill catalog for agents」，翻成白話：一個給 AI 代理用的瀏覽器命令列工具，外加一個開放的網路操作技能商店。

這裡有兩個核心概念要先拆開說清楚：

什麼是 CLI（命令列介面）？就是你在終端機視窗裡打字執行的工具。npm、git、python 都是 CLI 工具。browse 也是，安裝後就能在終端機打 browse click "input#search" 讓瀏覽器點一個特定元素。

什麼是 headless browser（無頭瀏覽器）？一個不會實際在螢幕上開啟視窗的瀏覽器程式，但行為跟真實的 Chrome 完全一樣：可以執行 JavaScript、處理 Cookie、繞過基本的反機器人偵測。AI agent 透過它「看」網頁、填表單、點按鈕，用戶什麼都不用開。

什麼是 skill（技能）？一個預先寫好的操作指令碼，告訴 agent「這個網站的搜尋欄在哪、下單按鈕是什麼 id、API 回傳的 JSON 格式長什麼樣」。比起讓 agent 每次都自己摸索，skill 讓整個流程又快又省 token。

browse.sh 的底層是 Browserbase 自家開源的 Stagehand：Browserbase 自己寫的「讓 AI 操作瀏覽器」的開源工具包，可以把它想成 Playwright 加上 AI 語意理解層。browse.sh 是把 Stagehand 的功能包裝成更好用的命令列工具，並在上面加了 500 多個現成技能。

整個生態的入口有三個：

https://browse.sh/：官方網站與技能目錄瀏覽入口
https://browse.sh/llms.txt：給 AI agent 讀的精簡技能索引（體積小，適合直接餵給語言模型）
https://browse.sh/llms-full.txt：完整的 SKILL.md 說明，包含每個技能的 DOM 選擇器與使用方式

這個設計本身就很有意思：browse.sh 知道它的用戶不是人，而是 AI，所以索引格式從一開始就是為語言模型設計的。

browse CLI 怎麼用？基礎指令與雲端切換

安裝只需一行：

$ npm install -g browse

裝好之後，基礎操作指令涵蓋了一個瀏覽器 session 的完整生命週期：

$ browse click "input#search" $ browse type "Apartments in SF" $ browse press "Enter" $ browse screenshot $ browse network --tail $ browse console --tail

這裡的 DOM 選擇器（DOM selector）是什麼？DOM 是網頁的結構樹，每個按鈕、輸入框、連結都是樹上的一個節點。DOM 選擇器就是告訴瀏覽器「要操作哪個節點」的精確地址，例如 input#search 意思是「id 叫 search 的輸入框」，button.submit-btn 意思是「class 叫 submit-btn 的按鈕」。

browse screenshot 讓 agent 在操作過程中隨時截圖確認畫面狀態；browse network --tail 則會即時列印出瀏覽器發出的所有 HTTP 請求：這對除錯非常有用，也讓開發者能直接看到網站呼叫的後端 API 端點，方便之後寫成 api 型別的 skill。

安裝技能只需要一行，之後 agent 就能直接用該網站的預寫好操作邏輯：

$ browse skills add airbnb.com

官方給的完整場景範例示範了這個工具的能力上限，讓 Claude 規劃一趟猶他州公路旅行，包含充電站、露營地，最後還自動到 Ramp 申請報帳：

$ browse skills add alltrails.com $ browse skills add recreation.gov $ browse skills add weather.gov $ browse skills add plugshare.com $ browse skills add ramp.com $ claude "Plan a road trip to Utah with EV charging stops and campsites for each night. Book and reimburse on Ramp."

本地模式 vs 雲端模式是一個很實用的設計：預設情況下 browse 跑的是電腦上的本地 Chromium，適合開發和測試。當要上正式環境，只要在指令前加 cloud 就能切到 Browserbase 的雲端瀏覽器基礎設施：自動幫你處理 CAPTCHA（圖形驗證碼）、身份驗證、IP 輪換：

$ browse cloud sessions create $ browse cloud fetch "https://www.nytimes.com/section/us" $ browse cloud search "Latest White House press release"

這個「本地開發、雲端生產」的分離設計讓開發者在本機測試不用付費，只有真正大量執行時才產生費用，對獨立開發者相當友善。

500 個技能涵蓋哪些網站？

超過 500 個技能全部開源在 GitHub 的 browserbase/skills 倉庫，任何人可以用 Pull Request 貢獻新技能。主要分類如下：

類別	代表站點	技能型別
旅遊	Airbnb、Booking.com、AllTrails、Recreation.gov	browser / hybrid
電商	Amazon、AliExpress、eBay	browser
房地產	Zillow、Redfin	browser
餐廳 / 外送	Allrecipes、Yelp、DoorDash	browser / api
求職	LinkedIn、Indeed	browser
金融服務	Ramp（企業報帳）	hybrid
政府 / 監管	weather.gov、12306.cn	browser
醫療	（多個預約平台）	browser
媒體 / 娛樂	（主流新聞、串流平台）	api / hybrid
汽車 / 居家	（多個服務平台）	browser

技能分三種型別，差異在「agent 用什麼方法取得資料」：

browser 型別：agent 用 headless Chromium 直接操作網頁畫面，適合沒有公開 API 的網站
api 型別：agent 直接打網站的後端 API 端點，繞過瀏覽器渲染，速度更快、更穩定
hybrid 型別：混合使用，例如登入用瀏覽器，抓資料用 API

token 成本邏輯是這個分類設計最重要的理由。以往 agent 操作一個電商網頁，要把完整 HTML 塞給語言模型分析，一個亞馬遜商品頁可能有 3 萬個字元，換算成 token 大約是 7,000 至 10,000 個。如果 agent 每步都要讀一次頁面，一個 10 步的操作就要消耗 10 萬個 token，費用很快就失控。

browse.sh 的 skill 預先標好了「搜尋欄在哪、結果清單的 DOM 是什麼、API 回傳的關鍵欄位是哪幾個」，agent 收到的是精簡指令而非整頁 HTML。

Browserbase 官方宣稱這能把 token 成本降低 50 倍，雖然實際數字因使用場景而異，但這個方向是正確的，這也是讓「會上網的 agent」從燒錢的噱頭變成可商業化產品的關鍵一步。

Free 免信用卡，$20 起支援 25 個並行瀏覽器

browse.sh 本身是免費開源工具，但其底層的雲端執行環境 Browserbase 是付費服務。定價架構如下：

方案	月費	並行瀏覽器數	內含小時數	超用費	住宅代理
Free	$0	3	1 小時	—	—
Developer	$20	25	100 小時	$0.12 / 小時	1 GB
Startup	$99	100	500 小時	$0.10 / 小時	5 GB
Scale	客製報價	250+	客製	客製	客製

幾個值得注意的細節：

Free 方案不需信用卡，每月 1 小時內含量適合快速驗證想法
Developer 以上含 Stealth 模式（讓瀏覽器看起來更像真人在操作，降低被封鎖的機率）與自動 CAPTCHA 破解
計費是 usage-based（按實際用量計費，透過 Stripe 結算），不是固定席位費
住宅代理（residential proxy）：用真實住宅 IP 位址發出請求，避免被網站識別為機房 IP 而封鎖。Developer 方案含 1 GB、Startup 含 5 GB

browse.sh 與市面上主要競品的差異比較：

工具	定位	與 browse.sh 的核心差異	適合物件
Playwright / Puppeteer	通用瀏覽器自動化框架	無 skill catalog；每個網站的操作邏輯需自行撰寫；學習門檻較高	熟悉前端的全端工程師
Stagehand	Browserbase 自家 AI SDK	browse.sh 是 Stagehand 的命令列封裝，加了 skill catalog；Stagehand 更偏向程式庫用法	需要深度客製化的開發者
Vercel agent-browser	Vercel 的 agent 瀏覽器	偏向 Next.js 生態系整合，skill 數量較少	在 Vercel 平台上構建應用的開發者
BrowserAct	開源 AI agent skill	較新，skill 數量目前遠少於 500	偏好完全開源且自託管的開發者
TinyFish	雲端瀏覽器自動化	主打企業 RPA（機器人流程自動化），較少針對 AI agent 最佳化	企業流程自動化需求

browse.sh 的主要優勢在於：技能目錄的規模（500 個 skill 遠超競品）、與 Claude Code 的深度整合（可從對話直接呼叫）、以及開發體驗的友善度（本地免費開發、一個 cloud 字首切換生產環境）。

Browserbase 是誰？累計募資 $67.5M 的 AI 瀏覽器基礎設施公司

Browserbase 成立於 2024 年，核心產品是「雲端 headless Chromium 瀏覽器即服務（BaaS）」——簡單說，就是把高度擬人化的瀏覽器環境包裝成 API，讓開發者不用自己維護瀏覽器叢集。

融資歷程：

種子輪（Seed）：$6.5M
A 輪（2024 Q3）：$21M，CRV 與 Kleiner Perkins 共同領投
B 輪（2025 Q2）：$40M，Notable Capital 領投、CRV 與 Kleiner Perkins 跟投，估值約 $3 億美元
累計募資：$67.5M

兩輪合計吸引到 Kleiner Perkins（早期投過 Google、Amazon）這個等級的 VC 持續加碼，顯示這個賽道的吸引力不是短期熱潮。

Browserbase 的技術差異化在基礎設施層：

Identity（身份系統）：幫 agent 管理登入狀態與 Cookie，讓每個 session 都像真實用戶
Verified browsers（已驗證瀏覽器）：透過主要網站的機器人偵測篩查
自動 CAPTCHA 破解：無需人工幹預，agent 可以無縫透過圖形驗證
住宅 IP 代理：用真實家用網路 IP 出口，避免機房 IP 被封鎖

合作夥伴名單本身就是一張背書清單：Anthropic（Claude 的母公司）、Perplexity（AI 搜尋引擎）、LangChain（最廣泛使用的 AI agent 框架）、Vercel（前端部署平台）都是客戶或整合夥伴。

從生態系時間軸來看，browse.sh 的推出不是孤立事件：2026 年 1 月 Vercel 推出 skills.sh（agent skill 公開目錄），2026 年 5 月 Anthropic 擴大 Claude Skills 生態（推出金融分析 41 個 skill、Claude Design 等），同月 Browserbase 推出 browse.sh 並深度整合 Claude Code。

這些動作共同描繪了一個趨勢：從「會聊天的語言模型」走向「會做事的 agent」，而 skill = 動作模組，是讓 agent 真正落地的關鍵零件。

現有限制與未來：agent 真的「會做事」還需要幾步？

browse.sh 目前仍有幾個值得注意的限制：

讀多於寫：目前 500 個 skill 中，查詢、搜尋、抓資料類的技能佔多數；涉及「下單付款」「提交表單」這類有真實副作用的操作較少，風險控管邏輯尚未標準化
網站更新維護成本：網站改版後，DOM 選擇器就可能失效。500 個 skill 需要社群持續維護，這是開放生態的共有難題
登入態管理複雜度：需要 OAuth、雙因素驗證（2FA）的網站，agent 的登入流程仍然較複雜，目前主要靠 Browserbase 的 Identity 系統輔助
法規灰色地帶：自動化操作某些網站可能觸及服務條款，各地法律明確性不一

即便如此，browse.sh 的推出時機點抓得很精準：Claude Code 已有大量開發者在用，skills 生態正在快速擴張，agent 基礎設施的標準化正在凝聚。Browserbase 在賣的不只是雲端瀏覽器服務，而是讓 agent「真的會做事」的能力層，這和只會回答問題的聊天機器人是本質上不同的產品形態。

從 token 成本降 50 倍、到深度整合 Claude Code、到 500 個現成技能，browse.sh 試圖讓「會上網的 agent」從技術論文裡走到任何開發者的終端機。對加密產業而言，這既是效率工具，也是需要提前思考防禦的新變數。