Bright Data¶
Bright Data MCP 服务器 将你的 ADK 智能体连接到 Bright Data 的网络数据平台。这个工具使你的智能体能够执行实时网络搜索、抓取网页、提取结构化数据、远程控制浏览器以及访问来自流行平台的预构建数据源。
用例¶
-
实时网络搜索:执行优化的网络搜索,以 AI 友好的格式(JSON/Markdown)获取最新信息。
-
结构化数据提取:使用 AI 驱动的提取功能,将任何网页转换为干净、结构化的 JSON 数据,并可选择自定义提示。
-
浏览器自动化:远程控制真实浏览器,实现复杂的交互、JavaScript 渲染和动态内容提取。
-
预构建数据 API:访问来自 Amazon、LinkedIn、Instagram、TikTok、Google Maps 等流行平台的 60 多个结构化数据集。
-
广告分析:使用行业标准的广告拦截过滤器列表,从网页中提取和分析广告。
先决条件¶
- 注册 Bright Data 账户 以获取 API 令牌。
- 有关更多信息,请参阅文档。
- 该服务器提供每月 5,000 次请求的免费套餐,这对于原型设计和日常工作流程非常有用。
与智能体一起使用¶
from google.adk.agents import Agent
from google.adk.tools.mcp_tool import McpToolset
from google.adk.tools.mcp_tool.mcp_session_manager import StdioConnectionParams
from mcp import StdioServerParameters
BRIGHTDATA_API_TOKEN = "YOUR_BRIGHTDATA_API_TOKEN"
root_agent = Agent(
model="gemini-2.5-pro",
name="brightdata_agent",
instruction="帮助用户使用 Bright Data 访问网络数据",
tools=[
McpToolset(
connection_params=StdioConnectionParams(
server_params = StdioServerParameters(
command="npx",
args=[
"@brightdata/mcp",
],
env={
"API_TOKEN": BRIGHTDATA_API_TOKEN,
"PRO_MODE": "true", # 可选:启用所有 60 多个工具
}
),
timeout=300,
),
)
],
)
from google.adk.agents import Agent
from google.adk.tools.mcp_tool import McpToolset
from google.adk.tools.mcp_tool.mcp_session_manager import StreamableHTTPServerParams
BRIGHTDATA_API_TOKEN = "YOUR_BRIGHTDATA_API_TOKEN"
root_agent = Agent(
model="gemini-2.5-pro",
name="brightdata_agent",
instruction="""帮助用户使用 Bright Data 访问网络数据""",
tools=[
McpToolset(
connection_params=StreamableHTTPServerParams(
url=f"https://mcp.brightdata.com/mcp?token={BRIGHTDATA_API_TOKEN}",
),
)
],
)
使用示例¶
一旦你的智能体设置并运行,你就可以通过命令行界面或 Web 界面与它交互。以下是一些示例:
智能体提示示例:
给我 iPhone 15 Pro 在亚马逊上的当前价格和详细信息
在 Google 上搜索“2025 年气候变化新闻”并总结前 5 个结果
抓取 techcrunch.com 的主页并提取所有文章标题和链接
智能体自动调用适当的 Bright Data 工具来提供全面的答案,从而轻松访问实时网络数据,而无需手动导航或担心被阻止。
可用工具¶
Bright Data MCP 服务器有两种操作模式:
快速模式(免费套餐 - 默认)¶
| 工具 |
描述 |
|---|---|
search_engine |
将 Google、Bing 或 Yandex SERP 抓取为 JSON 或 Markdown。 |
scrape_as_markdown |
将网页转换为干净的 Markdown,并内置解除阻止功能。 |
scrape_as_html |
返回网页的原始 HTML,同时绕过拦截器。 |
extract |
使用自定义提示将 Markdown 输出转换为结构化 JSON。 |
session_stats |
查看会话使用统计信息和工具调用计数。 |
专业模式(60 多个附加工具)¶
通过在环境变量中设置 PRO_MODE=true 来启用专业模式,以访问:
批量操作:
- search_engine_batch:同时运行多达 10 个搜索查询。
- scrape_batch:同时抓取多达 10 个 URL。
浏览器自动化:
- scraping_browser.*:用于复杂交互的完整浏览器控制。
- 导航、点击、输入、滚动、截图等。
网络数据 API(60 多个结构化数据集):
- 电子商务:
web_data_amazon_product、web_data_walmart_product、web_data_ebay_product、web_data_etsy_products、web_data_bestbuy_products、web_data_zara_products - 社交媒体:
web_data_linkedin_person_profile、web_data_instagram_profiles、web_data_facebook_posts、web_data_tiktok_profiles、web_data_x_posts、web_data_reddit_posts - 商业智能:
web_data_linkedin_company_profile、web_data_crunchbase_company、web_data_zoominfo_company_profile - 搜索与评论:
web_data_amazon_product_search、web_data_amazon_product_reviews、web_data_google_maps_reviews、web_data_facebook_company_reviews - 地图与本地:
web_data_google_maps_reviews、web_data_zillow_properties_listing、web_data_booking_hotel_listings - 应用商店:
web_data_google_play_store、web_data_apple_app_store - 媒体与新闻:
web_data_youtube_videos、web_data_youtube_comments、web_data_reuter_news - 开发者工具:
web_data_github_repository_file - 金融:
web_data_yahoo_finance_business
所有网络数据 API 工具都以 JSON 格式返回缓存或新鲜的结构化数据,通常比实时抓取更可靠。
配置选项¶
Bright Data MCP 服务器支持多个用于自定义的环境变量:
| 变量 | 描述 | 默认值 |
|---|---|---|
API_TOKEN |
你的 Bright Data API 令牌(必需) | - |
PRO_MODE |
启用所有 60 多个高级工具 | false |
RATE_LIMIT |
自定义速率限制(例如,“100/1h”,“50/30m”) | 无限制 |
WEB_UNLOCKER_ZONE |
自定义 Web Unlocker 区域名称 | mcp_unlocker |
BROWSER_ZONE |
自定义浏览器 API 区域名称 | mcp_browser |