CUA Browser: 基于Browserbase和OpenAI CUA Model的浏览器自动化开源项目-AI万花筒

CUA Browser是什么？

CUA Browser 是一个提供一个测试和探索 Browserbase 和 Openai 的 Computer-Using Agent (CUA) 功能的免费开源项目。用户可以通过自然语言命令与浏览器交互，并观察浏览器的响应。

CUA Browser.webp

CUA Browser功能特征

多模态交互：CUA通过处理屏幕上的原始像素数据来理解界面内容，借助虚拟鼠标和键盘完成操作。

多步骤任务执行：可将复杂任务分解成多个步骤，并能动态调整操作顺序。

推理与自纠正能力：执行任务时，CUA会通过链式思考进行推理，再依据环境反馈动态调整操作。

用户确认机制：对于敏感操作，像输入登录信息或处理验证码这类，CUA会请求用户确认，防止出现潜在错误。

无需专用API：CUA不依赖特定的操作系统或网页API，能直接通过屏幕、鼠标和键盘与各种数字环境交互。

CUA Browser项目特点

开源免费：CUA Browser是开源项目，采用MIT许可证，用户可免费使用。

技术基础：该项目基于Browserbase和OpenAI的CUA技术开发。CUA是一种能通过图形用户界面（GUI）与计算机应用交互的人工智能模型。

使用场景：用户输入自然语言指令后，CUA Browser就能执行网页浏览、表单填写、信息提取等任务。

CUA Browser应用场景

网页自动化任务：能自动填写表单、搜索信息、筛选内容等。比如搜索特定商品、预订酒店、查询航班信息等。

复杂任务执行：可以处理多步骤任务，像创建项目、生成购物清单、管理日程等。例如在Todoist中创建购物清单或在Spotify中创建歌单。

信息检索与整理：从多个网站提取和整理信息，比如搜索不同网站上的产品信息并比较。

辅助决策：在复杂任务中提供辅助决策支持，例如计算退款金额或解决逻辑推理问题。

安全与合规：执行敏感操作时，CUA会要求用户确认，确保操作安全。

教育与研究：可作为研究工具，助力开发和测试新的AI应用。

CUA Browser使用方法

1. 环境准备

Node.js：需要安装 Node.js（推荐版本 14.x 或更高）。

API 密钥：需要从 OpenAI 和 Browserbase 获取相应的 API 密钥。

2. 项目克隆与配置：

gitclonehttps://github.com/browserbase/cua-browser.gitcdcua-browsercp.env.example.env.local

3. 安装依赖：

npminstall

4. 配置环境变量：

OPENAI_API_KEY=your_openai_api_keyOPENAI_ORG=your_openai_org_id(optional)BROWSERBASE_API_KEY=your_browserbase_api_keyBROWSERBASE_PROJECT_ID=your_browserbase_project_id

5. 启动开发服务器：

npmrundev

与OpenAI的Operator关系

CUA Browser的灵感源于OpenAI的Operator项目，后者是一个能通过浏览器执行任务的AI智能体。Operator使用CUA模型，结合了GPT - 4o的视觉能力和强化学习的推理能力，能通过屏幕截图“看到”网页内容，并通过模拟鼠标和键盘操作与网页交互。

GitHub仓库：https://github.com/browserbase/cua-browser

项目官网：https://www.browserbase.com/computer-use