ScreenAgent

9个月前发布 225 00

一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。

收录时间：

2025-09-10

打开网站手机查看广告位招租

AI开源项目 # AI开源项目 # ScreenAgent # VLM # 视觉和语言处理能力 # 计算机控制智能体

ScreenAgent

ScreenAgent

ScreenAgent是什么：

ScreenAgent是由吉林大学人工智能学院与知识驱动的人工智能教育部工程研究中心联合开发的一个基于视觉语言模型（VLM）的计算机控制智能体。该智能体能够与真实计算机屏幕进行交互，执行多步骤任务。

主要特点：

视觉语言模型（VLM）：结合了视觉和语言处理能力，用于解析屏幕截图和理解任务提示。
强化学习环境：通过VNC协议与计算机屏幕交互，创建了用于训练的强化学习环境。
控制流程：包括计划、执行和反思三个阶段，引导智能体与环境持续交互。
数据集和评估： ScreenAgent数据集包含多种日常计算机任务的屏幕截图和动作序列，以及用于评估的CC-Score指标。

主要功能：

屏幕观察：观察和理解计算机屏幕截图。
动作生成：生成鼠标和键盘动作的JSON格式命令序列。
任务规划：分解任务为子任务，并规划相应的动作序列。
执行动作：发送鼠标和键盘动作命令到计算机，执行用户指定的任务。
反思评估：评估执行结果，决定后续行动。

使用示例：

屏幕观察： ScreenAgent观察桌面操作系统的实时图像。

动作生成：根据屏幕截图生成移动鼠标、点击、滚动等动作命令。

任务规划：将用户任务如“打开网页浏览器”分解为具体步骤。

执行动作：执行打开浏览器、输入网址、搜索信息等动作。

反思评估：在尝试打开网页后，评估操作是否成功，决定是否需要重试。

总结：

ScreenAgent是一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。ScreenAgent的控制流程和评估指标使其成为一个强大的工具，可用于自动化各种数字任务，提高效率和便利性。

网站截图

ScreenAgent

数据统计

相关导航

Follow Your Pose

一个创新的文本到视频生成框架，它通过两阶段训练策略实现了高度的姿态控制和时间连贯性。该框架不仅能够根据文本描述生成视频，还能让用户通过姿态序列精确控制视频中角色的动作...

SUPIR

一款功能强大且多用途的图像恢复工具，它通过结合AI技术和文本驱动的智能恢复，能够为用户提供高保真度的图像恢复服务

GameNGen

由谷歌推出的世界首个完全由AI驱动的游戏引擎，旨在颠覆传统的游戏开发方式。这个引擎利用神经网络实时生成游戏画面，无需手动编写代码

DiffusionGPT

一个创新的文本到图像生成系统，它通过结合大语言模型的解析能力和领域专家模型的生成能力，实现了从多样化文本提示到高质量图像的高效转换。

Clapper

一个创新的AI视频创作工具，它通过提供一个交互式和直观的创作平台，降低了视频制作的门槛

IP-Adapter

一个强大的工具，它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效，易于部署和使用，同时支持广泛的应用场景，包括图像生成、转换和修复。通过解耦的交叉...

DiT

创新的图像生成模型，它通过结合扩散模型和Transformer架构，实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

abab-music-1

一个强大的AI音乐生成工具，它通过先进的技术，使得音乐创作更加便捷和高效。无论是专业的音乐制作人还是业余爱好者，都能够利用这个模型来创作出高质量的音乐作品。

×

收藏本站！

希望您能通过知乎、公众号、简书、豆瓣、抖音、微博、微信、个人网站等媒介告诉身边朋友进站必读