Follow Your Pose
一个创新的文本到视频生成框架,它通过两阶段训练策略实现了高度的姿态控制和时间连贯性。该框架不仅能够根据文本描述生成视频,还能让用户通过姿态序列精确控制视频中角色的动作...
一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。

ScreenAgent是由吉林大学人工智能学院与知识驱动的人工智能教育部工程研究中心联合开发的一个基于视觉语言模型(VLM)的计算机控制智能体。该智能体能够与真实计算机屏幕进行交互,执行多步骤任务。
ScreenAgent是一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。ScreenAgent的控制流程和评估指标使其成为一个强大的工具,可用于自动化各种数字任务,提高效率和便利性。