IT之家 10 月 23 日消息,英伟达日前公布了一个名为 Eureka 的 AI 系统,该系统以 OpenAI 的 GPT-4 为基础,能够让机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等 30 多种复杂动作。
IT之家经过查询得知,英伟达研究院主导开发了 Eureka,该 AI 系统可令开发者配合英伟达自家物理模拟软件 Isaac Gym 进行强化学习(reference learning)。
英伟达 AI 研究部门资深总监 Anima Anandkumar 认为,过去 10 年以来“强化式学习”虽然有所进展,但仍存在不少挑战,例如“奖赏设计”等环节,现在还停留在“试错”阶段。而目前英伟达公布的 Eureka,则是为执行困难的任务而设计,结合生成式 AI 与强化式学习算法,进行首次尝试。
Eureka 利用 GPT-4 生成出的“奖赏设计”方案可助力机器人的“试错(trial-and-error)”学习,并能够起到接替 80% 人类专家的任务,从而使机器人平均训练效率提升超过 50%。
据悉,在 Eureka 生成“奖赏设计”方案时,开发者不需要额外输入任务提示或撰写预定义的奖赏范本,再结合人工修正奖赏,最终使机器人动作更符合开发人员的意图。
该 AI 系统配合 Issac Gym 时,可利用 GPU 加速进行模拟,并针对大量批次的候选回馈快速评估品质,从而提升训练效率,并根据训练结果的作出统计摘要,从而改良“奖赏方案”,在提升机器人反应水平的同时,令 AI 系统适用的机器人类型更为广泛,例如“走兽型”(四足)、“人型(两足)”、“四轴飞行器”、手臂型等机器人都可以搭载 Eureka 系统。