波士顿机器狗结合ChatGPT 后,会发生什么事?

 

波士顿动力的「大黄狗」Spot 可说是机器人界的红,会巡逻、会搬砖、会跳舞的Spot 诞生后就吸引全世界机器人爱好者的目光,谁能拒绝灵活憨厚,还会卖萌的机器狗?

经过多年发展,卖萌不再是Spot 的「主业」,波士顿动力介绍Spot 现在能帮助人类完成特定任务,如跨洋轮船检查仪表、参与地势复杂的勘测或救援等。如果以Spot 灵活身躯再装上ChatGPT 这么聪明的大脑,会发生什么事?

人工智慧专家Santiago Valdarrama 还真做出了有「最强大脑」的Spot。

ChatGPT 大幅简化人机互动

Santiago分享与改造版Spot 互动影片,可能是史上第一只会讲话聊天的机器狗。Spot 不只是装了「Siri」的装置,当它回答人类问题时,身体还会随内容和语调摆动,就像瓦力再现。当问「Yes Or No」的简单问题,还会「点头」「摇头」等身体语言回答,可见Spot 不只内建智慧音箱那么单纯。

接上ChatGPT 后,Spot 最大变化就是听得懂人话了,且能和消费者以自然语言沟通。Santiago 示范对Spot 说房间太挤,请它后退,话音刚落Spot 就理解Santiago 的意思,往后退了几步,颇有科幻电影的AI 机器人味道。

过去控制Spot 需用类似无人机遥控器或以电脑输入指令,现在ChatGPT 赋予Spot 强大自然语言理解力,动动嘴就能与机器人对话。ChatGPT 担任人类与机器人的翻译,把人类输入的「人话」转成机器能懂的指令,再把机器人回馈用实际行为或「人话」表达。

Santiago 介绍如何将Spot 资料输入ChatGPT,并解释结构及如何读取,达成与Spot 语音对话。操作员与Spot 互动可大幅简化,人类可直接问它:「你电量还剩多少?」Spot 就会用说的回答,中间用到Google 文字转语音技术,再将ChatGPT 答覆经Spot 的「嘴巴」说出来。

Spot(或内建的ChatGPT)会根据实际情况回答问题,如问它接下来需完成什么任务时,它会根据设定好任务清单作答,避免像ChatGPT 编造回答。当操作者下达Spot 转90 度、前进1 公尺的命令,Spot 会调动感测器和定位系统,精准回应命令,不会因「大脑太发达」失去控制。有趣的是,当问它「你是谁?」它会回答「我是OpenAI」而不是「我是Spot」。

Santiago 的公司Levatas 是与波士顿动力合作的AI 公司,专门帮助企业探索如何利用机器人解决问题。Santiago 认为帮Spot 装上ChatGPT 最大意义,是把原本只有技术人员才能处理的复杂数据变成任何人都能看懂听懂的自然语言。

机器人每次执行任务前,都要输入冗长指令集,结束后还会产生大量数据,只有专业技术人员才能从数据分析问题再改善,现在经过ChatGPT,简单两句话就能搞定,当机器人操作门槛变低后,机器人使用情景就会更丰富。

AI 大模型潜力不容小觑

「最强大脑」版Spot 并不是一蹴可及,一个月前Santiago 曾上传影片介绍能「听懂人话」的Spot,用到OpenAI 另一个重要AI 模型Whisper。这「初版」智慧Spot,Santiago 有详细介绍原理:

Whisper 可高效将语音即时转成文字,正确率和速度都非常可观。透过Whisper 与Spot 的SDK 结合,可从人类的话提取关键字,然后透过SDK 向Spot 下指令。

只需要说句话,就可让Spot 离开充电座去检查仪表是否出问题,大大降低人类操作成本。Santiago 从很好的角度回答广泛讨论的问题:做出ChatGPT 等大语言模型到底有什么意义?

一开始人们认为ChatGPT 就只是生成式AI,有较强自然语言理解能力,可以写文章、做报表,虽然不太可靠,但也算惊艳。后来人们发现只要给ChatGPT 恰当指令,可帮人类自动完成程式设计或文字处理等,犹如基于自然语言的电脑。

OpenAI 发表外挂程式集功能后,ChatGPT 可与许多网路应用结合,整合很多跨平台操作用对话,形成网路新入口。微软Copilot 则启发人们对下阶段人机互动想像:图形操作介面不一定永远合理,许多大家(xi)以为常的操作都可由对话取代。

回到Spot,能更清晰看出大语言模型的意义:简化人机互动,赋予机器人更高级的智慧。无论ChatGPT 是新网路入口,还是控制具学(xi)能力、问题分析和执行精密操作的工业机器人遥控器,本质上都是把复杂指令集变成自然语言,降低操作成本。

这种赋能使将来工业机器人不仅成为指令执行的工具,更具备与人类大脑相当的智能。就像图形介面把复杂命令行变成直觉图示,点按不同图示的复杂操作又变成简单一句话,人类正从图形使用者介面走向新阶段:自然语言用户介面。

这阶段大语言模型将成为工业机器人的关键技术,简化人机互动,提高生产效率,推动人类科技发展。某些情况下,语言模型理解语言时甚至比人类表现更好。普林斯顿大学教授Arvind Narayanan 在部落格提到亲身案例。

Arvind Narayanan 为ChatGPT 接上语音互动,给快4 岁的女儿试用。就和所有孩子一样,女儿也充满好奇心,经常问ChatGPT 各种问题,让他意外的是,他告诉ChatGPT 是和孩童说话时,ChatGPT 回答会更有同理心。

女儿:「关灯后会发生什么事?」

ChatGPT:「关灯后会变得很黑,也可能让人害怕。但不用担心!很多东西能帮妳在黑暗中感觉安全舒适。」

《彭博社》专栏作家Parmy Olson 指出,微软和Google 都忙着把大模型装上搜寻引擎,却没看到一个事实:ChatGPT 更适合当个陪伴者。Olson 让ChatGPT 做EQ 测试,结果分数比她和同事还好。正因ChatGPT 是用网路文字训练,数据会有大量错误资讯,但这让它更擅长模仿同理。

这些案例说明大语言模型对自然语言的理解能力其实有很大潜力。借助强大理解能力,可用大语言模型达成再次人机互动革命,同时大语言模型为机器人发展带来新可能性。大语言模型让机器人更快理解和处理指令,更快学(xi)和适应新任务和环境。

《纽约客》封面文章〈黑暗工厂〉(Dark Factory)提到,目前工业机器人共同难处就是设计像人手的「末端执行器」(end effector),让机器人以不同力道抓取各种大小形状的物体。

如果这难题解决,机器人能做更多精细工作,自动化程度会大大提高。如各种水果采摘自动化,苹果产品组装流水线不再需要这么多工人。将来工业机器人不仅是指令执行的工具,更具备与人类大脑相当的智能,有学(xi)能力、问题分析和执行精密操作的能力。

工业生产线「肌肉发达」的工业机器人更灵活,可应付各种生产问题,提高生产效率和品质,如车厂,大语言模型可赋予机器人更强智慧和认知力,完成多样化任务,医疗机器人可以自然语言技术与医生和病患交流,提供更佳服务。

大语言模型给机器人更强的大脑,创造更广泛应用场景,很有可能成为第四次工业革命的核心。「语音版」Spot,便是改革的第一丝火花。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。聚才发仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 tenspace2022@163.com 举报,一经查实,本站将立刻删除。 本文链接:https://www.jucaifa.com/post/1123911.html 商机洞察 金融谷 前沿技术

管理, lee管理, lee
上一篇 2023年11月16日 上午4:29
下一篇 2023年11月16日 上午4:39

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注