“在市集上拿取一瓶乌龙茶,再送到顾客手中。”这是一个代码脚本中给机器人下的指令。确定键按下,眼前的机器人缓步向前,走到市集的最后一个摊位,伸出机械臂,对准货架上的乌龙茶进行抓取。第一次,偏了;第二次,稳住了;第三次,成功拿起。
这一幕,发生在2026上海复兴岛具身智能实景空间实验实训实测平台春训营的“市集导购”场景,也是被众多学员誉为最“接地气”的场景。让机器人学习如何在嘈杂的市集里当一名合格的导购员,没有固定货架、没有预设路径,只有真实摊位、随机摆放的商品和随时可能打断任务的现场干扰。
7分钟的背后:
从“硬编码”到“半自动”
松应科技解决方案副总裁王必成全程跟进了市集场景的实测。他告诉记者,眼前这台机器人完成一次完整的“接单-导航-抓取-交付”流程仅用了7分多钟,而这个场景给到机器人的考试时间是20分钟。

“虽然时间不算短,但考虑到整个训练只有一到两周,包括前期素材采集和设备调试占用了大量时间,能在几天内取得这个成果已经非常优秀。”王必成说。他补充道,相比团队最初预设的硬编码方案,现在的表现已经“非常自动化”。“如果流程再经过二次优化,效果会更好。下一阶段夏训如果能通过训练平台把VLA(Vision-Language-Action) 这类操作模型训练出成效,整个抓取过程会更加平滑。”

对于参训队员、空间创客团队时亦文来说,这几天最大的收获不是成绩,而是“意外”。他此前主要做语言处理算法,那种工作比较抽象,不太能摸得着、看得见。而做机器人完全不一样——它走到哪了、能不能夹起来、离那瓶乌龙茶还有多远,全都能用眼睛直观看到。
“这次遇到了一些以前做算法时没预料到的困难,比如调用SDK、机器人和机械臂上摄像头的通信问题。”时亦文坦言,刚才的夹取过程不太理想,正是因为通信存在延迟。但他没有停下。遇到类似阻碍时,他试着用物理模型和数学几何算法去推算夹取点位,“虽然还没算出特别好的结果,但我们会尽可能努力把最后的部分完成。”

目前,时亦文所在的团队把整个机器人的运行拆成了四个阶段:走到摊位、走到商品面前、夹取、返回。他们计划把这四个流程跑通后整合到一个模型里。“我们最终期待的结果是,只有机器人在起始点时由人操作电脑,其他时间都不外加人为干预,实现全自动流程。”
从抽象到具象:
实景测试的魅力
市集场景的特殊之处在于“真实”。不同于实验室里固定的标定物和标准光照,复兴岛的市集摊位随时有人经过,光照角度不断变化,商品位置也可能被挪动。机器人需要理解“摊位位置”“目标商品”“顾客指令”这三者之间的空间语义关系,并在嘈杂环境中完成精准导航和语音播报。
“之前做语言算法,总觉得有点隔着一层。而做机器人让我有了一种更加切身的体会。”时亦文说,“这种从抽象到具象的转变,正是实景测试的魅力所在。”

春训营的市集导购场景,本质上是让机器人在不完美中学会“服务”。没有绝对精准的地图,没有预先标定的抓取点,只有真实的市集平面空间和真实的顾客需求。而正是这种“不完美”,让算法走出了论文,走进了生活。
“双基共生”的市集样本
春训营的核心口号是“未来城市,双基共生”——碳基生命(人类)与硅基智能(机器人)在真实物理空间中共生共长。市集场景恰恰是最能体现这一理念的切片:机器人不是冷冰冰的自动化设备,而是与人类顾客面对面交流、理解意图、完成交付的服务者。

一位现场观察的导师告诉记者,市集导购的难点不在于抓得多快,而在于“听懂”和“做到”之间的连贯性。自然语言指令解析、摊位位置识别、全过程语音播报——这三项能力的协同,检验的是机器人在真实商业场景中的空间语义理解能力和服务意识。
“如果有一天,你在菜市场里看到一个机器人在帮你找生姜,还能告诉你今天的价格,那就说明我们成功了。”时亦文笑着说。

从7分钟到更短,从半自动到全自动,从夹不稳到稳稳拿起一瓶乌龙茶——复兴岛的市集里,机器人们正在学着成为城市生活的一部分。而这座“全球创客岛”,正用最真实的烟火气,为未来城市的“双基友好”写下第一个注脚。
文字:王歆瑜 陈奕静(实习)
图片:王歆瑜
视频:王子亮
编辑:奚宇轩 马靖莹(实习)
*转载请注明来自上海杨浦官方微信