(相关资料图)
7月6日至8日,以“智联世界生成未来”为主题的第六届世界人工智能大会(简称WAIC)在上海举办。今年大模型成为展会上热议的话题,日前,商汤科技联合创始人王晓刚接受上证报记者专访,就当下大模型发展路线、落地场景的诸多问题发表了自己的看法。
谈及当下大模型主流的Transfomer路线,王晓刚表示,尽管目前有其他结构在算法上更加效率,但Transfomer代表的一类网络结构,在多模态信息融合方面依然具有强大的优势。“比如说语言它都可以去识别,在Transfomer架构下视觉其他的信号,以同样特征的表达方式能够去结合在一块,所以现在的工作发展路线,这里是我们比较重要的组成部分。”王晓刚说道,这一点在自动驾驶这类对视觉有极高要求的人工智能领域优势更为明显。
“对于自动驾驶而言,大模型一定会对下一代自动驾驶产生比较深刻影响。”王晓刚认为,当前大众之所以觉得自动驾驶不够智能,一方面是由于各类传感器融合不足,另一方面就是目前核心的决策判断模块不够智能。
而随着大模型技术的不断成熟,摆在自动驾驶面前的两大“拦路虎”都有望得到解决。“我们最近的一个工作UniAD技术,就是把感知、决策,规划、控制等众多的模块实现端到端整合,用一个网络端到端的优化。”据王晓刚介绍,进行端到端的优化,可以将从前割裂单独开发的模块整合到一起,极大提升开发效率,“这也是第一个端到端的自动驾驶通用大模型。”
大模型的训练离不开巨大的算力支撑,对此,王晓刚坦言:“在这块的话,我们大装置其实在过去几个月一直也都是处于一种非常紧张的迭代状态,这样我们能够去保证有更大规模的卡的连接,保证我们稳定运行。”
不过,王晓刚也表示大装置也是需要针对不同类型的应用,因此不同类型模型的优化侧重点上也有所不同。“另一方面,在部署端我们也做了很多工作,比如基础模型做完后,要开放给内部,甚至是外部的客户合作伙伴。他们能在模型上进行反馈,做比较好的开发。当然这也需要我把这些工具和API做好。”他说道。
谈及未来大模型的发展趋势,作为以视觉计算见长的商汤科技,王晓刚表示,未来多模态将成为重要赛道。“AI系统一定是能够更好地承担处理我们各种多模态的信息。”他说道,“这里面需要深入到各个行业里面,将来的多模态很多的应用价值就体现在这个行业里面。作为商汤,我们也是一个面向B端,赋能多个行业的公司。在过去几年里面,我们在很多的行业都有很深的这方面积累。”
关键词: