智能体是什么?
几个月前,咱们无意会邋遢地认为,它是一种AI大模子赋能应用场景的新形态。今天,对主见作念进一步的阐释显著不那么病笃了,成功上手作念就行。
2024年的百度寰宇大会上,文心智能体平台(AgentBuilder)展区的职责主说念主员,正起劲于呼唤每一位途经的不雅众来搭一个智能体(又叫“Agent”),“咱们已经极猛进程减少作念一个智能体所用的代码了”。确凿,不雅众不到1分钟就能“手搓”一个智能体,然后欣喜离开。
扰乱的智能体展区丨百度寰宇大会2024
与市面上已有的对智能体的描画不同,百度创举东说念主李彦宏说,智能体就像移动期间的自媒体账号——领先它的树立门槛迷漫低,东说念主东说念主都能上手;另外,它可能会形成AI原生期间里,骨子、信息和奇迹的新载体。
一切齐可智能体
智能体不错作念什么?
展区内,你不错向“农民院士智能体”求教若何播撒旱地稻;你会接到“销售客服智能体”的电话,在对方耐烦全面的解答下,心甘宁愿续费车险;或者写一段“大圣穿越到当代”的故事,用“文生图智能体”将它创作成漫画。
利用智能体文生图制作的漫画丨百度寰宇大会2024
当今,文心智能体平台上已有分散在各个行业的15万家企业和80万名树立者。
字据应用的场地,李彦宏将智能体分红了4类:公司类(特殊于传统的官网、公众号、企业号等)、扮装类(数字东说念主直播)、器具类(AI写稿、一键生成PPT等)、行业类(用于招聘、金融、客服等垂直界限)。
他要点先容了一款器具类智能体,“摆脱画布”。
它真的很摆脱。这款智能体买通了百度文库上的公域尊府,以及百度网盘上的私域数据,让找尊府、剪辑、生成、共享这已经过愈加丝滑。
“摆脱”的另一个体现是,素材不被起头、表情、表情限制。不论是灌音的通话、图文连结的行业文书,照旧发布会的视频,都不错被“拖拽”到这块画布上,按照用户需求生成一个全新的富媒体骨子。
“摆脱画布”太摆脱了,以至于很难一句话先容,不错等着体验一下丨百度寰宇大会2024
“门槛低,东说念主东说念主可用”是一个前提,“天花板得迷漫高,多个智能体合营,才能贬责愈加复杂的问题”又是另一个前提。对此,百度官宣了秒哒,一个零代码应用树立平台(将于来岁第一季度上线)。
李彦宏以“为萝卜快跑发布会搭建举止报名系统”为例。
输入需求后,一个说明权术的智能体领先出现,将任务拆解成需求笃定、骨子分娩、工程树立3个门径,况且分辩“召集”了“筹划”“案牍”“次序员”“质检员”等智能体分头开展职责。
“次序员”在敲代码时,李彦宏说,“它写什么你完全不需要看懂,只须知说念它在写就行”,因为写完之后会有“质检员”来查验代码能弗成跑得通。
正在制作电子邀请函的秒哒丨百度寰宇大会2024
无代码编程、基于文心大模子的念念考和权术才智对多智能体颐养和编排、大模子对iRAG/舆图API等多器具调用——这些才智将会让“秒哒”成为迄今为止最复杂的多智能体合营器具。
图片幻觉“淹没术”
“示寂界各地打卡”,这是生图器具出现之后,人人最可爱的应用之一,哪怕是在百度寰宇大会现场,“AI合照”依然是最扰乱的展台。
但怕生怕在,让AI生成一张打卡北京天坛的像片,服从把本来3层的祈年殿画成了4层,闹了见笑。
昔时的AI生成了4层的祈年殿像片丨百度寰宇大会2024
这是因为,大模子是个概率模子,用它生成的骨子具有不笃定性。为了贬责大模子本人的“幻觉”问题,这里需要提到一个技艺——RAG。当大模子“常识储备”有限时,不错通过一些工程化技能(比如联网检索、常识库搜索等),先把联系信息找出来,再指点大模子进行回答,从而大大普及回话质料。
昔时的RAG主要作念在文本层面,但在图像等多模态方面还连结得不够,导致AI画图时常也有“幻觉”的问题。因此百度树立了iRAG(image based RAG),也即是检索增强的文生图技艺,将百度搜索积聚的亿级图片资源和大模子才智相连结。
百度CTO王海峰简要先容了iRAG技艺:
领先,大模子对用户的需求进行分析相识,自动权术精准或泛化决策,比如对哪些实体进行增强;
接着,对需要增强的实体检索并礼聘相应的参考图;
临了,在生成阶段利用自研的多模可控生图大模子,一方面通过局部精采力计较,在保抓实体特征不变的情况下,竣事了图像的高泛化生成,另一方面通过全体精采力计较进行高精准的图像生成。
在用户的视角里,咱们看到在iRAG技艺下生成的“爱因斯坦打卡照”,少了“机器味儿”,“爱因斯坦”也更像本东说念主——不错假想,在“特定配景中的特定东说念主物拿着特假寓品”这么的描画下,生成图像的质料和精准度一定会普及不少。李彦宏玩笑说,“要是专家的海报生成的车型长得像丰田,那可就糟心了”。
用iRAG技艺生成的“专家揽巡飞越长城”的写实作风像片,细节都很信得过丨百度寰宇大会2024
放大看车型和车标,都莫得乌有丨百度寰宇大会2024
无幻觉、超信得过、没老本、立等可取——具备了这些身分,AI生图就能代替以往为品牌拍一幅海报所破耗的东说念主力和财力老本,AI图片开动有了买卖价值。
AI眼镜,让智能助理随身捎带
不少东说念主认为,要是大模子和智能体弗成与物理寰宇产生邻接,那么就等于莫得价值。代表传统发布会的“实感”被留到了临了公布。这一次,搭载小度的不是智能音箱,而是一款AI眼镜。
发布会上,小度科技CEO李莹戴的即是它丨百度寰宇大会2024
行动“全球首款搭载华文大模子的原生AI眼镜”,它主打6个功能。
第一视角拍摄。
看到稍纵则逝、来不足掏入手机拍照的时刻,是不是极端但愿眼睛有截图功能?有第一视角拍摄功能的眼镜就能作念到——拍照、摄像,都不错通过语音遏抑。眼镜毕竟轻(小度AI眼镜自爱45g),东说念主也可能在通顺中,因此这款眼镜搭载了AI防抖算法,据小度科技CEO李莹先容,防抖作念到了“完满”;在镜头性能上,这个豆子大小的镜头用到了1600万像素的超广角——像素级别比刚出的iPhone 16前置摄像头高点儿。
安妥在通顺时间拍摄第一视角像片、视频丨百度寰宇大会2024
边走边问。
这个功能愚弄场景大多在室外。比如走在路上看见漂亮的历史建筑,请它来说说背后的故事,特殊于雇了个“戳一下蹦跶一下”的AI导游。需要说一下的是,AI的回答是通过眼镜腿上的麦克风传出的。
“边走边问”的导游功能丨百度寰宇大会2024
识物百科。
有点近似于“边走边问”,但使用场景更平凡,包括但不限于识别花鸟虫鱼,以致不错识别你眼前一桌饭菜里无意含几许卡路里。这个功能确乎是把百度的数据库上风景尽其用了。
识物百科在看展时间的应用丨百度寰宇大会2024
视听翻译。
发布会先容未几,不太澄莹这个翻译能作念到什么进程,是只可翻译眼前的外文笔墨,照旧能作念到同声传译?咱们姑且保抓期待。
发布会的先容视频里只须阅读外文笔墨的翻译形态丨百度寰宇大会2024
智能备忘。
李莹在发布会中举的例子是,“阅读的时间用手点一下,点的骨子就能智能备忘了”,至于若何点、精准度若何样,还尚不得知。除此以外,应该也不错像同类型居品一样,连通手机端、平板端的备忘录,在眼镜上进行语音教导。
氛围歌单。
看起来似乎能连结你咫尺的快意,礼聘安妥氛围的音乐给你听。不外,我个东说念主以为这个功能不太凑趣——濒临通常的快意,有的东说念主焕发的有的东说念主伤感,更别提人人千奇百怪的音乐审好意思了。
个性推歌这个功能,你若何看?丨百度寰宇大会2024
展会现场,样品被框在了玻璃罩里。要比及来岁上半年才上市,价钱传说是“全都很有诚意”。更多对于舒限度、使用体验、近视/远视友好等细节问题也待回答。
不外这场研究“有价值的AI应用”的发布会,简直从线上蔓延到了物理寰宇,从诬捏浸透到了履行。
作家:沈知涵,李小葵
剪辑:Rex 火星电竞