多模态大模型应用前景广阔 三条主线把握人工智能落地机会

观点
2023
12/20
20:31
亚设网
分享

近期,谷歌公司宣布推出其规模最大、功能最强的多模态大模型Gemini,其最强大的TPU(张 量 处 理 单 元 ) 系

统“CloudTPUv5p”,以及来自谷歌云的人工智能超级计算机。


业内人士表示,谷歌发布多模态大模型Gemini,可以同时理解文本、图像、音频、视频和代码五种信息,成为首个MMLU测评上超过人类专家的模型,在性能上几乎全方位超越GPT-4V,进一步升级了多模态大模型

的 能 力 。 随 着 Gen-2、Pika1.0、Gemini等多模态模型的快速涌现,全球大模型多模态化趋势日益显著,有望带动AIGC应用加速落地。

事件驱动 谷歌发布多模态大模型Gemini

近期,美国科技巨头谷歌宣布推出其认为规模最大、功能最强大的AI智能模型Gemini1.0。Gemini1.0将有三种不同 的 尺 寸

:GeminiNano、GeminiPro和GeminiUltra。其中,GeminiUltra适用于高度复杂的任务,目前还处于测试和完善阶段,谷歌将向部分客户、开发者、合作伙伴以及安全和责任专家提供使用,用以进行早期试验并获得反馈;GeminiPro适用于各种任务的最佳模型,用于Bard的升级;GeminiNano则是端侧设备上最高效的模型,能够用以支持录音软件的“总结”和Gboard的“智能回复”等功能。

据谷歌称,Gemini为史上第一款原生支持多模态能力的AI模型。所谓原生多模态,即从一开始就在不同模态上进行预训练,而无需分别训练不同模态对应的组件。在原生多模态的基础上,Gemini还会利用额外的多模态数据对其进行微调,以进一步提高其有效性。在此框架下,Gemini具有多样化的功能。

Gemini1.0具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能,可以在海量的数据中发掘难以辨别的知识内容,从而拥有强大的推理能力。此外,Gem-ini1.0经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。同时,Gemini可以理解、解释和生成世界上最流行的编程语言

(如Python、Java、C++和Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理,这些能力使其成为世界领先的编码基础模型之一。

依托原生多模态框架,Gemini拥有强大的性能。谷歌一直在对Gemini模型进行严格的测试并评估其在各种任务中的性能,其在很多方面有着突出的表现。

行业前瞻 AIGC产业未来发展前景广阔

近期,AI视频生成领域进展不断,海外多家企业先后推出相关AI视频生成工具或对原有的产品进行及时更新。11月20日,Runway更新其视频生成模型Gen-2,上线“运动画笔”功能。11月22日,此前发布标志性文生图模型StableD-iffusion的公司StabilityAI推出最新AI模型StableVideoDiffusion,实现图片生成视频。11月28日,美国AI初创公司Pika发布的AI生成视频工具Pika1.0火热出圈,其主要功能包括文本/图片生成视频、内容编辑、风格转化、尺寸调整等。

此外,近日谷歌发布多模态大模型Gemini,可以同时理解文本、图像、音频、视频和代码五种信息,成为首个MMLU测评上超过人类专家的模型,在性能上几乎全方位超越GPT-4V,进一步升级了多模态大模型的能力。随着Gen-2、Pika1.0、Gemini等多模态模型的快速涌现,全球大模型多模态化趋势日益显著,有望带动AIGC应用加速落地。

从大模型应用端来看,相较OpenAI,谷歌的商业版图更为广阔,Gemini系列规模和功能强大,预计将快速融入谷歌生态,未来商业模式拥有极大的想象空间。内部生态融合计划来看,谷歌表示,从发布日起,Gemini可开始应用于Bard和Pixel8Pro智能手机,并将很快与谷歌服务中的其他产品集成,包括Chrome、搜索和广告等。外部用户开放情况来看,谷歌计划通过谷歌云将Gemini授权给客户,12月13日开始,开发者和企业客户可以访问GeminiPro,安卓开发人员可以使用GeminiNano完成构建。

谷歌作为全球人工智能龙头之一,无论在算力、算法还是商业化各个方面都积蓄了优势,Gemini系列大模型的如期推出,打破此前市场关于延期发布的传闻,同时Gemini系列在传统文本领域以及多模态领域能力均对标GPT-4,总体超出市场预期。我们可以看到人工智能巨头在大模型领域的竞争依然白热化,在此背景下继续看好AI算力需求的增长,同时,当下对于多模态AI的激烈角逐也将持续拔升大模型的整体能力水平,有助于不断拓展大模型的应用场景和边界,想象空间广阔。

当前,我国通用人工智能产业政策逐步完善,国产大模型能力持续升级,我国国产AI芯片产业链加快成熟。随着国产大模型厂商和AI芯片厂商的持续发力,我国AIGC产业未来发展前景广阔。

投资思路 三条主线把握人工智能落地机会

太平洋证券表示,谷歌Gemini1.0发布标志着多模态领域取得里程碑式进展,产业趋势确定性进一步明确。在商业化方面,过往由于AI应用主要集中于B端,商业化发展受到限制。随着多模态新产品和新技术的持续迭代,Pika在多模态领域取得突破,AIGC有望在文娱行业拓展应用,进一步打开C端市场,提升商业化价值。今年是AI应用落地的元年,建议重视场景和用户的价值。

对于具体投资标的,太平洋证券推荐关注三条主线。第一,大模型和AIAgents:昆仑万维;第二,多模态:文字IP:中文在线、掌阅科技;形象IP:上海电影、奥飞娱乐;多模态赋能视频:华策影视,光线传媒;第三,AI应用:AI社交产品:盛天网络;AI教育:皖新传媒、佳发教育;AI校对:果麦文化;AI游戏:恺英网络、三七互娱、吉比特、巨人网络、电魂网络、掌趣科技。

中泰证券指出,人工智能新一轮十年级的技术和产业革命大幕已经拉开。

对于具体投资标的,中泰证券表示,算力服务器建议关注浪潮信息、中科曙光、紫光股份等,芯片建议关注英伟达、寒武纪、海光信息、龙芯中科等;模型方面,国内建议关注科大讯飞、三六零、格灵深瞳、云从科技、云天励飞等;数据建议关注星环科技、海天瑞声等,安全建议关注深信服、启明星辰、安恒信息、天融信、绿盟科技、迪普科技、安博通、奇安信、永信至诚、美亚柏科等;生产力工具建议关注金山办公、万兴科技、广联达、中望软件、彩讯股份、福昕软件等;ERP等办公场景建议关注金蝶国际、明源云、鼎捷软件、用友网络、致远互联等;金融场景建议关注恒生电子、同花顺、中科软、宇信科技等;汽车场景建议关注中科创达、德赛西威、经纬恒润、万集科技等;医疗场景建议关注卫宁健康、创业慧康、嘉和美康、医渡科技、鹰瞳科技等;其他建议关注焦点科技、中科星图、航天宏图、拓尔思、佳发教育、神思电子等。

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 亚设网的观点和立场。

20.jpg

关于我们

微信扫一扫,加关注

Top