多模态大模型应用前景广阔三条主线把握人工智能落地机会

观点

2023

12/20

20:31

亚设网

近期，谷歌公司宣布推出其规模最大、功能最强的多模态大模型Gemini，其最强大的TPU(张量处理单元 ) 系

统“CloudTPUv5p”，以及来自谷歌云的人工智能超级计算机。

业内人士表示，谷歌发布多模态大模型Gemini，可以同时理解文本、图像、音频、视频和代码五种信息，成为首个MMLU测评上超过人类专家的模型，在性能上几乎全方位超越GPT-4V，进一步升级了多模态大模型

的能力。随着 Gen-2、Pika1.0、Gemini等多模态模型的快速涌现，全球大模型多模态化趋势日益显著，有望带动AIGC应用加速落地。

事件驱动谷歌发布多模态大模型Gemini

近期，美国科技巨头谷歌宣布推出其认为规模最大、功能最强大的AI智能模型Gemini1.0。Gemini1.0将有三种不同的尺寸

：GeminiNano、GeminiPro和GeminiUltra。其中，GeminiUltra适用于高度复杂的任务，目前还处于测试和完善阶段，谷歌将向部分客户、开发者、合作伙伴以及安全和责任专家提供使用，用以进行早期试验并获得反馈;GeminiPro适用于各种任务的最佳模型，用于Bard的升级;GeminiNano则是端侧设备上最高效的模型，能够用以支持录音软件的“总结”和Gboard的“智能回复”等功能。

据谷歌称，Gemini为史上第一款原生支持多模态能力的AI模型。所谓原生多模态，即从一开始就在不同模态上进行预训练，而无需分别训练不同模态对应的组件。在原生多模态的基础上，Gemini还会利用额外的多模态数据对其进行微调，以进一步提高其有效性。在此框架下，Gemini具有多样化的功能。

Gemini1.0具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能，可以在海量的数据中发掘难以辨别的知识内容，从而拥有强大的推理能力。此外，Gem-ini1.0经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。同时，Gemini可以理解、解释和生成世界上最流行的编程语言

(如Python、Java、C++和Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理，这些能力使其成为世界领先的编码基础模型之一。

依托原生多模态框架，Gemini拥有强大的性能。谷歌一直在对Gemini模型进行严格的测试并评估其在各种任务中的性能，其在很多方面有着突出的表现。

行业前瞻 AIGC产业未来发展前景广阔

近期，AI视频生成领域进展不断，海外多家企业先后推出相关AI视频生成工具或对原有的产品进行及时更新。11月20日，Runway更新其视频生成模型Gen-2，上线“运动画笔”功能。11月22日，此前发布标志性文生图模型StableD-iffusion的公司StabilityAI推出最新AI模型StableVideoDiffusion，实现图片生成视频。11月28日，美国AI初创公司Pika发布的AI生成视频工具Pika1.0火热出圈，其主要功能包括文本/图片生成视频、内容编辑、风格转化、尺寸调整等。

此外，近日谷歌发布多模态大模型Gemini，可以同时理解文本、图像、音频、视频和代码五种信息，成为首个MMLU测评上超过人类专家的模型，在性能上几乎全方位超越GPT-4V，进一步升级了多模态大模型的能力。随着Gen-2、Pika1.0、Gemini等多模态模型的快速涌现，全球大模型多模态化趋势日益显著，有望带动AIGC应用加速落地。

从大模型应用端来看，相较OpenAI，谷歌的商业版图更为广阔，Gemini系列规模和功能强大，预计将快速融入谷歌生态，未来商业模式拥有极大的想象空间。内部生态融合计划来看，谷歌表示，从发布日起，Gemini可开始应用于Bard和Pixel8Pro智能手机，并将很快与谷歌服务中的其他产品集成，包括Chrome、搜索和广告等。外部用户开放情况来看，谷歌计划通过谷歌云将Gemini授权给客户，12月13日开始，开发者和企业客户可以访问GeminiPro，安卓开发人员可以使用GeminiNano完成构建。

谷歌作为全球人工智能龙头之一，无论在算力、算法还是商业化各个方面都积蓄了优势，Gemini系列大模型的如期推出，打破此前市场关于延期发布的传闻，同时Gemini系列在传统文本领域以及多模态领域能力均对标GPT-4，总体超出市场预期。我们可以看到人工智能巨头在大模型领域的竞争依然白热化，在此背景下继续看好AI算力需求的增长，同时，当下对于多模态AI的激烈角逐也将持续拔升大模型的整体能力水平，有助于不断拓展大模型的应用场景和边界，想象空间广阔。

当前，我国通用人工智能产业政策逐步完善，国产大模型能力持续升级，我国国产AI芯片产业链加快成熟。随着国产大模型厂商和AI芯片厂商的持续发力，我国AIGC产业未来发展前景广阔。

投资思路三条主线把握人工智能落地机会

太平洋证券表示，谷歌Gemini1.0发布标志着多模态领域取得里程碑式进展，产业趋势确定性进一步明确。在商业化方面，过往由于AI应用主要集中于B端，商业化发展受到限制。随着多模态新产品和新技术的持续迭代，Pika在多模态领域取得突破，AIGC有望在文娱行业拓展应用，进一步打开C端市场，提升商业化价值。今年是AI应用落地的元年，建议重视场景和用户的价值。

对于具体投资标的，太平洋证券推荐关注三条主线。第一，大模型和AIAgents：昆仑万维;第二，多模态：文字IP：中文在线、掌阅科技;形象IP：上海电影、奥飞娱乐;多模态赋能视频：华策影视，光线传媒;第三，AI应用：AI社交产品：盛天网络;AI教育：皖新传媒、佳发教育;AI校对：果麦文化;AI游戏：恺英网络、三七互娱、吉比特、巨人网络、电魂网络、掌趣科技。

中泰证券指出，人工智能新一轮十年级的技术和产业革命大幕已经拉开。

对于具体投资标的，中泰证券表示，算力服务器建议关注浪潮信息、中科曙光、紫光股份等，芯片建议关注英伟达、寒武纪、海光信息、龙芯中科等;模型方面，国内建议关注科大讯飞、三六零、格灵深瞳、云从科技、云天励飞等;数据建议关注星环科技、海天瑞声等，安全建议关注深信服、启明星辰、安恒信息、天融信、绿盟科技、迪普科技、安博通、奇安信、永信至诚、美亚柏科等;生产力工具建议关注金山办公、万兴科技、广联达、中望软件、彩讯股份、福昕软件等;ERP等办公场景建议关注金蝶国际、明源云、鼎捷软件、用友网络、致远互联等;金融场景建议关注恒生电子、同花顺、中科软、宇信科技等;汽车场景建议关注中科创达、德赛西威、经纬恒润、万集科技等;医疗场景建议关注卫宁健康、创业慧康、嘉和美康、医渡科技、鹰瞳科技等;其他建议关注焦点科技、中科星图、航天宏图、拓尔思、佳发教育、神思电子等。

THE END

前景大模型广阔应用模态

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表亚设网的观点和立场。