从微软辞职创业做AI,刚好赶上ChatGPT爆火风口,融资过亿

创业
2023
03/16
16:35
亚设网
分享

GPT-4的发布,向人们揭示生成式预训练大模型强大的语言理解和生成能力,也宣告AI开始从1.0进入2.0。

从微软辞职创业做AI,刚好赶上ChatGPT爆火风口,融资过亿

创业邦(ichuangyebang)原创


作者丨赵晓晓

编辑丨昝立永

前天的创新工场AI趋势分享会上,澜舟科技创始人兼CEO周明花了40多分钟,从头阐述了为什么离开微软,为什么去创业,怎么想到做语言大模型,ChatGPT怎么火的、中国创业者的机会在哪里。他似乎试图教会现场记者如何创业。

周明说,两年前创业是预感,预测大模型要火,但中间两年一直不温不火。现在ChatGPT火了,刚好,我们赶上了风口。

周明的前二十几年被分成三段。1998年之前,周明在清华大学就职,担任清华副教授。后来加入微软研究院,这一待就是21.5年,2020年辞职的时候,周明已经做到了微软亚洲研究院副院长的位置。

当时,创新工场董事长兼首席执行官、创新工场人工智能工程院院长李开复问周明,“清华这么好的工作,为什么要去微软。”周明回复,他想把团队带成世界一流水平,也想把中国的自然语言处理技术(NLP)推向全球。

2020年,周明在北京成立了澜舟科技,做AI大模型研发,以孟子预训练技术体系为基础,打造了孟子系列模型及服务,是国内最早做认知智能的公司。目前,澜舟科技已经开源了近20个模型。今年3月,澜舟科技推出孟子对话大模型(MChat),有类ChatGPT的能力。

成立至今,澜舟科技已经完成了三轮融资,融资总额数亿人民币。投资机构有中关村科学城、斯道资本、创新工场、联想创投等。其中,创新工场是澜舟科技的最早投资方。头部客户有华为、同花顺、华夏基金、中文在线等。

ChatGPT热度还未散去,3月15日,OpenA又发布了更强大的GPT-4,向人们揭示生成式预训练大模型强大的语言理解和生成能力,也宣告AI开始从1.0进入2.0。

“大家都很期待GPT-4,现在需要判断的是它的能力,或者它的覆盖范围,对我们来说有哪些启示。”周明说,“企业要有自己清晰的判断。”

这听起来平平无奇,不平常的是,关注这条赛道以及正在路上的创业者,如何像自己说的那样去行动。

辞职微软创业做AI

问:您在微软工作二十多年来,创业意识有没有改变?

周明:当年我从清华副教授加入微软研究院的时候,开复问了我一个问题,“周老师,您在清华挺好的,为什么要去微软?”

我说我想把我的团队带成世界一流水平,也想把中国的NLP推到世界前沿。开复是很支持我的,他觉得我的想法很好。

但这两个梦想不好实现,十年都没有实现,终于在2020年实现了。现在我们的论文世界第一名,微软很多NLP技术都来自我们的团队,我在国内也培养了很多人才,很多NLP的人才都跟微软研究院有非常大的关系。

两年前,开复问我下一步想做什么?我说看到了大模型的未来,我在微软实现了上面两个梦想后,想去投身大模型的研究和应用,想创业,为企业和创业者提供技术和平台服务。后来我就加入了创新工场。

创业后,一直从事大模型的研发和创新,只不过因为疫情、经济等原因,AI创业一直不温不火。去年年底ChatGPT发布后,给这个行业点亮了一盏明灯,我们也刚好赶上了风口。

问:您在微软的20多年是纯做技术,后来再去做商业化,这个心态您是怎么调整的?

周明:ChatGPT给我们的启发。一个大模型公司,不能只做算法,不能只做工程,也不能只做产品,要有创造力。

我在微软的时候也做过产品,既有人脉也有资源,我就想把我的优势集中起来,做NLP的创新和突破。但很幸运,正好赶上了这样一个大模型时代。

问:目前澜舟科技的产品是什么?

周明:澜舟科技早于行业步伐潜心布局自然语言技术研发,用不到两年时间的研发积淀,验证了第一阶段的孟子轻量化模型能力,围绕这里理念,做出了各种大模型,比如孟子的BERT、孟子GPT、孟子T5、孟子T0大模型。

今天发布的是孟子MChat可控大模型,类ChatGPT的Chat能力,正式宣告迈入AI 2.0。

孟子MChat可控大模型有几个显著特点:陆续推出10B和100B参数级的大模型;具备聊天、问答、翻译、文本生成、信息抽取等多种能力;可融合搜索结果、领域数据和知识图谱;对功能、风格、人类认知等方面具可控性。

问:为什么要选择开源模式?

周明:创业之初,我们走访了一百多个合作伙伴。他们对新技术特别渴望,GPT、BERT(预训练的语言表征模型)等技术满足不了他们的需求,所以当时就想把开源做出来,帮助客户快速建立认知。

我们的开发思路跟ChatGPT相反,ChatGPT原来也做GPT1、2、3,最后通过一个聊天的方式把很多功能集中在体现出来。我们有这方面的能力,只要把ChatGPT对话能力直接加上,就约等于ChatGPT。但我们会考虑到结果可控和功能引擎可控,我们加什么不加什么,根据客户需要。ChatGPT是互联网所有的数据都加进去。

问:有预想到ChatGPT会突然爆火吗?

周明:ChatGPT为AI行业点亮了一盏灯,之前的AI一直不温不火,那个时候我们在想,也不知道要等到什么时候,今天就刚好赶上了风口。

AI开始从1.0进入2.0,AI不仅将具备推理、思维链等涌现能力,也更加灵活可控。ChatGPT是AI 2.0时代的工具端井喷中出现的第一个现象级应用,带动着更多AI 2.0时代的语言大模型能力将持续演进。

GPT-4到来后,中国能否赶上?

问:ChatGPT火了之后,看国内的创业企业雨后春笋冒出一堆,从投资人的视角,你看到的现状是什么?

任博冰:现状是,挺有意思的。我之前没有经历过移动互联网的爆发,从现在的发展情况来看,我们看到各个领域的创业者,或者没有创业经历的技术大牛都在进入这个领域。

问:GPT-4到来后,中国能否赶上?会产生哪些新机会?

周明:GPT-4大家都很期待,唯一可以判断的是它的能力,或者它的覆盖范围,对我们来说有哪些启示。比如说它强大的识图能力、文字输入限制提升到了2.5万字、回答准确性、风格变化等。我们要考虑的是技术迭代的速度和下一步的发展会是什么。

我们的机会在于,把可控和落地做到ChatGPT前面。

任博冰:ChatGPT超出大家的预期,甚至超出它自己的预期,实际上GPT-3和GPT-3.5在落地和实际操作中并没有超出预期,GPT-4大概也不会超出预期。

AI 2.0的发展范式是迭代式的,从“辅助人类”到“全程自动”,所以生产力工具的升级会是一个特别巨大的机会。比如文档工具、绘图软件,都不需要用户动手。这个阶段,所有使用者界面将被重新设计。

问:大模型的能力涌现,是否是随机出现的?如果是,是在一定规模下一定会出现,还是要通过不断训练才会出现?

周明:能力涌现是个未解,大家都是一种猜测,有的能力在60亿参数出现,有的在600亿参数出现。比较明显的一个趋势就是,是在你的模型达到一定规模时,会涌现出一些能力。

比如我们做小模型的时候,多轮对话就出不来,模型10倍大之后,多轮对话能力自然就出来了,我们并没有做任何特定的工作。

这也是ChatGPT让人很惊奇的地方,有些功能没有设计,模型一变大后自己就出来了。对我们的启示是,在能力所见范围之内把模型做大,把数据弄更干净、质量更高,涌现能体现。

问:之前有人估算过大模型训练成本在五百万美元上下,对于一家创业公司大概需要多少成本才够,澜舟科技最高的成本在哪些方面?

周明:创业公司长板是快速迭代,跟用户接力会比较快,落地容易,短板是GPU资源或者人力成本都要考虑进去。所以创业公司不提倡超前追大模式,把钱很快烧了,再烧就烧不动了,还有烧的不好不坏的,更不容易出头。

企业多发挥后半部分优势,多用算法,而不是完全靠算力取胜。一定要重视落地,练出来的模型每一步都要挣钱,自己去造血,这样公司能处于稳健的状态。

问:有一种观点是,中小型创业企业烧不起这个钱,所以在大模型、ChatGPT很难有所建树,两位怎么看?

周明:不光中小企业,中国的大企业、BAT也烧不起这么多钱。算力、算法、数据、场景,这是跑通大模型的四个关键要素。不要跟风,要先达到几百或者千亿的规模。不要总想着超越ChatGPT,要走出自己的特色。也可以滚雪球式的拓展到其他的领域,甚至做更多的AGI技术。

任博冰:ChatGPT只是做了产品封装,过程也是循序渐进的,当然它提供了很好的思路。最主要的是可控性,目前还没有哪个技术可以完全解决这个问题。

美国中国的节奏

问:先问一下任博冰,你跟周明博士是怎么认识的?

任博冰:我们是在2020年底认识的,接近元旦的时候,我跟周老师是同一天入职创新工场的。但周老师跟李开复老师认识很多年了,他们是同事,后来李开复老师就把周老师邀请过来,所以在那一天认识了周老师,之后开始了孵化合作。

问:据说还有个饭局的故事。

周明:那次是李开复组局。

问:AI1.0到AI2.0,背后的技术模型是重大突破,今天可以多谈谈,为什么大模型在应用和商业化方面会是这么强大的推力?

周明:原来做NLP的人都是一个任务一个模型和一个系统,代价非常很大,碎片化严重,后来有了大模型技术当底座,给具体任务做翻译。刚才李开复也介绍了AI 2.0时代的通用大模型,N多任务在这里都训练过,大规模提升了能力。

AI2.0展示的是在未来To B落地的时候,开发和维护的效率大幅度提升。所以我认为这是目前是最有可能引领To B行业的一些新的技术。

:可不可以我们聊聊美国中国的节奏,给我们一个大概的评估,中国会是什么样的节奏

任博冰:ChatGPT火了之后,我们也跟OpenAI联合创始人进行了沟通,他们没说太多细节,但给我们一些指示。ChatGPT出现之前,美国有很多做大模型研究、大模型创业的企业,以及围绕周边方向去做基础层的公司,包括底层的基础设施公司等。

澜舟科技在2020年底开始做这件事情,当时国内类似的创业公司还是比较少的,即使到了2022年年中多模态、原生图出来之后,国内类似的公司依然很少。现在数量在增加了。美国那边速度更快一点,平均每天新增10个初创公司。

但在可控性上,美国那边也没有很好的解决方案,周明老师在创业初就把可控性放到很重要位置上,它是大模型的下一个高峰,这条道路是对的。

周明:ChatGPT火了之后,很多人就觉得这是个新的机会,我要做、要跳出来。但我想说一句,机会还是给那些长期努力有准备的,并且能够掌握未来的人。

第一,ChatGPT有很多细节,是需要花工夫研究的。第二,ChatGPT把模型推向新高度,也带动全球市场英伟达、GPU的大销,这是一个无底洞的军备竞赛,我们要审时度势,拥抱大模型,把模块能做好、做精致。第三要注重落地,尤其注意To B落地,不一定是跟ChatGPT完全一样的方式,走出中国特色的大模型。

中国创业者要有自己的特色

问:你觉得真正能做好的AI2.0类型公司的创业者,应该具备哪些特制跟素质?

任博冰:有创业者会头脑过热,会讲一些自己不一定能实现的故事。有沉淀和冷静思考的创业者,他们的能力体现在尝试和摸索过程中,能够得到更好的结论和路径。这个阶段,真正优秀的项目是非常少的,这个需要试错时间,未来还是会有一些大公司出现的。

我们之前做孵化的时候,写了大几百页的研究,GPT-3不一定能做到。当时我们想,这个领域还是有很多好的方向跟机会的,只不过现在的时间早一点。

问:你更看重哪一点,项目的算法算力、团队,还是商业化?

任博冰:去年年底,很多创业者都是直接用开源模型,去做一些更有意思的场景。现在,大家对ChatGPT能力边界、底层架构的理解更深了,他们甚至开始改一些开源模型。创业者还是要不断地去探索和试错。

问:你们给中国创业者的建议是什么?他们往哪些方向走更有机会展现出国内的特色?

任博冰:国内企业现阶段可以奉行的是“拿来主义”,基于海外的开源大模型,将中小模型打磨至顶尖水平。完全照搬美国创业者利用API去做的一些领域、产品,放到中国并不完全适用。

如果要做一个新的产品,无论是To C还是To B,要小步快跑地去验证和试错,这要有大胆的想象。

现在还没看到有创业者利用AI技术往前推没有人走过的方向,美国也没有,未来几年可能有重新定义新的内容生态、新的工艺形态的出现。

周明:中国的To C和To B市场跟美国有很大差距。所以中国创业者必须把底座做好、了解客户需求,必须有快速迭代的能力。还要有很强的落地能力。

问:新的这一笔融资,钱准备怎么花?怎么考虑特色落地?

周明:去年是整体市场比较惨淡,我们还逆袭完成了融资。这笔钱分成几个方面,第一是用在大模型研发上,一部分花在算力和数据上,还有一部分会花在招聘更多优秀的人才上。

特色落地有两个板块,第一个是金融,另一个是网文。

问:有没有考虑对外输出我们的技术,去做出海?

周明:要看机会,这个机会是合适的合作伙伴,在国内打磨好的成熟技术,因为海外的客户不给试错时间。我们现在在海外已经有一些合作伙伴。

问:哪些国家的机会更多一些?

周明:欧美方向是挑战很大,一是欧美技术相对成熟,另一个是地缘政治风险。日、韩、东南亚等一带一路的国家,机会相对多一些。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 亚设网的观点和立场。

20.jpg

关于我们

微信扫一扫,加关注

Top