从微软辞职创业做AI，刚好赶上ChatGPT爆火风口，融资过亿

创业

2023

03/16

16:35

亚设网

GPT-4的发布，向人们揭示生成式预训练大模型强大的语言理解和生成能力，也宣告AI开始从1.0进入2.0。

从微软辞职创业做AI，刚好赶上ChatGPT爆火风口，融资过亿

创业邦（ichuangyebang）原创

作者丨赵晓晓

编辑丨昝立永

前天的创新工场AI趋势分享会上，澜舟科技创始人兼CEO周明花了40多分钟，从头阐述了为什么离开微软，为什么去创业，怎么想到做语言大模型，ChatGPT怎么火的、中国创业者的机会在哪里。他似乎试图教会现场记者如何创业。

周明说，两年前创业是预感，预测大模型要火，但中间两年一直不温不火。现在ChatGPT火了，刚好，我们赶上了风口。

周明的前二十几年被分成三段。1998年之前，周明在清华大学就职，担任清华副教授。后来加入微软研究院，这一待就是21.5年，2020年辞职的时候，周明已经做到了微软亚洲研究院副院长的位置。

当时，创新工场董事长兼首席执行官、创新工场人工智能工程院院长李开复问周明，“清华这么好的工作，为什么要去微软。”周明回复，他想把团队带成世界一流水平，也想把中国的自然语言处理技术（NLP）推向全球。

2020年，周明在北京成立了澜舟科技，做AI大模型研发，以孟子预训练技术体系为基础，打造了孟子系列模型及服务，是国内最早做认知智能的公司。目前，澜舟科技已经开源了近20个模型。今年3月，澜舟科技推出孟子对话大模型（MChat），有类ChatGPT的能力。

成立至今，澜舟科技已经完成了三轮融资，融资总额数亿人民币。投资机构有中关村科学城、斯道资本、创新工场、联想创投等。其中，创新工场是澜舟科技的最早投资方。头部客户有华为、同花顺、华夏基金、中文在线等。

ChatGPT热度还未散去，3月15日，OpenA又发布了更强大的GPT-4，向人们揭示生成式预训练大模型强大的语言理解和生成能力，也宣告AI开始从1.0进入2.0。

“大家都很期待GPT-4，现在需要判断的是它的能力，或者它的覆盖范围，对我们来说有哪些启示。”周明说，“企业要有自己清晰的判断。”

这听起来平平无奇，不平常的是，关注这条赛道以及正在路上的创业者，如何像自己说的那样去行动。

辞职微软创业做AI

问：您在微软工作二十多年来，创业意识有没有改变？

周明：当年我从清华副教授加入微软研究院的时候，开复问了我一个问题，“周老师，您在清华挺好的，为什么要去微软？”

我说我想把我的团队带成世界一流水平，也想把中国的NLP推到世界前沿。开复是很支持我的，他觉得我的想法很好。

但这两个梦想不好实现，十年都没有实现，终于在2020年实现了。现在我们的论文世界第一名，微软很多NLP技术都来自我们的团队，我在国内也培养了很多人才，很多NLP的人才都跟微软研究院有非常大的关系。

两年前，开复问我下一步想做什么？我说看到了大模型的未来，我在微软实现了上面两个梦想后，想去投身大模型的研究和应用，想创业，为企业和创业者提供技术和平台服务。后来我就加入了创新工场。

创业后，一直从事大模型的研发和创新，只不过因为疫情、经济等原因，AI创业一直不温不火。去年年底ChatGPT发布后，给这个行业点亮了一盏明灯，我们也刚好赶上了风口。

问：您在微软的20多年是纯做技术，后来再去做商业化，这个心态您是怎么调整的？

周明：ChatGPT给我们的启发。一个大模型公司，不能只做算法，不能只做工程，也不能只做产品，要有创造力。

我在微软的时候也做过产品，既有人脉也有资源，我就想把我的优势集中起来，做NLP的创新和突破。但很幸运，正好赶上了这样一个大模型时代。

问：目前澜舟科技的产品是什么？

周明：澜舟科技早于行业步伐潜心布局自然语言技术研发，用不到两年时间的研发积淀，验证了第一阶段的孟子轻量化模型能力，围绕这里理念，做出了各种大模型，比如孟子的BERT、孟子GPT、孟子T5、孟子T0大模型。

今天发布的是孟子MChat可控大模型，类ChatGPT的Chat能力，正式宣告迈入AI 2.0。

孟子MChat可控大模型有几个显著特点：陆续推出10B和100B参数级的大模型；具备聊天、问答、翻译、文本生成、信息抽取等多种能力；可融合搜索结果、领域数据和知识图谱；对功能、风格、人类认知等方面具可控性。

问：为什么要选择开源模式？

周明：创业之初，我们走访了一百多个合作伙伴。他们对新技术特别渴望，GPT、BERT（预训练的语言表征模型）等技术满足不了他们的需求，所以当时就想把开源做出来，帮助客户快速建立认知。

我们的开发思路跟ChatGPT相反，ChatGPT原来也做GPT1、2、3，最后通过一个聊天的方式把很多功能集中在体现出来。我们有这方面的能力，只要把ChatGPT对话能力直接加上，就约等于ChatGPT。但我们会考虑到结果可控和功能引擎可控，我们加什么不加什么，根据客户需要。ChatGPT是互联网所有的数据都加进去。

问：有预想到ChatGPT会突然爆火吗？

周明：ChatGPT为AI行业点亮了一盏灯，之前的AI一直不温不火，那个时候我们在想，也不知道要等到什么时候，今天就刚好赶上了风口。

AI开始从1.0进入2.0，AI不仅将具备推理、思维链等涌现能力，也更加灵活可控。ChatGPT是AI 2.0时代的工具端井喷中出现的第一个现象级应用，带动着更多AI 2.0时代的语言大模型能力将持续演进。

GPT-4到来后，中国能否赶上？

问：ChatGPT火了之后，看国内的创业企业雨后春笋冒出一堆，从投资人的视角，你看到的现状是什么？

任博冰：现状是，挺有意思的。我之前没有经历过移动互联网的爆发，从现在的发展情况来看，我们看到各个领域的创业者，或者没有创业经历的技术大牛都在进入这个领域。

问：GPT-4到来后，中国能否赶上？会产生哪些新机会？

周明：GPT-4大家都很期待，唯一可以判断的是它的能力，或者它的覆盖范围，对我们来说有哪些启示。比如说它强大的识图能力、文字输入限制提升到了2.5万字、回答准确性、风格变化等。我们要考虑的是技术迭代的速度和下一步的发展会是什么。

我们的机会在于，把可控和落地做到ChatGPT前面。

任博冰：ChatGPT超出大家的预期，甚至超出它自己的预期，实际上GPT-3和GPT-3.5在落地和实际操作中并没有超出预期，GPT-4大概也不会超出预期。

AI 2.0的发展范式是迭代式的，从“辅助人类”到“全程自动”，所以生产力工具的升级会是一个特别巨大的机会。比如文档工具、绘图软件，都不需要用户动手。这个阶段，所有使用者界面将被重新设计。

问：大模型的能力涌现，是否是随机出现的？如果是，是在一定规模下一定会出现，还是要通过不断训练才会出现？

周明：能力涌现是个未解，大家都是一种猜测，有的能力在60亿参数出现，有的在600亿参数出现。比较明显的一个趋势就是，是在你的模型达到一定规模时，会涌现出一些能力。

比如我们做小模型的时候，多轮对话就出不来，模型10倍大之后，多轮对话能力自然就出来了，我们并没有做任何特定的工作。

这也是ChatGPT让人很惊奇的地方，有些功能没有设计，模型一变大后自己就出来了。对我们的启示是，在能力所见范围之内把模型做大，把数据弄更干净、质量更高，涌现能体现。

问：之前有人估算过大模型训练成本在五百万美元上下，对于一家创业公司大概需要多少成本才够，澜舟科技最高的成本在哪些方面？

周明：创业公司长板是快速迭代，跟用户接力会比较快，落地容易，短板是GPU资源或者人力成本都要考虑进去。所以创业公司不提倡超前追大模式，把钱很快烧了，再烧就烧不动了，还有烧的不好不坏的，更不容易出头。

企业多发挥后半部分优势，多用算法，而不是完全靠算力取胜。一定要重视落地，练出来的模型每一步都要挣钱，自己去造血，这样公司能处于稳健的状态。

问：有一种观点是，中小型创业企业烧不起这个钱，所以在大模型、ChatGPT很难有所建树，两位怎么看？

周明：不光中小企业，中国的大企业、BAT也烧不起这么多钱。算力、算法、数据、场景，这是跑通大模型的四个关键要素。不要跟风，要先达到几百或者千亿的规模。不要总想着超越ChatGPT，要走出自己的特色。也可以滚雪球式的拓展到其他的领域，甚至做更多的AGI技术。

任博冰：ChatGPT只是做了产品封装，过程也是循序渐进的，当然它提供了很好的思路。最主要的是可控性，目前还没有哪个技术可以完全解决这个问题。

美国和中国的节奏

问：先问一下任博冰，你跟周明博士是怎么认识的？

任博冰：我们是在2020年底认识的，接近元旦的时候，我跟周老师是同一天入职创新工场的。但周老师跟李开复老师认识很多年了，他们是同事，后来李开复老师就把周老师邀请过来，所以在那一天认识了周老师，之后开始了孵化合作。

问：据说还有个饭局的故事。

周明：那次是李开复组局。

问：AI1.0到AI2.0，背后的技术模型是重大突破，今天可以多谈谈，为什么大模型在应用和商业化方面会是这么强大的推力？

周明：原来做NLP的人都是一个任务一个模型和一个系统，代价非常很大，碎片化严重，后来有了大模型技术当底座，给具体任务做翻译。刚才李开复也介绍了AI 2.0时代的通用大模型，N多任务在这里都训练过，大规模提升了能力。

AI2.0展示的是在未来To B落地的时候，开发和维护的效率大幅度提升。所以我认为这是目前是最有可能引领To B行业的一些新的技术。

问：可不可以跟我们聊聊美国和中国的节奏，给我们一个大概的评估，中国会是什么样的节奏？

任博冰：ChatGPT火了之后，我们也跟OpenAI联合创始人进行了沟通，他们没说太多细节，但给我们一些指示。ChatGPT出现之前，美国有很多做大模型研究、大模型创业的企业，以及围绕周边方向去做基础层的公司，包括底层的基础设施公司等。

澜舟科技在2020年底开始做这件事情，当时国内类似的创业公司还是比较少的，即使到了2022年年中多模态、原生图出来之后，国内类似的公司依然很少。现在数量在增加了。美国那边速度更快一点，平均每天新增10个初创公司。

但在可控性上，美国那边也没有很好的解决方案，周明老师在创业初就把可控性放到很重要位置上，它是大模型的下一个高峰，这条道路是对的。

周明：ChatGPT火了之后，很多人就觉得这是个新的机会，我要做、要跳出来。但我想说一句，机会还是给那些长期努力有准备的，并且能够掌握未来的人。

第一，ChatGPT有很多细节，是需要花工夫研究的。第二，ChatGPT把模型推向新高度，也带动全球市场英伟达、GPU的大销，这是一个无底洞的军备竞赛，我们要审时度势，拥抱大模型，把模块能做好、做精致。第三要注重落地，尤其注意To B落地，不一定是跟ChatGPT完全一样的方式，走出中国特色的大模型。

中国创业者要有自己的特色

问：你觉得真正能做好的AI2.0类型公司的创业者，应该具备哪些特制跟素质？

任博冰：有创业者会头脑过热，会讲一些自己不一定能实现的故事。有沉淀和冷静思考的创业者，他们的能力体现在尝试和摸索过程中，能够得到更好的结论和路径。这个阶段，真正优秀的项目是非常少的，这个需要试错时间，未来还是会有一些大公司出现的。

我们之前做孵化的时候，写了大几百页的研究，GPT-3不一定能做到。当时我们想，这个领域还是有很多好的方向跟机会的，只不过现在的时间早一点。

问：你更看重哪一点，项目的算法算力、团队，还是商业化？

任博冰：去年年底，很多创业者都是直接用开源模型，去做一些更有意思的场景。现在，大家对ChatGPT能力边界、底层架构的理解更深了，他们甚至开始改一些开源模型。创业者还是要不断地去探索和试错。

问：你们给中国创业者的建议是什么？他们往哪些方向走更有机会展现出国内的特色？

任博冰：国内企业现阶段可以奉行的是“拿来主义”，基于海外的开源大模型，将中小模型打磨至顶尖水平。完全照搬美国创业者利用API去做的一些领域、产品，放到中国并不完全适用。

如果要做一个新的产品，无论是To C还是To B，要小步快跑地去验证和试错，这要有大胆的想象。

现在还没看到有创业者利用AI技术往前推没有人走过的方向，美国也没有，未来几年可能有重新定义新的内容生态、新的工艺形态的出现。

周明：中国的To C和To B市场跟美国有很大差距。所以中国创业者必须把底座做好、了解客户需求，必须有快速迭代的能力。还要有很强的落地能力。

问：新的这一笔融资，钱准备怎么花？怎么考虑特色落地？