E0301. 对话张奇:从实验室到市场:大模型产业化之路
Description
高校所承担的角色更多地是进行技术验证,即探索技术路径的正确性和可行性;而大模型产品化需要企业的介入。
| 嘉宾 |
张奇 复旦大学计算机科学技术学院教授、博士研究生导师,“眸思”(MouSi)大模型负责人,MOSS大模型核心人员
| 内容 |
从MOSS到“眸思”
复旦金融评论:2023年复旦大学自然语言处理实验室发布了国内首个类ChatGPT模型MOSS,您作为该团队的核心成员,能否分享一下团队是如何实现这一突破的?是因为研究的预见性,还是因为团队在执行上展现出了非凡的速度和效率?
张奇:首先,ChatGPT不是一夜之间就出现的。早在2020年,GPT-3就已经发布了。当时,我们就开始与多家企业展开合作,着手进行相关的预训练工作。在2021年,我们就已经与合作伙伴共同推进了相关项目的发展。得益于这些技术积累,当2022年底ChatGPT发布时,我们能够迅速调动已有的技术快速响应。
其次,我们的实验室在国内自然语言处理(NLP)领域一直处于领先地位。自20世纪90年代起,我们便开始深耕NLP研究,对NLP的各个方面有着深刻的理解和前沿的认知。这也是为什么ChatGPT一问世,MOSS就能够迅速在算法上复现的原因之一。
复旦金融评论:在MOSS发布后,仅用半年时间,多模态大模型“眸思”横空出世。MOSS和“眸思”的模型有何关联?
张奇:MOSS和“眸思”是由我们实验室开发的两个不同的模型。MOSS是一个对话式大型语言模型,而“眸思”是一个多模态大模型,能够理解并识别图片内容。这也意味着我们实验室的研究从原本基于GPT3.5的文本模型转向围绕GPT4-v复现多模态大模型。
随着“眸思”项目的推进,我们开始思考它还能做些什么。“眸思”多模态的处理能力(联合语言和视觉的力量)就像是为MOSS增添了“一双眼睛”。只需拍摄一张照片,“眸思”就能准确描述出周围的环境。这一特性启发我们将“眸思”模型应用于辅助视障人士的公益性项目。想象一下,视障人士只需用手机拍张照片,“眸思”就能告诉他们前面有没有障碍物,或者周围有什么重要的事物,帮助他们更方便地“看清世界”。
从实验室到市场:产学研融合下的大模型产业化
复旦金融评论:作为一个高校研究团队,“眸思”在资金投入和研发产出方面如何实现平衡?除了公益性质的项目,未来是否有计划做市场化的盈利项目?
张奇:在大模型的研发和产业化过程中,资金投入是非常大的。不过,得益于2023年与企业的一些合作,我们对大模型的能力边界有了更深入的理解。这也帮助我们在后续的产业项目中能够更加明确大模型的潜力和应用范围。
实际上,真正在“眸思”项目的资金投入相对较少,并且研发团队也少走了一些弯路。“眸思”的核心工作是验证研究路径的可行性,也就是确定我们能够达到的技术高度、模型的优势与局限、是否具有商业可行性,以及如果落地所需的资金规模。在这一过程中,我们并不需要巨额资金从零开始对模型进行预训练,也不会使用千亿参数规模的大模型。
我们利用实验室内部已有的积累,包括之前项目的结余资金来以一种可持续的方式逐步推进研发,这就类似于一个滚动发展的过程。一旦“眸思”完成,可能吸引更多企业合作,尤其是在多模态领域。这一方面增强我们产品落地的能力,另一方面也推动我们的研究和开发工作,从而形成良性循环。
另外一个“眸思”目前主要在做的项目是为个人和企业提供知识问答服务。用户可以在单卡3090这样的硬件上,利用我们的“智工”知