独家 | 创新工场首席科学家周明：NLP 与金融「联 - 经济科学杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 经济科学

【栏目导航】

Navigation

【期刊信息】

Message

刊名：经济科学
主办：北京大学
主管：中华人民共和国教育部
ISSN：1002-5839
CN：11-1564/F
语言：中文
周期：双月
影响因子：1.804688
被引频次：83062
数据库收录：
中文核心期刊(2017);CSSCI中文社科引文索引(2019-2020);统计源期刊(2018);中国人文社会科学核心期刊(2018);期刊分类：理论经济

现在的位置：主页 > 综合新闻 >

独家 | 创新工场首席科学家周明：NLP 与金融「联

来源：经济科学 【在线投稿】栏目：综合新闻时间：2022-06-07

作者:网站采编

关键词:

【摘要】雷峰网雷峰网基于「孟子」，我们希望可以在金融领域中做文档智能信息抽取、OCR、舆情分析、暴雷事件分析、报警、风控，也可以做国内外金融信息的抽取汇总和检索、年报的自动生

雷峰网雷峰网

基于「孟子」，我们希望可以在金融领域中做文档智能信息抽取、OCR、舆情分析、暴雷事件分析、报警、风控，也可以做国内外金融信息的抽取汇总和检索、年报的自动生成和和行情预判等等，还有金融行业需要的客服、获客、客户推荐优秀产品、客户跟踪、用户画像等。

1999年，周明加入微软亚洲研究院，随后担任自然语言研究组的负责人、微软亚研副院长。2020年12月，他从微软离职，随后加入创新工场担任首席科学家，2021年6月孵化出澜舟科技，7月就推出轻量化模型——「孟子」，在中文语言理解评测CLUE榜单的多项指标上登顶第一，引起不少关注。

因此，金融行业的人士对 AI 是既渴望、又觉得太繁复，跟不上 AI 的节奏。在这种方式下，项目制就会产生一些问题，而联合实验室则能更灵活地应付这种快速多变的局面，把双方的优势与长处发挥出来。

澜舟科技是国内最早研究轻量化模型的公司之一。在研究「孟子」时，我们以为模型的能力会大幅削弱，但后来发现，如果轻量化模型的算法过关，加上知识的融入、数据的增强，轻量化模型有可能不输给大模型。这是非常了不起的一件事。

AI科技评论：在金融这样一个特定场景中，是否更有利于「孟子」这类轻量化训练模型的发展？

根据华夏基金首席数据官陈一昕的介绍，在以往的「金融+NLP」建设中，他们往往面临模型与行业场景适配性差、训练代价大、中文理解能力不足等问题。面对金融领域文本专业性强、应用场景多变的情况，构建落地快、易迭代、可适配金融垂直领域的中文NLP模型是一个亟待实现的目标。

周明：「孟子」在澜舟公司的所有技术体系中都会体现，包括智能文档、信息抽取、知识图谱、搜索问答，还有文本生成等，这些核心技术均会进入到跟华夏一同成立的联合实验室中。「孟子」会基于一些金融数据做训练，从而获得处理金融数据的能力。

而此时，「孟子」的轻量化优势便发挥了出来。

6月6日，创新工场首席科学家、澜舟科技创始人周明博士代表澜舟科技，在北京与华夏基金签署战略合作协议，宣告成立「金融NLP联合实验室」。

恰好在去年10月，我应邀参加一个在上海举行的智能投研大会，做了一个特邀报告，其中介绍了澜舟科技的自然语言处理技术，包括「孟子」预训练模型。华夏基金的杨思成在台下，对我们很感兴趣，就介绍我和华夏基金的首席数据官陈一昕认识，双方一拍即合。

周明：是的，我也是倡导者。别人都在做巨量化模型的时候，我是反其道而行之。当时很多人都笑话我，说那是因为你穷、做不起大模型。他们这么说也是对的，但即使我有充足的经费，我也还是觉得应该做轻量化模型，不能因为片面追求人工智能的最大化，不惜浪费资源、造成大量污染，这是不对的，要有社会责任。

以下是雷峰网-AI科技评论与周明博士的对话：

他是中国第一个中英翻译系统CEMT-I（哈工大1989年）、日本最有名的中日机器翻译产品J-北京（日本高电社1998年）的研制者，曾担任2019年国际计算语言学协会（ACL）主席，中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、中国中文信息学会常务理事，谷歌学术引用数超过32000次。

当用户在使用小模型时没有成本压力，能很快上手，不仅有助于企业数字化转型，也能帮助我们这样的科技公司尽快落地。所以我认为，无论从哪个角度考虑，都应该往轻量化模型去努力。

AI科技评论：金融业务有哪些特征？在金融场景中，NLP能够解决什么样的问题？

周明告诉AI科技评论，诸如「孟子」的轻量化模型部署成本低，能够快速迭代，用户压力小，且适配性强。此外，通过知识融合、数据增强，能力上或并不逊于大模型，十分适合金融场景的需求，更容易落地。

周明：在一定的情况下，模型越大、参数越多，泛化能力就越强、水平就越高，这是共识。但训练一个巨大的模型需要巨大算力，在使用大模型时，推理也需要很大的计算集群，需要买成百上千张卡来支持运行，一般的公司（包括金融机构）都负担不起，性价比也拉低。

图注：2021年7月，「孟子」刷榜，在中文语言理解评测CLUE榜单的多项指标上登顶第一

周明：针对自然语言的分析、理解、生成等通用任务，孟子的能力不低于大模型。此外，由于跟业务场景的密切结合，包括同华夏的紧密合作，我们知道问题的症结是针对性的，可以加入新数据或知识来提升下游任务的能力。

文章来源：《经济科学》网址: http://www.jjkxzz.cn/zonghexinwen/2022/0607/1019.html

上一篇：首批科学家精神教育基地发布
下一篇：（经济）全国农技中心启动科学安全使用农药培