科大讯飞刘庆峰：星火大模型已在三个方面超越 ChatGPT

来源:笔记侠发布时间:2023-05-06 22:20:46

内容来源：本文来自 " 讯飞星火认知大模型 " 成果发布会。

轮值主编 | 智勇责编 | 青羊

第 7412篇深度好文：2219 字 | 6 分钟阅读

【资料图】

笔记君说：

今日科大讯飞召开 " 讯飞星火认知大模型 " 成果发布会。

科大讯飞董事长刘庆峰、科大讯飞研究院院长刘聪，从文本生成、语言理解、知识问答、数学能力、逻辑推理、代码生成、多模态输入及生成7 个维度演示了大模型的通用能力，以及认知大模型与讯飞现有产品结合的商业应用成果。

国内认知大模型的最高水平是什么样？一起来看看。

一、认知大模型的七个能力维度

自从去年 11 月 OpenAI 推出 ChatGPT 以来，认知大模型技术在全球掀起了人工智能的全新浪潮，认知大模型的出现不亚于 PC 或者互联网的诞生。

通过统一的大模型学习后，系统具备了像人类一样触类旁通的能力，可以在跨领域形成良好表现，认知大模型已经实实在在开启了通用人工智能的曙光，星星之火开始出现。

目前，国内通用大模型的水平如何？

我们不得而知，但是讯飞的认知大模型已经具备了 7 大通用能力，在教育、办公、汽车、数字员工等多个领域都能落地应用，并且在文本生成、知识问答、数学能力三大能力上已超越 ChatGPT。

1. 长文本生成能力

刘聪现场用星火认知大模型生成了一段欢迎词，展示了大模型的文本生成能力。

为了测试不同文本类型的生成能力，刘聪还让星火认知大模型生成了邮件、故事、中英品宣文案等文字内容。

认知大模型，生成了一段孙悟空和奥特曼的故事，还使用语音朗读了这段现场生成的小故事。

所有内容都是大模型随机生成的，即使是同样的关键词和描述，每次生成的内容也是不同的。星火认知大模型在中文文本生成方面的能力已经超越了 ChatGPT，英文方面达到了 4.29 分，而 ChatGPT 是 4.48 分。

2. 语言理解能力

科大讯飞通过两个例子，演示了大模型在语法检查和语义理解上的成果。

在输入一段存在单词拼写错误、单复数错误、时态错误等问题的英文段落后，星火认知大模型迅速生成了一段纠正所有错误的文字。

展示语义理解能力时，刘庆峰以 " 俗话说男子汉大丈夫宁死不屈，但俗话又说男子汉大丈夫能屈能伸 " 为例，测试了大模型是否能准确理解这两句话背后的含义。

此外，对同一句话在不同语境中的不同理解，大模型也给出了准确的回答。

3. 知识问答

大模型的知识问答能力包括生活常识类、科学知识、工作技巧、医学知识等。比如，在医疗领域，大模型将不仅成为医生的助手，还会成为每个人的健康助手。

后续更多科普知识也会被融入到大模型中。在中国科学院支持下，大模型将持续不断学习更多科学资料，不断提升科学问答能力。

4. 逻辑推理

为了测试星火大模型是否真的可以理解人类提问，刘庆峰通过常识理解和故事编辑两种方式进行了演示。

现场问大模型 " 孔子在 2008 年奥运会上发表了什么讲话？" 大模型基于历史和常识判断出孔子不可能出现在奥运会现场。让大模型以此为主题生成一个故事时，它则从创作维度根据给出的提示编辑生成了一个小故事。

5. 数学能力

数学能力一定意义上代表了认知大模型通用能力的认知水平，星火认知大模型在数学能力方面遥遥领先。

从基础计算到三角形求度数再到应用题，星火认知大模型都在现场演示中给出了准确答案。

6. 代码能力

发布会现场星火认知大模型进行了一小段 " 找出 1 到 100 之间的质数并输出结果 " 代码生成的演示。

代码生成能力主要针对工业互联网和企业内部使用，星火认知大模型仍在不断训练中，未来两到三个月代码运行能力将有很大提升。

7. 多模态输入和表达能力

除了前文已经提到过的语音识别和朗读功能，发布会中还展示了大模型的图文输入和理解能力，不仅可以把英文菜单翻译为中文，还可以对菜单里的菜名进行解释，描述菜品的味道。

这一功能不仅可以应用在简单的图文翻译中，也可以成为旅行助手，在提供翻译功能的同时，介绍不同名胜古迹背后的含义和历史故事。

更值得一提的是，星火认知大模型还可以根据文字直接生成视频内容，无论是声音、虚拟人形象、唇型、手势还是视频背景都由大模型实时生成。

后续，星火认知大模型完善的方向如下：进一步提升大模型的开放式问答和多轮对话能力；实现代码生成能力升级，并将多模态交互能力开放给客户；全面实现通用模型对标 ChatGPT 等。

二、四个领域，取得落地成果

在教育领域，一直以来，作文提升都是教学中的一大难点，以批改为例，找出病句、好句、给出评语，一篇文章最少需要老师用 30 分钟才能完成。

而星火大模型的语言能力和学习机结合，可以对作文快速进行深度理解，自动生成评语和范文。

在办公领域，大模型升级产品，帮助智慧办公迈入了全新阶段，可以满足语音转写、会议记录等多语种翻译等多种办公需求，助力职场人提升工作效率。

在汽车领域和数字人领域，大模型和产品及业务进行全面结合，比如虚拟人智能交互机现已有 1000 多个虚拟形象资产、300 多个专业声音、30 多万用户自定义音库，可以提供更加自动化、个性化的数字员工服务，实现 24 小时不打烊营业。

三、中外大模型能力差距争议

追赶 OpenAI 首先需要一套科学系统的评测体系。

刘庆峰认为，认知大模型刚刚起步，还在快速成长和迭代过程中。

让这次智慧涌现的认知智能解决社会刚需，需要一套脚踏实地的科学系统的评测体系。

在认知大模型还在快速迭代中，如果只是找单点例子来证明某个系统的强弱，是没有意义的。

科大讯飞刘庆峰：星火大模型已在三个方面超越 ChatGPT

科大讯飞刘庆峰：星火大模型已在三个方面超越 ChatGPT

忽然想起采莲的事情来了这段主要写了什么（忽然想起采莲的事情来了全文）

解析函数_解析俗人|今日精选

江苏省盐城市2023-05-06 17:45发布海区大风黄色预警

种植香菇助农增收

全球观热点：指南针：接受世诚投资调研

浏览器自动关闭怎么办_浏览器自动关闭|全球热点评

长村乡：多举措营造风清气正、清清爽爽节日氛围_世界微动态

全球通讯！中国两艘军舰亮相新加坡亚洲国际海事防务展

天天滚动:一季度全国住院费用跨省直接结算超212万人次

天天报道:邢台宁晋县：开展岗位竞赛，赶订单！

楚雄彝族自治州大姚县司法局招聘司法协警公告|全球速看料

王者荣耀名字女生高冷_王者荣耀名字-焦点速递

宜城市农业农村局：坚持五个到位 确保畜牧统计监测质效

35岁杭州女子用啤酒洗头，坚持一月后，发生了什么样的变化

带着智慧型手机闯荡异世界 第二季_带着智慧型手机闯荡异世界免费版

我国首个国产化船舶交通管理系统在山东潍坊试运行 全球要闻

一把木杆秤称出“诚信”二字 古人立夏“秤人”背后有何寓意

五一民航市场量价齐升：航司看好暑运，或加速全年扭亏为盈 焦点信息

赴法勤工俭学：李立三从此步上政治舞台 热推荐

租号玩买号在哪里

多地推行“带押过户”，为何接受度不高？

为什么立夏要称体重、“验肥瘦”？

每日速看!遥望科技(002291.SZ)：数字人已经陆续播了一个月，目前来说有收获，直播数据还行，但是还有较大优化空间

非特殊用途化妆品备案查询

自己手写的合同，本人签字没有按手印，有效吗

每日信息：福建省宁德市2023-05-06 04:34发布暴雨黄色预警

乌称已培训万名无人机操作员，俄外长回应克宫遭袭：将报以具体行动 世界时讯

每日热讯!助推经济发展，一季度全国新增减税降费及退税缓费3679.8亿元

腐竹泡多久不能吃了_腐竹泡多久 速递

河北省交通项目建设劳动竞赛暨拉练考评范围发布

日前，省交通运输厅、省总工会、省财政厅联合印发《2022年全省交通...

河北现有灌木林地2100多万亩 占全省林地面积的18.5%

日前，省林草局印发《关于科学开展灌木林地造林绿化的指导意见》提...

河北：力争2022年底前新增分布式光伏装机250万千瓦以上

近日，河北省整县(市、区)推进屋顶分布式光伏开发试点建设推进会议...

河北省全面开展防汛风险隐患排查整治 消除安全度汛隐患

日前，省防汛抗旱指挥部办公室印发《关于开展防汛风险隐患排查整治...

南水北调东中线一期工程受水区地下水止跌回升

2月8日讯水利部会同国家发展改革委、财政...

宜城市农业农村局：坚持五个到位确保畜牧统计监测质效

带着智慧型手机闯荡异世界第二季_带着智慧型手机闯荡异世界免费版

我国首个国产化船舶交通管理系统在山东潍坊试运行全球要闻

一把木杆秤称出“诚信”二字古人立夏“秤人”背后有何寓意

五一民航市场量价齐升：航司看好暑运，或加速全年扭亏为盈焦点信息

赴法勤工俭学：李立三从此步上政治舞台热推荐

乌称已培训万名无人机操作员，俄外长回应克宫遭袭：将报以具体行动世界时讯

腐竹泡多久不能吃了_腐竹泡多久速递

河北现有灌木林地2100多万亩占全省林地面积的18.5%

河北省全面开展防汛风险隐患排查整治消除安全度汛隐患