首页>外汇 > 正文

大语言模型综合性能评估报告:百度文心一言中文理解能力超越ChatGPT

2023-08-11 01:52:02    出处:中关村在线


(相关资料图)

近日,由清华大学新闻与传播学院教授、博士生导师沈阳团队发布的《大语言模型综合性能评估报告》显示,GPT-4在总得分率上排名第一,而百度的文心一言在20项指标的综合评分中位居国内首位,超越了ChatGPT,尤其在中文语义理解方面排名第一,部分中文能力甚至超越了GPT-4。该报告选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工等7个大语言模型,从生成质量、使用与性能、安全与合规三大维度进行全面考察,包括上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等20项指标。综合来看,文心一言在语义理解能力上表现突出,尤其在中文理解能力上具备优势,更懂中国文化,同时具有强大的时效性和对内容安全的细致把握,这得益于其在知识增强、检索增强和对话增强等方面的技术创新。在生成质量方面,文心一言在语义理解、输出表达、适应泛化的综合评测中得分率为76.98%,仅次于GPT-4,领先于包括ChatGPT在内的其他大语言模型。在部分中文语义理解方面,文心一言以92%的得分率排名榜首。在安全合规方面,文心一言在内容安全性、偏见和公平性、隐私保护等方面的综合评测中得分率为78.18%,与GPT-4并列排名第一。

关键词:

消费
产业
首发7499元 雷神ZERO 2023游戏本上架:13代i7HX+满血RTX 4060 快科技8月8日消息,雷神新款ZERO2023游戏本上架,采用i7-13650HX+RTX40
封面人物丨两年破局!这位局长为乡村教育找到了一条出路 本文共10000字,阅读约需15分钟本刊编辑部通常,提起乡村教育,我们往
酒仙桥这两栋楼开拆啦! 酒仙桥旧改已经进入一个新的阶段,老街坊们都对拆迁的进度十分关注,最
盛唐究竟有多强大?看看唐朝诗人们描写“万国来朝”的诗句 盛唐究竟有多强大?看看唐朝诗人们描写“万国来朝”的诗句,唐朝是我国
基金