摘要:大模型高考,誰沒考好?
作者|藍媒匯編輯部
又是一年高考時,隨著第一科語文考試結束,全國高考作文題目再度成為全網熱議。
一年前的今天,大模型風口漸起,除了照例有各路大V、達人在朋友圈、微博等社交平臺展開作文大賽之外,ChatGPT、文心一言、訊飛星火三款頭部大模型也被AI藍媒匯(id:lanmeih001)“請來”作答高考作文。
而在2024年,百花齊放的國產大模型已在性能和體驗上不輸GPT-4,使用更多中文語料的訓練也讓這些本土玩家普遍“更懂中文”。
于是,AI藍媒匯以新課標I卷作文題為例,分別測評了BAT三家傳統大廠,以及科大訊飛、月之暗面、百川智能三位熱門選手的共計六款主流大模型,還引入了大模型互評環節。
誰考得最好,誰沒發揮好,拭目以待。
· 新課標I卷 作文題目:
閱讀下面的材料,根據要求寫作。(60分)
隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?
以上材料引發了你怎樣的聯想和思考?請寫一篇文章。
要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。
· 百度 文心一言4.0:
其余五款大模型打分如下:
綜合得分:55.8
· 阿里云 通義千問2.5:
其余五款大模型打分如下:
綜合得分:56.8
附:文心一言給出滿分的原因
· 騰訊 元寶:
其余五款大模型打分如下:
綜合得分:58.2
附:文心一言給出滿分的原因
· 科大訊飛 訊飛星火:
其余五款大模型打分如下:
綜合得分:57.2
· 月之暗面 Kimi:
其余五款大模型打分如下:
綜合得分:55.2
附:訊飛星火給出低分的原因
· 百川智能 百小應:
其余五款大模型打分如下:
綜合得分:56
從測試以及評分結果來看,在所有六款大模型之中,文心一言綜合打分最高,給友商文章平均打出了58的高分。其中還有兩次給了滿分。
而訊飛星火打分最低,給友商文章平均只給出了53.2的分數。
那么,這些作文,你給多少分?
來源|AI藍媒匯