魔天记忘语小说,盗墓笔记,雪鹰领主

　　每經(jīng)記者王嘉琦實(shí)習(xí)記者宋欣悅????每經(jīng)編輯蘭素英????

　　2024年11月14日，“2024智媒體50人成都會議暨每經(jīng)20周年財經(jīng)媒體峰會”在成都舉行。會上，《每日經(jīng)濟(jì)新聞大模型年度評測報告》正式發(fā)布。

　　6月25日，《每日經(jīng)濟(jì)新聞大模型評測報告》第一期發(fā)布，對15款市面主流大模型在“財經(jīng)新聞標(biāo)題創(chuàng)作”“微博新聞寫作”“文章差錯校對”“財務(wù)數(shù)據(jù)計算與分析”四個新聞采編應(yīng)用場景的能力進(jìn)行了評測。

記者編輯會被AI取代？沒有“全能選手”，“幻覺”問題難解第1張

　　9月6日，《每日經(jīng)濟(jì)新聞大模型評測報告》第二期發(fā)布，重點(diǎn)考察大模型在“金融數(shù)學(xué)計算”“商務(wù)文本翻譯”“財經(jīng)新聞閱讀”三個新聞采編應(yīng)用場景的能力。

　　與前兩期評測一樣，《每日經(jīng)濟(jì)新聞大模型年度評測報告》繼續(xù)以大模型在新聞采編場景的應(yīng)用能力為評測目標(biāo)，為了更精準(zhǔn)對接采編人員的實(shí)際需求，本次評測以“采寫編審和短視頻創(chuàng)作的新聞生產(chǎn)全流程”為場景，包括大模型設(shè)計采訪提綱、撰寫新聞稿件、校對稿件差錯、提煉稿件標(biāo)題和改寫短視頻文本五個細(xì)分場景。通過大模型在新聞生產(chǎn)全流程的介入，評測出“誰是新聞生產(chǎn)全流程的最優(yōu)秀大模型”，用直觀的評測結(jié)果，對采編人員在工作中選用適合的大模型工具提供實(shí)戰(zhàn)參考。

　　12款國內(nèi)大模型參與評測各家模型展現(xiàn)出不同優(yōu)勢

　　本次評測設(shè)置的五個細(xì)分應(yīng)用場景具體為：1．設(shè)計采訪提綱：旨在考察大模型能否幫助記者擬定采訪提綱，輔助記者采訪工作；2．撰寫新聞稿件：旨在考察大模型圍繞既定的多份材料，能否創(chuàng)作一篇新聞稿件；3．校對稿件差錯：旨在考察大模型能否檢查出新聞稿件中的錯別字，語法、數(shù)字、標(biāo)點(diǎn)符號等差錯；4．提煉稿件標(biāo)題：旨在考察大模型能否根據(jù)稿件內(nèi)容，提煉新聞標(biāo)題，特別是制作適合在微信等新媒體平臺傳播的新媒體風(fēng)格標(biāo)題；5．改寫短視頻文本：旨在考察大模型能否根據(jù)一篇文字新聞稿件，改寫成適合短視頻發(fā)布的文案。

　　每經(jīng)大模型評測小組為五個細(xì)分場景制定了對應(yīng)的評價維度和評分指標(biāo)。每日經(jīng)濟(jì)新聞10余名首席、高級、資深記者編輯根據(jù)評價維度和評分指標(biāo)，對各款大模型在五個細(xì)分場景中的表現(xiàn)進(jìn)行評分，匯總各場景得分，最終得到參評大模型總分。

　　需要指出的是，本期評測是通過各款大模型的API端口，并在默認(rèn)溫度下完成。與公眾用戶使用的大模型C端對話工具存在差異。評測結(jié)果對用戶在具體場景中選擇合適的大模型工具，依然具有重要參考價值。

　　本期評測均在“雨燕智宣AI創(chuàng)作+”測試臺上進(jìn)行，一共有12款國內(nèi)大模型參與。評測時間為2024年10月18日，因此參評大模型均為截至10月18日的最新版本。

　　評測結(jié)果顯示，騰訊混元hunyuan-turbo以379.53的總分位居榜首，緊隨其后的是智譜GLM-4-Plus獲得368.6分，字節(jié) 跳動 doubao- pro- 32k（240828版本）獲得363分。

　　在五個細(xì)分場景方面，各家模型展現(xiàn)出不同的優(yōu)勢。

　　在設(shè)計采訪提綱場景中，騰訊混元hunyuan-turbo與昆侖萬維（維權(quán)）天工SkyChat-3.0兩款模型均取得了93.33分的佳績，并列第一。在撰寫新聞稿件場景中，智譜GLM-4-Plus以98分的高分拔得頭籌。在校對稿件差錯場景中，智譜GLM-4-Plus以60分的成績位居首位。在提煉稿件標(biāo)題方面，深度求索DeepSeekV2.5模型以55.2分的成績領(lǐng)先其他模型。在改寫短視頻文本場景中，騰訊混元hunyuan-turbo再次展現(xiàn)其強(qiáng)勁實(shí)力，以95分的成績位列第一。

　　世界上還沒有“AI記者” 需完善審核與內(nèi)容把關(guān)

　　結(jié)論一：暫無一款大模型能高質(zhì)量完成采編全流程工作

　　截至目前，每日經(jīng)濟(jì)新聞一共推出3期大模型評測報告，覆蓋12項新聞采編應(yīng)用場景，從結(jié)果來看，沒有一款大模型能在所有場景中均排名前列。

　　正如人類一樣，各款大模型的長處與短板各不相同。比如，有的大模型擅長財務(wù)數(shù)據(jù)計算，但在新聞標(biāo)題提煉中卻排名末尾；有的大模型擅長英譯漢，卻在漢譯英方面能力平平。

　　在新聞生產(chǎn)的關(guān)鍵環(huán)節(jié)，如本期評測中的“撰寫新聞稿件”“校對稿件差錯”“提煉新聞標(biāo)題”、第一期評測中的“財務(wù)數(shù)據(jù)計算與分析”和第二期評測中的“金融數(shù)學(xué)計算”等應(yīng)用場景，多數(shù)大模型生成結(jié)果差錯頻出，要保證新聞稿件高質(zhì)量、無差錯，還必須由人工審核、把關(guān)。

　　目前市面上還沒有一款大模型能夠高質(zhì)量、全流程完成新聞采編場景的所有工作，換句話說，世界上還沒有“AI記者”。

　　結(jié)論二：大模型“幻覺”未解，錯誤更隱蔽

　　盡管各款大模型已經(jīng)多次迭代升級，但依然解決不了“一本正經(jīng)地胡說八道”的幻覺問題。

　　最初的大模型“幻覺”問題比較明顯。隨著產(chǎn)品不斷迭代，大模型生成文本質(zhì)量逐漸提升，但文本中的錯誤也越發(fā)隱蔽。比如，在“撰寫新聞稿件”場景中，大模型會在不起眼處改變?nèi)宋锏穆毼换蛱摌?gòu)事件發(fā)生的時間。例如在本期評測中，部分大模型將9月24日“星巴克咖啡公司宣布調(diào)整其中國區(qū)領(lǐng)導(dǎo)層結(jié)構(gòu)”的時間，誤寫成9月30日。再比如在第二期評測“金融數(shù)學(xué)計算”場景中，即便是得分第一的大模型也會在個別題目中給出正確的計算公式，卻依然得出錯誤的答案。

　　對于一篇高質(zhì)量新聞稿件來說，上述問題都可能是“致命”的差錯。目前，AI生成內(nèi)容已經(jīng)大規(guī)模出現(xiàn)在互聯(lián)網(wǎng)中。這就要求新聞媒體要進(jìn)一步完善新聞內(nèi)容真實(shí)性審核機(jī)制，更需要加強(qiáng)內(nèi)容把關(guān)。

　　目前仍需人工介入和打磨部分場景可實(shí)現(xiàn)采編AI化

　　結(jié)論三：“冷面”的大模型難判斷新聞價值

　　閱讀一篇稿件，挖掘出最重要的新聞點(diǎn)，然后提煉和制作標(biāo)題，在這方面，大模型與經(jīng)驗(yàn)豐富的編輯相比差距不小。

　　在本期評測的“提煉稿件標(biāo)題”場景中，大模型得分普遍偏低。其生成的標(biāo)題多顯得中規(guī)中矩。例如大模型提煉的《“星巴克中國新篇章：80后劉文娟接任CEO，引領(lǐng)咖啡巨頭迎挑戰(zhàn)”》《“星巴克中國換帥：80后劉文娟接棒CEO，直面市場挑戰(zhàn)與變革”》等標(biāo)題。

　　另外，評測中發(fā)現(xiàn)，大模型提煉的新聞標(biāo)題，往往充斥著一些“高大上”的抽象概念詞匯，無法挖掘文章中最重要的新聞點(diǎn)和有價值的信息，文字空洞，很難吸引讀者的眼球。

　　此外，在“撰寫新聞稿件”場景中，大模型生成的文本較為生硬，“機(jī)器痕跡”較明顯，缺乏情感和個性化表達(dá)。

　　從現(xiàn)階段來看，大模型在閱讀文章方面，難以具備對一篇稿件新聞點(diǎn)的準(zhǔn)確和深層次把握，容易停留在淺層次理解。因此，新聞點(diǎn)和新聞價值的判斷，包括采寫有溫度、有故事、有人情味的厚重稿件，仍然離不開記者、編輯的人工介入和悉心打磨。

　　結(jié)論四：不同采編場景選擇最適合的大模型

　　這三期大模型評測的場景基本可以分為輔助性場景（如財經(jīng)新聞閱讀、文本翻譯、設(shè)計采訪提綱等）和關(guān)鍵性場景（如撰寫新聞稿件、校對稿件差錯、提煉新聞標(biāo)題等）。

　　三期評測結(jié)果表明，絕大部分大模型在設(shè)計采訪提綱、改寫短視頻文案、英漢翻譯、文章閱讀以及微博新聞寫作等輔助性場景中普遍表現(xiàn)良好。例如，“改寫短視頻文案”場景中，所有參與評測的12款大模型均取得超過80分的成績；“設(shè)計采訪提綱”場景中，有8款大模型的得分高于80分。在第二期評測的“商務(wù)本文翻譯”場景中，13款大模型得分都高于80分，在“財經(jīng)新聞閱讀”場景中，13款大模型得分高于70分。

　　而在撰寫新聞稿件、校對稿件差錯、提煉新聞標(biāo)題等新聞生產(chǎn)關(guān)鍵性場景的能力則明顯不足。比如，在“校對稿件差錯”場景中，僅一款大模型得分達(dá)到60分。在“提煉新聞標(biāo)題”場景中，沒有一款大模型得分達(dá)到60分。

　　因此，記者、編輯可以根據(jù)采編工作的不同環(huán)節(jié)、不同場景，選擇最適合的大模型，讓部分場景實(shí)現(xiàn)采編工作AI化，提升工作效率。

　　繼續(xù)探索大模型無限可能誠摯邀請您加入評測項目

　　結(jié)論五：新聞媒體主導(dǎo)，打造垂直領(lǐng)域的“AI記者”

　　對比這三期大模型評測結(jié)果不難發(fā)現(xiàn)，國內(nèi)大模型通過持續(xù)迭代，能力穩(wěn)步提升。同時，各家大模型之間的差距也在逐步縮小，每個模型都展現(xiàn)出獨(dú)特的優(yōu)勢。這些大模型都屬于通用大模型，并非為新聞媒體、采編工作量身定制。

　　造成大模型“幻覺”問題嚴(yán)重的一大原因，在于訓(xùn)練文本和數(shù)據(jù)質(zhì)量不高，其中包含不少信息錯誤。而新聞工作對準(zhǔn)確性要求極高。這一短板直接限制了大模型在新聞領(lǐng)域的應(yīng)用。然而，新聞媒體在長期的新聞報道中已經(jīng)積累的大量高質(zhì)量新聞稿件和數(shù)據(jù)，恰恰為研發(fā)適合新聞采編工作的大模型工具提供了得天獨(dú)厚的優(yōu)勢。

　　因此，自主訓(xùn)練和主導(dǎo)研發(fā)大模型工具變得尤為重要，借此，新聞媒體不僅能夠最大限度地確保大模型訓(xùn)練數(shù)據(jù)的質(zhì)量和生成邏輯的準(zhǔn)確性，還能保證大模型生成內(nèi)容的可控性，使其更好地契合媒體自身的屬性和特色。

　　在研發(fā)方法上，可以將采編全流程拆分成數(shù)十個環(huán)節(jié)，如采訪、翻譯、稿件寫作、提煉摘要和校對差錯等。根據(jù)各環(huán)節(jié)的具體工作目標(biāo)、方法和要求，對大模型進(jìn)行專項訓(xùn)練，以形成一系列單任務(wù)或垂類AI工具。最終，將這些單任務(wù)AI工具打包匯集，則可以打造出一整套新聞采編AI工具。

　　接下來，“每日經(jīng)濟(jì)新聞大模型評測小組”將繼續(xù)深入探索大模型的無限可能，從實(shí)際應(yīng)用場景出發(fā)，對各個大模型進(jìn)行全方位評測，并定期推出專業(yè)報告，帶來最前沿的洞察和發(fā)現(xiàn)。

　　在此，我們誠摯地邀請您加入評測項目。如果您是研發(fā)企業(yè)，想要展示自家大模型的實(shí)力，與其他大模型進(jìn)行比拼，請將參評大模型的詳細(xì)信息發(fā)送至我們的郵箱：[email protected]。如果您是大模型的使用者，請告訴我們您希望在哪些場景中使用大模型，或者希望我們測試大模型的哪些能力。請打開每日經(jīng)濟(jì)新聞App，在“個人中心”——“意見反饋”欄中留下您的想法和需求。