本報訊 (記者李豪悅)2月27日,騰訊控股有限公司(以下簡稱“騰訊”)混元自研的快思考模型Turbo S正式發(fā)布。區(qū)別于Deepseek R1、混元T1等需要“想一下再回復”的慢思考模型,混元Turbo S能夠實現“秒回”,吐字速度提升一倍,首字時延降低44%,同時在知識、數理、創(chuàng)作等方面也有突出表現。通過模型架構創(chuàng)新,Turbo S部署成本也大幅下降,持續(xù)推動大模型應用門檻降低。
有研究表明,人類約90%至95%的日常決策依賴直覺,快思考正如人的“直覺”,為大模型提供了通用場景下的快速響應能力,而慢思考更像理性思維,通過分析邏輯提供解決問題思路??焖伎己吐伎嫉慕Y合和補充,可以讓大模型更智能、更高效地解決問題。
在業(yè)界通用的多個公開Benchmark上,騰訊混元Turbo S在知識、數學、推理等多個領域展現出對標DeepSeek V3、GPT 4o、Claude3.5等業(yè)界領先模型的效果表現。
據介紹,通過長短思維鏈融合,騰訊混元Turbo S在保持文科類問題快思考體驗的同時,基于自研混元T1慢思考模型合成的長思維鏈數據,顯著改進了理科推理能力,實現模型整體效果提升。
架構方面,通過創(chuàng)新性地采用了Hybrid-Mamba-Transformer融合模式,混元Turbo S有效降低了傳統(tǒng)Transformer結構的計算復雜度,減少了KV-Cache緩存占用,實現訓練和推理成本的下降。新的融合模式突破了傳統(tǒng)純Transformer結構大模型面臨的長文訓練和推理成本高的難題,一方面發(fā)揮了Mamba高效處理長序列的能力,也保留Transformer擅于捕捉復雜上下文的優(yōu)勢,構建了顯存與計算效率雙優(yōu)的混合架構,這是工業(yè)界首次成功將Mamba架構無損地應用在超大型MoE模型上。
作為旗艦模型,Turbo S未來將成為騰訊混元系列衍生模型的核心基座,為推理、長文、代碼等衍生模型提供基礎能力。基于Turbo S,通過引入長思維鏈、檢索增強和強化學習等技術,騰訊自研了推理模型T1,該模型已在騰訊元寶上線,用戶可以選擇Deepseek R1或騰訊混元T1模型進行回答。騰訊混元有關人士表示,正式版的騰訊混元T1模型API也將很快上線,對外提供接入服務。
(編輯 張鈺鵬)
多地召開“新春第一會” 高質量發(fā)展、改革創(chuàng)新等被“置頂”
隨著春節(jié)假期結束,全國多地在蛇年首個工作……[詳情]
16:21 | 聚焦全球市場 共探航運指數期貨新... |
16:19 | 莫高股份2024年實現營業(yè)收入3.28億... |
16:14 | 東方嘉盛2025年第一季度營收同比增... |
16:12 | 2024年營收不足3億元 蘭州黃河被實... |
16:10 | 甘肅能化2024年實現凈利潤12.14億... |
16:10 | 坤恒順維2024年超三成營收用于研發(fā)... |
15:49 | 央行最新部署,事關金融“五篇大文... |
15:16 | 西山科技2024年實現營收3.36億元 ... |
15:14 | 醬油業(yè)務穩(wěn)固 ST加加一季度凈利同... |
15:11 | 聯影醫(yī)療披露2024年ESG報告 強化供... |
15:11 | 今創(chuàng)集團一季度凈利潤同比增長244.... |
15:11 | 供銷大集2024年營收14.24億元 凈利... |
版權所有《證券日報》社有限責任公司
互聯網新聞信息服務許可證 10120240020增值電信業(yè)務經營許可證 京B2-20250455
京公網安備 11010602201377號京ICP備19002521號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:[email protected]
安卓
IOS
掃一掃,加關注
掃一掃,加關注