美團(tuán)正式發(fā)布LongCat-Flash-Omni

2025-11-04 11:51:09來源：“美團(tuán)Meituan”微信公眾號關(guān)鍵詞：美團(tuán)LongCat-Flash-Omni 大模型閱讀量：29947

導(dǎo)讀：綜合評估結(jié)果表明，LongCat-Flash-Omni 在全模態(tài)基準(zhǔn)測試中達(dá)到開源最先進(jìn)水平(SOTA)，同時在文本、圖像、視頻理解及語音感知與生成等關(guān)鍵單模態(tài)任務(wù)中，均展現(xiàn)出極強(qiáng)的競爭力。

　　自9月1日，美團(tuán)正式發(fā)布 LongCat-Flash 系列模型，現(xiàn)已開源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 兩大版本，獲得了開發(fā)者的關(guān)注。今天 LongCat-Flash 系列再升級，正式發(fā)布全新家族成員——LongCat-Flash-Omni。

　　LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架構(gòu)設(shè)計為基礎(chǔ)( Shortcut-Connected MoE，含零計算專家)，同時創(chuàng)新性集成了高效多模態(tài)感知模塊與語音重建模塊。即便在總參數(shù) 5600 億(激活參數(shù) 270 億)的龐大參數(shù)規(guī)模下，仍實現(xiàn)了低延遲的實時音視頻交互能力，為開發(fā)者的多模態(tài)應(yīng)用場景提供了更高效的技術(shù)選擇。

　　綜合評估結(jié)果表明，LongCat-Flash-Omni 在全模態(tài)基準(zhǔn)測試中達(dá)到開源最先進(jìn)水平(SOTA)，同時在文本、圖像、視頻理解及語音感知與生成等關(guān)鍵單模態(tài)任務(wù)中，均展現(xiàn)出極強(qiáng)的競爭力。LongCat-Flash-Omni 是業(yè)界首個實現(xiàn)“全模態(tài)覆蓋、端到端架構(gòu)、大參數(shù)量高效推理”于一體的開源大語言模型，首次在開源范疇內(nèi)實現(xiàn)了全模態(tài)能力對閉源模型的對標(biāo)，并憑借創(chuàng)新的架構(gòu)設(shè)計與工程優(yōu)化，讓大參數(shù)模型在多模態(tài)任務(wù)中也能實現(xiàn)毫秒級響應(yīng)，解決了行業(yè)內(nèi)推理延遲的痛點。

　　? 模型已同步開源，歡迎體驗：

　　極致性能的一體化全模態(tài)架構(gòu)

　　LongCat-Flash-Omni 是一款擁有極致性能的開源全模態(tài)模型，在一體化框架中整合了離線多模態(tài)理解與實時音視頻交互能力。該模型采用完全端到端的設(shè)計，以視覺與音頻編碼器作為多模態(tài)感知器，由 LLM 直接處理輸入并生成文本與語音token，再通過輕量級音頻解碼器重建為自然語音波形，實現(xiàn)低延遲的實時交互。所有模塊均基于高效流式推理設(shè)計，視覺編碼器、音頻編解碼器均為輕量級組件，參數(shù)量均約為6億，延續(xù)了 LongCat-Flash 系列的創(chuàng)新型高效架構(gòu)設(shè)計，實現(xiàn)了性能與推理效率間的最優(yōu)平衡。

　　大規(guī)模、低延遲的音視頻交互能力

　　LongCat-Flash-Omni 突破 “大參數(shù)規(guī)模與低延遲交互難以兼顧” 的瓶頸，在大規(guī)模架構(gòu)基礎(chǔ)上實現(xiàn)高效實時音視頻交互。該模型總參數(shù)達(dá) 5600 億(激活參數(shù) 270 億)，卻依托 LongCat-Flash 系列創(chuàng)新的 ScMoE 架構(gòu)(含零計算專家)作為 LLM 骨干，結(jié)合高效多模態(tài)編解碼器和“分塊式音視頻特征交織機(jī)制”，最終實現(xiàn)低延遲、高質(zhì)量的音視頻處理與流式語音生成。模型支持 128K tokens 上下文窗口及超 8 分鐘音視頻交互，在多模態(tài)長時記憶、多輪對話、時序推理等能力上具備顯著優(yōu)勢。

　　漸進(jìn)式早期多模融合訓(xùn)練策略

　　全模態(tài)模型訓(xùn)練的核心挑戰(zhàn)之一是 “不同模態(tài)的數(shù)據(jù)分布存在顯著異質(zhì)性”，LongCat-Flash-Omni 采用漸進(jìn)式早期多模融合訓(xùn)練策略，在平衡數(shù)據(jù)策略與早期融合訓(xùn)練范式下，逐步融入文本、音頻、視頻等模態(tài)，確保全模態(tài)性能強(qiáng)勁且無任何單模態(tài)性能退化。

　　預(yù)訓(xùn)練階段

　　階段 0：大規(guī)模文本預(yù)訓(xùn)練，利用成熟穩(wěn)定的大語言模型為后續(xù)多模態(tài)學(xué)習(xí)奠定堅實基礎(chǔ)；

　　階段 1：引入與文本結(jié)構(gòu)更接近的語音數(shù)據(jù)，實現(xiàn)聲學(xué)表征與語言模型特征空間的對齊，有效整合副語言信息；

　　階段 2：在文本 - 語音對齊基礎(chǔ)上，融入大規(guī)模圖像 - 描述對與視覺 - 語言交織語料，實現(xiàn)視覺 - 語言對齊，豐富模型視覺知識；

　　階段 3：引入最復(fù)雜的視頻數(shù)據(jù)，實現(xiàn)時空推理，同時整合更高質(zhì)量、更多樣化的圖像數(shù)據(jù)集以增強(qiáng)視覺理解；

　　階段 4：將模型上下文窗口從 8K 擴(kuò)展至 128K tokens，進(jìn)一步支持長上下文推理與多輪交互；

　　階段 5：為緩解離散語音 tokens 的信息丟失，進(jìn)行音頻編碼器對齊訓(xùn)練，使模型能直接處理連續(xù)音頻特征，提升下游語音任務(wù)的保真度與穩(wěn)健性。

　　經(jīng)過全面的綜合評估顯示：LongCat-Flash-Omni 不僅在綜合性的全模態(tài)基準(zhǔn)測試(如Omni-Bench, WorldSense)上達(dá)到了開源最先進(jìn)水平(SOTA)，其在文本、圖像、音頻、視頻等各項模態(tài)的能力均位居開源模型前列，真正實現(xiàn)了“全模態(tài)不降智”。

　　LongCat-Flash-Omni 的基準(zhǔn)測試性能

　　文本：LongCat-Flash-Omni 延續(xù)了該系列卓越的文本基礎(chǔ)能力，且在多領(lǐng)域均呈現(xiàn)領(lǐng)先性能。相較于 LongCat-Flash 系列早期版本，該模型不僅未出現(xiàn)文本能力的衰減，反而在部分領(lǐng)域?qū)崿F(xiàn)了性能提升。這一結(jié)果不僅印證了我們訓(xùn)練策略的有效性，更凸顯出全模態(tài)模型訓(xùn)練中不同模態(tài)間的潛在協(xié)同價值。

　　圖像理解：LongCat-Flash-Omni 的性能(RealWorldQA 74.8分)與閉源全模態(tài)模型 Gemini-2.5-Pro 相當(dāng)，且優(yōu)于開源模型 Qwen3-Omni；多圖像任務(wù)優(yōu)勢尤為顯著，核心得益于高質(zhì)量交織圖文、多圖像及視頻數(shù)據(jù)集上的訓(xùn)練成果。

　　音頻能力：從自動語音識別(ASR)、文本到語音(TTS)、語音續(xù)寫維度進(jìn)行評估，Instruct Model 層面表現(xiàn)突出：ASR 在 LibriSpeech、AISHELL-1 等數(shù)據(jù)集上優(yōu)于 Gemini-2.5-Pro；語音到文本翻譯(S2TT)在 CoVost2 表現(xiàn)強(qiáng)勁；音頻理解在 TUT2017、Nonspeech7k 等任務(wù)達(dá)當(dāng)前最優(yōu)；音頻到文本對話在 OpenAudioBench、VoiceBench 表現(xiàn)優(yōu)異，實時音視頻交互評分接近閉源模型，類人性指標(biāo)優(yōu)于 GPT-4o，實現(xiàn)基礎(chǔ)能力到實用交互的高效轉(zhuǎn)化。

　　視頻理解：LongCat-Flash-Omni 視頻到文本任務(wù)性能達(dá)當(dāng)前最優(yōu)，短視頻理解大幅優(yōu)于現(xiàn)有參評模型，長視頻理解比肩 Gemini-2.5-Pro 與 Qwen3-VL，這得益于動態(tài)幀采樣、分層令牌聚合的視頻處理策略，及高效骨干網(wǎng)絡(luò)對長上下文的支持。

　　跨模態(tài)理解：性能優(yōu)于 Gemini-2.5-Flash(非思考模式)，比肩 Gemini-2.5-Pro(非思考模式)；尤其在真實世界音視頻理解WorldSense 基準(zhǔn)測試上，相較其他開源全模態(tài)模型展現(xiàn)出顯著的性能優(yōu)勢，印證其高效的多模態(tài)融合能力，是當(dāng)前綜合能力領(lǐng)先的開源全模態(tài)模型。

　　端到端交互：由于目前行業(yè)內(nèi)尚未有成熟的實時多模態(tài)交互評估體系，LongCat 團(tuán)隊構(gòu)建了一套專屬的端到端評測方案，該方案由定量用戶評分(250 名用戶評分)與定性專家分析(10 名專家，200 個對話樣本)組成。定量結(jié)果顯示：圍繞端到端交互的自然度與流暢度，LongCat-Flash-Omni 在開源模型中展現(xiàn)出顯著優(yōu)勢 —— 其評分比當(dāng)前最優(yōu)開源模型 Qwen3-Omni 高出 0.56 分；定性結(jié)果顯示：LongCat-Flash-Omni 在副語言理解、相關(guān)性與記憶能力三個維度與頂級模型持平，但是在實時性、類人性與準(zhǔn)確性三個維度仍存在差距，也將在未來工作中進(jìn)一步優(yōu)化。

　　快來跟LongCat語音吧！

　　另外，我們非常激動的告訴大家，LongCat 官方 App 現(xiàn)已正式發(fā)布，支持聯(lián)網(wǎng)搜索，還可以發(fā)起語音通話(視頻通話功能敬請期待)。

　　iOS用戶可直接在APP Store中搜索“LongCat”獲取。

　　LongCat-Flash-Omni 在開源平臺已上線，歡迎開發(fā)者們探索和使用。

　　我們期待聽到您的反饋。

　　原標(biāo)題：LongCat-Flash-Omni 正式發(fā)布并開源：開啟全模態(tài)實時交互時代

上一篇：高德發(fā)布AutoSDK國際版：助力中國車企駛向海外

下一篇：大疆發(fā)布禪思L3航測激光雷達(dá)系統(tǒng)：雙一億像素相機(jī) 可高精度測繪

我要評論

昵稱

匿名

文明上網(wǎng)，理性發(fā)言。（您還可以輸入200個字符)

表情

所有評論僅代表網(wǎng)友意見，與本站立場無關(guān)。

總金額超80億元近期投融資事件盤點
近日，不少智慧城市領(lǐng)域企業(yè)宣布完成數(shù)千萬元融資，小編在本文中整理了近期融資的科技企業(yè)。
機(jī)器人大模型投融資事件
2026-01-29 09:20:43
2025年度山東省人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展十大亮點
為系統(tǒng)呈現(xiàn)一年來全省在人工智能領(lǐng)域取得的突破性成果與標(biāo)志性進(jìn)展，經(jīng)過公開征集、多部門會商和專家評審，凝練形成2025年度山東省人工智能產(chǎn)業(yè)高質(zhì)量發(fā)展十大亮點。
人工智能大模型
2026-01-28 09:47:08
千問被發(fā)射“上天”！全球首次實現(xiàn)大模型太空在軌部署
2025年11月，國星宇航成功將千問3（Qwen3）大模型部署至“星算”計劃01組太空計算中心。這是全球首次將通用大模型從地面上注至在軌運(yùn)行的衛(wèi)星，實現(xiàn)在軌部署。
國星宇航大模型
2026-01-27 13:06:06
推進(jìn)張江人工智能創(chuàng)新小鎮(zhèn)建設(shè)，浦東出臺工作方案
為推進(jìn)張江人工智能創(chuàng)新小鎮(zhèn)加速打造世界級人工智能應(yīng)用創(chuàng)新集聚區(qū)，構(gòu)建世界級人工智能產(chǎn)業(yè)集群，浦東出臺了《浦東新區(qū)推進(jìn)張江人工智能創(chuàng)新小鎮(zhèn)建設(shè)工作方案》。
人工智能大模型
2026-01-22 09:30:23
數(shù)據(jù)海嘯下的智慧燈塔：存儲風(fēng)波中的挑戰(zhàn)與企業(yè)應(yīng)對
一場由人工智能驅(qū)動、席卷全球存儲產(chǎn)業(yè)鏈的“超級周期”，正將智慧城市等數(shù)據(jù)密集型行業(yè)推向變革的前沿。在此背景下，領(lǐng)軍企業(yè)依據(jù)自身基因，展開了一場精彩紛呈的戰(zhàn)略博弈，其推出的多元技術(shù)路徑不僅是對當(dāng)前挑戰(zhàn)的直接回應(yīng)，更在重塑產(chǎn)業(yè)未來的競爭格局。
存儲大模型
2026-01-19 11:49:31
網(wǎng)信辦、發(fā)改委：政務(wù)領(lǐng)域人工智能大模型13大典型應(yīng)用場景
政務(wù)部門可圍繞政務(wù)服務(wù)、社會治理、機(jī)關(guān)辦公和輔助決策等工作中的共性、高頻需求，因地制宜、結(jié)合實際，選擇典型場景進(jìn)行人工智能大模型探索應(yīng)用。
人工智能大模型
2025-10-17 08:30:05

版權(quán)與免責(zé)聲明：

凡本站注明“來源：智能制造網(wǎng)”的所有作品，均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品，未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來源：智能制造網(wǎng)”。違反上述聲明者，本站將追究其相關(guān)法律責(zé)任。

本站轉(zhuǎn)載并注明自其它來源（非智能制造網(wǎng)）的作品，目的在于傳遞更多信息，并不代表本站贊同其觀點或和對其真實性負(fù)責(zé)，不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如其他媒體、平臺或個人從本站轉(zhuǎn)載時，必須保留本站注明的作品第一來源，并自負(fù)版權(quán)等法律責(zé)任。如擅自篡改為“稿件來源：智能制造網(wǎng)”，本站將依法追究責(zé)任。

鑒于本站稿件來源廣泛、數(shù)量較多，如涉及作品內(nèi)容、版權(quán)等問題，請與本站聯(lián)系并提供相關(guān)證明材料：聯(lián)系電話：0571-89719789；郵箱：1271141964@qq.com。

不想錯過行業(yè)資訊？

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

今日焦點/FOCUS 更多

熱門話題/TOPICS更多

MWC 2026|中國智造正在巴塞羅那狂飆

榮耀首款具身智能人形機(jī)器人亮相MWC

聚焦AI與6G、多款新品亮相MWC 2026，浦東智造閃耀“全球通信第一展”

CES 2026亮點直擊

車凌科技CES 2026發(fā)布Hyper Hub，為車企構(gòu)建數(shù)據(jù)生態(tài)連接器

科技春晚變主場：中國機(jī)器人憑何“掀翻”全球賽道

精彩直播/VIDEO更多

回放

【與智造同行】走進(jìn)華為AI＋制造行業(yè)峰會2025——如何讓智能制造走深走實？華為給你答案！

: 數(shù)字孿生賦能新型工業(yè)化分論壇

: 數(shù)字孿生賦能低空經(jīng)濟(jì)分論壇

推薦產(chǎn)品/PRODUCT 更多

防爆可燃?xì)怏w探測器
防爆可燃?xì)怏w探測器,GT-SC817
品牌
其他品牌
CQ2 系列單動彈簧復(fù)位型通孔安裝薄型氣缸
氣缸
品牌
SMC
Bolondi清洗噴頭XC060PPF
Bolondi,意大利Bolondi,Bolondi噴頭,XC060PPF,清洗噴頭
品牌
其他品牌
概述CKD線性滑臺氣缸作用
CKD標(biāo)準(zhǔn)氣缸參數(shù),原裝CKD無桿氣缸,概述CKD氣缸作用,喜開理氣缸工作環(huán)境,喜開理CKD
品牌
其他品牌
奉申防凍控制器
溫度控制器,溫度開關(guān),防凍開關(guān),溫控器
品牌
缸蓋去毛刺MSIY-30AQC自動換刀浮動主軸
缸蓋去毛刺,機(jī)器人浮動去毛刺,浮動去缸蓋毛刺,msiy浮動主軸,帶換刀浮動主軸
品牌
其他品牌

美團(tuán)正式發(fā)布LongCat-Flash-Omni

熱門評論

全部評論