GLM-4.1V-9B-Thinking標志著GLM系列視覺模型實現(xiàn)從感知走向認知的關鍵躍遷。
據(jù)IPO早知道消息,GLM-4.1V-9B-Thinking憑借9B的模型尺寸,日前成功登頂HuggingFace Trending第一。
作為一款支持圖像、視頻、文檔等多模態(tài)輸入的通用推理型大模型,GLM-4.1V-Thinking專為復雜認知任務設計。它在 GLM-4V 架構基礎上引入“思維鏈推理機制(Chain-of-Thought Reasoning)”,采用“課程采樣強化學習策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系統(tǒng)性提升模型跨模態(tài)因果推理能力與穩(wěn)定性。
其輕量版 GLM-4.1V-9B-Thinking 模型參數(shù)控制在10B級別,在兼顧部署效率的同時實現(xiàn)性能突破。該模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld 等28項權威評測中,有23項達成10B級模型的最佳成績,其中18項更是持平或超越參數(shù)量高達72B的Qwen-2.5-VL,充分展現(xiàn)了小體積模型的極限性能潛力。
通過有效的混合訓練,GLM-4.1V-9B-Thinking融合了豐富的多模態(tài)模型能力,包括但不限于:
視頻理解:能夠解析最長兩小時的視頻內容,通過推理對視頻中的時間、人物、事件和邏輯關系進行準確分析;
圖像問答:對圖像中的內容進行深入分析和解答,具備較強的邏輯能力和世界知識;
學科解題:支持對數(shù)學、物理、生物、化學等學科問題的看圖解題,通過推理給出詳細的思考過程;
文字識別:對圖片和視頻中的文字和圖表內容進行準確抽取和結構化輸出;
文檔解讀:對金融、政務、教育等領域的文檔內容進行準確的原生理解、抽取、提煉和問答;
Grounding:識別圖片中的特定區(qū)域并抽取坐標位置,支持各種需要定位信息的下游任務;
GUI Agent:識別網(wǎng)頁、電腦屏幕、手機屏幕等交互界面元素,支持點擊、滑動等指令執(zhí)行能力;
代碼生成:能夠基于輸入的圖片文字內容自動編寫前端代碼,看圖寫網(wǎng)頁。
某種程度上而言,GLM-4.1V-9B-Thinking標志著GLM系列視覺模型實現(xiàn)從感知走向認知的關鍵躍遷。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
本文來源:IPO早知道
來源:IPO早知道
重要提示:本文僅代表作者個人觀點,并不代表樂居財經立場。 本文著作權,歸樂居財經所有。未經允許,任何單位或個人不得在任何公開傳播平臺上使用本文內容;經允許進行轉載或引用時,請注明來源。聯(lián)系請發(fā)郵件至ljcj@leju.com,或點擊【聯(lián)系客服】
樂居財經APP
?2017-2025 北京怡生樂居財經文化傳媒有限公司 北京市朝陽區(qū)西大望路甲22號院1號樓1層101內3層S3-01房間756號 100016
京ICP備2021030296號-2京公網(wǎng)安備 11010502047973號