技術(shù)
導(dǎo)讀:蘋(píng)果機(jī)器學(xué)習(xí)團(tuán)隊(duì)在 GitHub 發(fā)布并開(kāi)源了一款視覺(jué)語(yǔ)言模型 ——FastVLM,提供 0.5B、1.5B、7B 三個(gè)版本。
5 月 13 日消息,蘋(píng)果機(jī)器學(xué)習(xí)團(tuán)隊(duì)在 GitHub 發(fā)布并開(kāi)源了一款視覺(jué)語(yǔ)言模型 ——FastVLM,提供 0.5B、1.5B、7B 三個(gè)版本。
據(jù)介紹,該模型基于蘋(píng)果自研 MLX 框架開(kāi)發(fā)并借助LLaVA 代碼庫(kù)進(jìn)行訓(xùn)練,專(zhuān)為 Apple Silicon 設(shè)備的端側(cè) AI 運(yùn)算進(jìn)行優(yōu)化。
技術(shù)文檔顯示,F(xiàn)astVLM 在保持精度的前提下,實(shí)現(xiàn)了高分辨率圖像處理的近實(shí)時(shí)響應(yīng),同時(shí)所需的計(jì)算量比同類(lèi)模型要少得多。
其核心是一個(gè)名為 FastViTHD 的混合視覺(jué)編碼器。蘋(píng)果團(tuán)隊(duì)表示,該編碼器“專(zhuān)為在高分辨率圖像上實(shí)現(xiàn)高效的 VLM 性能而設(shè)計(jì)”,其處理速度較同類(lèi)模型提升 3.2 倍,體積卻僅有 3.6 分之一。
亮點(diǎn)
FastViTHD 新型混合視覺(jué)編碼器:專(zhuān)為高分辨率圖像優(yōu)化設(shè)計(jì),可減少令牌輸出量并顯著縮短編碼時(shí)間
最小模型版本性能對(duì)比:較 LLaVA-OneVision-0.5B 模型實(shí)現(xiàn)首詞元(Token)響應(yīng)速度提升 85 倍,視覺(jué)編碼器體積縮小 3.4 倍
搭配 Qwen2-7B 大語(yǔ)言模型版本:使用單一圖像編碼器即超越 Cambrian-1-8B 等近期研究成果,首詞元響應(yīng)速度提升 7.9 倍
配套 iOS 演示應(yīng)用:實(shí)機(jī)展示移動(dòng)端模型性能表現(xiàn)
蘋(píng)果技術(shù)團(tuán)隊(duì)指出:“基于對(duì)圖像分辨率、視覺(jué)延遲、詞元數(shù)量與LLM 大小的綜合效率分析,我們開(kāi)發(fā)出 FastVLM—— 該模型在延遲、模型大小和準(zhǔn)確性之間實(shí)現(xiàn)了最優(yōu)權(quán)衡?!?/p>
該技術(shù)的應(yīng)用場(chǎng)景指向蘋(píng)果正在研發(fā)的智能眼鏡類(lèi)穿戴設(shè)備。多方信息顯示,蘋(píng)果計(jì)劃于 2027 年推出對(duì)標(biāo) Meta Ray-Bans 的 AI 眼鏡,同期或?qū)l(fā)布搭載攝像頭的 AirPods 設(shè)備。
FastVLM 的本地化處理能力可有效支持此類(lèi)設(shè)備脫離云端實(shí)現(xiàn)實(shí)時(shí)視覺(jué)交互。IT之家查詢獲悉,MLX 框架允許開(kāi)發(fā)者在 Apple 設(shè)備本地訓(xùn)練和運(yùn)行模型,同時(shí)兼容主流 AI 開(kāi)發(fā)語(yǔ)言。FastVLM 的推出證實(shí)蘋(píng)果正構(gòu)建完整的端側(cè) AI 技術(shù)生態(tài)。