應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

蘋(píng)果發(fā)布 FastVLM 視覺(jué)語(yǔ)言模型,為新型智能眼鏡等穿戴設(shè)備鋪路

2025-05-14 14:14 IT之家
關(guān)鍵詞:蘋(píng)果智能眼鏡

導(dǎo)讀:蘋(píng)果機(jī)器學(xué)習(xí)團(tuán)隊(duì)在 GitHub 發(fā)布并開(kāi)源了一款視覺(jué)語(yǔ)言模型 ——FastVLM,提供 0.5B、1.5B、7B 三個(gè)版本。

  5 月 13 日消息,蘋(píng)果機(jī)器學(xué)習(xí)團(tuán)隊(duì)在 GitHub 發(fā)布并開(kāi)源了一款視覺(jué)語(yǔ)言模型 ——FastVLM,提供 0.5B、1.5B、7B 三個(gè)版本。

  據(jù)介紹,該模型基于蘋(píng)果自研 MLX 框架開(kāi)發(fā)并借助LLaVA 代碼庫(kù)進(jìn)行訓(xùn)練,專(zhuān)為 Apple Silicon 設(shè)備的端側(cè) AI 運(yùn)算進(jìn)行優(yōu)化。

  技術(shù)文檔顯示,F(xiàn)astVLM 在保持精度的前提下,實(shí)現(xiàn)了高分辨率圖像處理的近實(shí)時(shí)響應(yīng),同時(shí)所需的計(jì)算量比同類(lèi)模型要少得多。

  其核心是一個(gè)名為 FastViTHD 的混合視覺(jué)編碼器。蘋(píng)果團(tuán)隊(duì)表示,該編碼器“專(zhuān)為在高分辨率圖像上實(shí)現(xiàn)高效的 VLM 性能而設(shè)計(jì)”,其處理速度較同類(lèi)模型提升 3.2 倍,體積卻僅有 3.6 分之一。

  亮點(diǎn)

  •   FastViTHD 新型混合視覺(jué)編碼器:專(zhuān)為高分辨率圖像優(yōu)化設(shè)計(jì),可減少令牌輸出量并顯著縮短編碼時(shí)間

  •   最小模型版本性能對(duì)比:較 LLaVA-OneVision-0.5B 模型實(shí)現(xiàn)首詞元(Token)響應(yīng)速度提升 85 倍,視覺(jué)編碼器體積縮小 3.4 倍

  •   搭配 Qwen2-7B 大語(yǔ)言模型版本:使用單一圖像編碼器即超越 Cambrian-1-8B 等近期研究成果,首詞元響應(yīng)速度提升 7.9 倍

  •   配套 iOS 演示應(yīng)用:實(shí)機(jī)展示移動(dòng)端模型性能表現(xiàn)

  蘋(píng)果技術(shù)團(tuán)隊(duì)指出:“基于對(duì)圖像分辨率、視覺(jué)延遲、詞元數(shù)量與LLM 大小的綜合效率分析,我們開(kāi)發(fā)出 FastVLM—— 該模型在延遲、模型大小和準(zhǔn)確性之間實(shí)現(xiàn)了最優(yōu)權(quán)衡?!?/p>

  該技術(shù)的應(yīng)用場(chǎng)景指向蘋(píng)果正在研發(fā)的智能眼鏡類(lèi)穿戴設(shè)備。多方信息顯示,蘋(píng)果計(jì)劃于 2027 年推出對(duì)標(biāo) Meta Ray-Bans 的 AI 眼鏡,同期或?qū)l(fā)布搭載攝像頭的 AirPods 設(shè)備。

  FastVLM 的本地化處理能力可有效支持此類(lèi)設(shè)備脫離云端實(shí)現(xiàn)實(shí)時(shí)視覺(jué)交互。IT之家查詢獲悉,MLX 框架允許開(kāi)發(fā)者在 Apple 設(shè)備本地訓(xùn)練和運(yùn)行模型,同時(shí)兼容主流 AI 開(kāi)發(fā)語(yǔ)言。FastVLM 的推出證實(shí)蘋(píng)果正構(gòu)建完整的端側(cè) AI 技術(shù)生態(tài)。