蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型,擁有圖像識別和自然語言推理能力

更新時間:2024-06-17

近日,蘋果公司旗下研究團隊在?ArXiv?中公布了一篇名為《MM1:Methods,?Analysis & Insights from Multimodal LLM Pre-training》的論文,介紹了一款 “MM1”多模態(tài)大模型,該模型提供?30 億、70 億、300 億三種參數(shù)規(guī)模,擁有圖像識別和自然語言推理能力。

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型,擁有圖像識別和自然語言推理能力

蘋果研究團隊相關(guān)論文主要是利用 MM1?模型做實驗,通過控制各種變量,找出影響模型效果的關(guān)鍵因素。研究表明,圖像分辨率和圖像標記數(shù)量對模型性能影響較大,視覺語言連接器對模型的影響較小,不同類型的預訓練數(shù)據(jù)對模型的性能有不同的影響。

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型,擁有圖像識別和自然語言推理能力

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型,擁有圖像識別和自然語言推理能力

據(jù)介紹,研究團隊首先在模型架構(gòu)決策和預訓練數(shù)據(jù)上進行小規(guī)模消融實驗。之后利用混合專家(Mixture of Experts)架構(gòu)及一種名為 Top-2 Gating 的方法構(gòu)建了 MM1 模型,號稱不僅在預訓練指標中實現(xiàn)了最好的性能表現(xiàn),在一系列已有多模態(tài)基準上監(jiān)督微調(diào)后也能保持有競爭力的性能。

研究人員對“MM1”模型進行了測試,號稱?MM1-3B-Chat?和?MM1-7B-Chat?優(yōu)于市面上絕大多數(shù)相同規(guī)模的模型。MM1-3B-Chat?和?MM1-7B-Chat?在?VQAv2、TextVQA、ScienceQA、MMBench、MMMU?和 MathVista 中表現(xiàn)尤為突出,但是整體表現(xiàn)不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型,擁有圖像識別和自然語言推理能力

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型,擁有圖像識別和自然語言推理能力