一区二区三区四区欧美精品,AV天堂精品一区二区三区

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型，擁有圖像識別和自然語言推理能力

更新時間:2024-06-17

近日，蘋果公司旗下研究團隊在?ArXiv?中公布了一篇名為《MM1：Methods，?Analysis & Insights from Multimodal LLM Pre-training》的論文，介紹了一款 “MM1”多模態(tài)大模型，該模型提供?30 億、70 億、300 億三種參數(shù)規(guī)模，擁有圖像識別和自然語言推理能力。

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型，擁有圖像識別和自然語言推理能力

蘋果研究團隊相關(guān)論文主要是利用 MM1?模型做實驗，通過控制各種變量，找出影響模型效果的關(guān)鍵因素。研究表明，圖像分辨率和圖像標記數(shù)量對模型性能影響較大，視覺語言連接器對模型的影響較小，不同類型的預訓練數(shù)據(jù)對模型的性能有不同的影響。

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型，擁有圖像識別和自然語言推理能力

據(jù)介紹，研究團隊首先在模型架構(gòu)決策和預訓練數(shù)據(jù)上進行小規(guī)模消融實驗。之后利用混合專家（Mixture of Experts）架構(gòu)及一種名為 Top-2 Gating 的方法構(gòu)建了 MM1 模型，號稱不僅在預訓練指標中實現(xiàn)了最好的性能表現(xiàn)，在一系列已有多模態(tài)基準上監(jiān)督微調(diào)后也能保持有競爭力的性能。

研究人員對“MM1”模型進行了測試，號稱?MM1-3B-Chat?和?MM1-7B-Chat?優(yōu)于市面上絕大多數(shù)相同規(guī)模的模型。MM1-3B-Chat?和?MM1-7B-Chat?在?VQAv2、TextVQA、ScienceQA、MMBench、MMMU?和 MathVista 中表現(xiàn)尤為突出，但是整體表現(xiàn)不如谷歌的 Gemini 和 OpenAI 的 GPT-4V。

蘋果推出 300 億參數(shù) MM1 多模態(tài) AI 大模型，擁有圖像識別和自然語言推理能力