
苹果正倾力打造一款名为Manzano的图像模型,尽管尚未正式亮相,但通过预印本论文已初露锋芒。该模型不仅在图像理解上表现出色,在生成方面也颇具潜力,有望推动多模态AI技术向前迈进一大步。然而,考虑到苹果在基础模型领域的相对滞后,Manzano是否能显著降低对外部解决方案的依赖性仍是一个未知数。
关于Manzano的研发状态与现状,目前它还处于未公开阶段,既没有官方演示版本,也只有一篇由多位华人作者(包括已转投Meta的庞若鸣)撰写的预印本论文可供参考。这篇论文展示了少量低分辨率图片实例,涉及较为复杂的提示场景。
Manzano旨在同时掌握图像理解和生成两大核心技能。根据苹果的说法,这种双重功能的实现长期以来一直是技术难题,大多数开源项目在这两方面的能力上都无法与OpenAI或Google的商业系统相媲美。Manzano采用了一种混合图像分词器设计,其共享编码器能够输出两种类型的标记:一种是以浮点数值形式表达、用于图像理解任务的连续标记;另一种则是按固定类别划分、适用于图像生成任务的离散标记。由于这两种标记源自同一个编码器,因此在执行不同任务时所遇到的冲突大大减少。实验表明,相较于DeepSeek Janus Pro等竞争对手,Manzano在性能上并不逊色于OpenAI GPT-4o和谷歌Gemini 2.5 Flash Image Generation。
从架构上看,Manzano包括一个混合分词器、统一的语言模型框架以及独立的图像解码组件。为了适应不同的需求,苹果为解码器提供了三个版本选择,参数量分别为9亿、17.5亿和35.2亿,支持从256像素到2048像素不等的分辨率。整个训练流程分为三个主要阶段,利用了23亿对图像-文本样本(这些数据来自公开渠道及内部资源)加上10亿对文本-图像样本,总共处理了大约1.6万亿个标记。值得注意的是,其中一部分训练材料是由其他生成模型如DALL-E3和ShareGPT-4o合成得到的。
内部评估结果显示,Manzano在ScienceQA、MMMU和MathVista等标准测试集上的表现十分抢眼,特别是在图表解析及文档分析这类文字密集型任务中,300亿参数版本尤为突出。随着模型规模的增加,整体性能呈现出持续改善的趋势——例如,30亿参数版本相比最小配置版本在某些特定任务上的得分高出超过10分。即使将统一模型与专门化系统进行对比,差距也仅维持在个位数范围内:当使用30亿参数版本时,这一差异甚至小于1分。至于图像生成能力方面,Manzano亦展现出了接近顶级水平的实力,能够完成复杂指令遵循、风格转换、图层叠加以及深度预测等多项任务。
尽管如此,苹果对于Manzano能否成为现有解决方案的有效替代品持谨慎乐观态度。其模块化结构允许各部分独立迭代升级,并且可以吸收跨学科研究成果中的最佳实践,从而为未来多模态AI领域带来新的可能性。不过,鉴于当前苹果在基础模型开发方面仍落后于行业先锋,即便推出了新的端侧AI框架,苹果依旧计划在即将发布的iOS 26版本Apple Intelligence中集成OpenAI GPT-5功能。综上所述,虽然Manzano已经展示出了一定的技术进步,但它能否有效减轻对第三方模型的依赖还需后续版本进一步验证。
© 版权声明
文章版权归作者所有,未经允许请勿转载。