Core ML 模型
利用研究社区为 Core ML 设计的机器学习模型打造你的智能化 App。
利用研究社区为 Core ML 设计的机器学习模型打造你的智能化 App。
模型采用 Core ML 格式��并可集成到 Xcode 项目中。你还可以选择不同版本的模型来优化尺寸和架构。
图像
图像分类
经过训练的 Fast Hybrid Vision Transformer 架构,可对相机取景框内或图像中的主要对象进行分类。
查看详情
FastViT 是一种通用的混合视觉转换器模型,在 ImageNet 数据集上进行了训练,可提供最先进的准确性/延迟权衡。
此模型的高性能、低延迟以及应对分布外样本的稳定性来源于三种新颖的架构策略:
在移动和桌面图形处理器平台上,FastViT 在各种计算机视觉任务中的表现始终优于竞争对手的稳健架构,这些任务包括图像分类、对象检测、语义分割以及 3D 网格回归。
图像分类、对象检测、语义分割、3D 网格回归
变体 | 参数 | 大小 | 权重精度 | 激活精度 |
---|---|---|---|---|
T8 | 3.6M | 7.8 | Float16 | Float16 |
MA36 | 42.7M | 84 | Float16 | Float16 |
变体 | 设备 | 操作系统 | 推理时间 (毫秒) | 运算单元 |
---|---|---|---|---|
T8 F16 | iPhone 16 Pro | 18.3 | 0.52 | 全部 |
T8 F16 | iPhone 15 Pro Max | 17.6 | 0.67 | 全部 |
T8 F16 | iPhone 15 Plus | 17.6 | 0.73 | 全部 |
T8 F16 | iPhone 14 Plus | 17.6 | 0.82 | 全部 |
T8 F16 | iPhone 13 Pro Max | 17.6 | 0.83 | 全部 |
T8 F16 | MacBook Pro (M3 Max) | 14.4 | 0.62 | 全部 |
MA36 F16 | iPhone 16 Pro | 18.3 | 2.78 | 全部 |
MA36 F16 | iPhone 15 Pro Max | 17.6 | 3.33 | 全部 |
MA36 F16 | iPhone 15 Plus | 17.6 | 3.47 | 全部 |
MA36 F16 | iPhone 14 Plus | 17.6 | 4.56 | 全部 |
MA36 F16 | iPhone 13 Pro Max | 17.6 | 4.47 | 全部 |
MA36 F16 | MacBook Pro (M2 Max) | 15.0 | 2.94 | 全部 |
MA36 F16 | MacBook Pro (M1 Max) | 15.0 | 4 | 全部 |
MA36 F16 | iPad Pro (第五代) | 17.5 | 3.35 | 全部 |
使用 Vision 框架对照片进行预处理,然后通过 Core ML 模型对照片进行分类。
图像
深度预测
执行单眼深度预测的 Depth Anything 模型。
查看详情
Depth Anything v2 是执行单眼深度预测的基础模型。它保留了原版 Depth Anything 的优势,并通过优化强大的数据管理引擎和知识蒸馏管道弥补了原版的缺陷。
为了训练教师模型,Depth Anything v2 使用纯合成的计算机生成图像。这可以避免使用真实图像产生的问题,这些问题会因错误标注和低分辨率而限制单眼深度预测模型的性能。教师模型会预测无标签真实图像的深度信息,然后仅使用新的伪标签数据来训练学生模型。这有助于避免合成图像和真实图像之间的分布偏移。
在处理深度预测任务时,Depth Anything v2 模型相比 v1 版有了显著改善,尤其是在稳定性、推理速度以及图像深度属性 (如精细细节、透明对象、反射和复杂场景) 方面的表现优于 v1 版。通过改进的数据整理方法,该模型在多个标准数据集 (包括 KITTI、NYU-D、Sintel、ETH3D 和 DIODE) 上的表现优异,并且在专门为深度预测创建的新 DA-2k 评估集上,相较于 v1 版和其他社区模型,准确率提升了 9% 以上。
Depth Anything v2 提供多种模型规模和推理效率,以支持广泛的应用程序,并且可以更普遍地用于微调下游任务。它可用于任何需要深度预测的应用程序,例如 3D 重建、导航、自动驾驶以及图像或视频生成。
深度预测、语义分割
变体 | 参数 | 大小 | 权重精度 | 激活精度 |
---|---|---|---|---|
F32 | 24.8M | 99.2 | Float32 | Float32 |
F16 | 24.8M | 49.8 | Float16 | Float16 |
变体 | 设备 | 操作系统 | 推理时间 (毫秒) | 运算单元 |
---|---|---|---|---|
Small F16 | iPhone 16 Pro | 18.3 | 26.21 | 全部 |
Small F16 | iPhone 15 Pro Max | 17.4 | 33.90 | 全部 |
Small F16 | MacBook Pro (M1 Max) | 15.0 | 33.48 | 全部 |
Small F16 | MacBook Pro (M1 Max) | 15.0 | 32.78 | 图形处理器 |
图像
语义分割
经过训练用于对象检测和全景分割,并配置为返回语义分割遮罩的 DEtection TRansformer (DETR) 模型。
查看详情
DETR 模型是一个编码器/解码器转换器,具有在 COCO 2017 数据集上训练的卷积主干。它融合了一组行之有效的机器学习策略,能够比标准对象检测器更巧妙地检测和分类图像中的对象,同时具备与标准对象检测器相同的性能。
该模型使用一个损失函数进行训练,该函数在预测对象和真实对象之间执行二分匹配。在推理时,DETR 应用全局自注意力机制一次性预测图像中的所有对象。得益于全局注意力机制,该模型在检测大型对象时的表现优于标准对象检测器,但在小型对象上的表现则不及标准对象检测器。尽管如此,在极具挑战性的 COCO 数据集上的评估显示,DETR 在准确性和运行时性能方面可以与其他高度优化的架构相媲美。
DETR 可以在任何包含标准卷积神经网络 (CNN) 和转换器类的框架中轻松重现。此外,它还可以轻松地扩展以支持更复杂的任务,例如全景分割以及其他需在预训练 DETR 模型上再训练一个简单的分割头的任务。
DETR 避免了传统架构为实现可接受性能所需的繁重代理任务和手动设计组件,取而代之提供了一种概念上简单且易于重现的方法,简化了对象检测管道。
对象检测、全景分割
变体 | 参数 | 大小 | 权重精度 | 激活精度 |
---|---|---|---|---|
F32 | 43M | 171 | Float32 | Float32 |
F16 | 43M | 86 | Float16 | Float16 |
变体 | 设备 | 操作系统 | 推理时间 (毫秒) | 运算单元 |
---|---|---|---|---|
F16 | iPhone 16 Pro | 18.3 | 34.32 | 全部 |
F16 | iPhone 15 Pro Max | 17.6 | 39 | 全部 |
F16 | iPhone 15 Plus | 17.6 | 43 | 全部 |
F16 | iPhone 14 Plus | 17.6 | 50 | 全部 |
F16 | iPhone 14 | 17.5 | 51 | 全部 |
F16 | iPhone 13 Pro Max | 17.6 | 51 | 全部 |
F16 | MacBook Pro (M1 Max) | 15.0 | 117 | 全部 |
F16 | MacBook Pro (M1 Max) | 15.0 | 43 | 图形处理器 |
F16P8 | iPhone 16 Pro | 18.3 | 32.23 | 全部 |
F16P8 | iPhone 15 Plus | 18.0 | 40.73 | 全部 |
F16P8 | iPhone 13 Pro Max | 17.6 | 51.53 | 全部 |
F16P8 | MacBook Pro (M1 Max) | 15.0 | 36.52 | 全部 |
F16P8 | MacBook Pro (M1 Max) | 15.0 | 33.14 | 图形处理器 |
F16P8 | iPad Pro (第五代) | 18.0 | 62.49 | 全部 |
F16P8 | iPad Pro (第四代) | 18.0 | 1224 | 全部 |
文本
问答
查找文本段落相关问题的答案。
查看详情
BERT (Bidirectional Encoder Representations from Transformers) 是一种语言表示模型,它使用基于微调的方法将预训练的表示应用于下游 NLP 任务。就 BERT-SQuAD 而言,下游 NLP 任务是基于上下文的问答。
BERT 的多层双向转换器编码器架构在预训练和微调这两个步骤中均会得到使用。BERT-SQuAD 针对此架构进行了调整,以便从 Stanford Question Answering Dataset (SQuAD) 中,根据给定的问题和相关上下文提取精确的答案。
BERT 通过两个非监督式预训练任务,在 BooksCorpus 和英文 Wikipedia 文本段落上进行预训练。它使用掩码语言模型任务来预训练一个深度的双向自注意力转换器,并通过下一句预测任务来联合预训练文本对表示,这些表示在所有层中都与左右上下文相关联。
进行微调时,BERT-SQuAD 通过预训练期间获取的参数进行初始化。随后,使用 Stanford Question Answering Dataset 中有标签的数据对所有参数进行微调。
一般来说,针对你的特定 NLP 任务对 BERT 进行微调既简单又成本低廉:BERT 论文中所有特定于任务的词元级和句子级模型都是通过将 BERT 只与一个额外的输出层相结合而形成的。
问答
模型名称 | 大小 | 操作 |
---|---|---|
BERTSQUADFP16.mlmodel | 217.8MB | 下载 |
通过向 Bidirectional Encoder Representations from Transformers (BERT) 模型提问,查找文稿中的相关段落。
图像
图像分类
将相机取景框或图像的像素分割为一组预定义的类。
查看详情
图像
涂鸦分类
对单个手写数字进行分类 (支持数字 0-9)。
查看详情
图像
图像分类
MobileNetv2 架构经过训练,可对相机取景框内或图像中的主要对象进行分类。
查看详情
图像
图像分类
一种残差神经网络,它能对相机取景框内或图像中的主要对象进行分类。
查看详情
图像
涂鸦分类
基于 K 近邻 (KNN) 模型学习识别新涂鸦的涂鸦分类器。
查看详情
模型名称 | 大小 | 操作 |
---|---|---|
UpdatableDrawingClassifier.mlmodel | 382KB | 下载 |
通过在设备端更新涂鸦分类模型,学习如何将用户的涂鸦映射到自定贴纸。
图像
对象检测
对相机取景框内或图像中 80 种不同类型的对象进行定位和分类。
查看详情