模型 - 机器学习 - Apple Developer

图像

FastViT

图像分类

经过训练的 Fast Hybrid Vision Transformer 架构，可对相机取景框内或图像中的主要对象进行分类。

查看详情
收起详情

模型信息

摘要

FastViT 是一种通用的混合视觉转换器模型，在 ImageNet 数据集上进行了训练，可提供最先进的准确性/延迟权衡。

此模型的高性能、低延迟以及应对分布外样本的稳定性来源于三种新颖的架构策略：

结构重参数化
线性训练时间过参数化
使用大核卷积

在移动和桌面图形处理器平台上，FastViT 在各种计算机视觉任务中的表现始终优于竞争对手的稳健架构，这些任务包括图像分类、对象检测、语义分割以及 3D 网格回归。

用例

图像分类、对象检测、语义分割、3D 网格回归

链接

变体

模型名称	大小	操作
FastViTMA36F16.mlpackage	88.3MB	下载
FastViTT8F16.mlpackage	8.2MB	下载
FastViTMA36F16Headless.mlpackage	85.8MB	下载
FastViTT8F16Headless.mlpackage	6.5MB	下载

变体	参数	大小	权重精度	激活精度
T8	3.6M	7.8	Float16	Float16
MA36	42.7M	84	Float16	Float16

推理时间

变体	设备	操作系统	推理时间 (毫秒)	运算单元
T8 F16	iPhone 16 Pro	18.3	0.52	全部
T8 F16	iPhone 15 Pro Max	17.6	0.67	全部
T8 F16	iPhone 15 Plus	17.6	0.73	全部
T8 F16	iPhone 14 Plus	17.6	0.82	全部
T8 F16	iPhone 13 Pro Max	17.6	0.83	全部
T8 F16	MacBook Pro (M3 Max)	14.4	0.62	全部
MA36 F16	iPhone 16 Pro	18.3	2.78	全部
MA36 F16	iPhone 15 Pro Max	17.6	3.33	全部
MA36 F16	iPhone 15 Plus	17.6	3.47	全部
MA36 F16	iPhone 14 Plus	17.6	4.56	全部
MA36 F16	iPhone 13 Pro Max	17.6	4.47	全部
MA36 F16	MacBook Pro (M2 Max)	15.0	2.94	全部
MA36 F16	MacBook Pro (M1 Max)	15.0	4	全部
MA36 F16	iPad Pro (第五代)	17.5	3.35	全部

示例项目

通过 Vision 和 Core ML 对图像进行分类
使用 Vision 框架对照片进行预处理，然后通过 Core ML 模型对照片进行分类。

图像

Depth Anything V2

深度预测

执行单眼深度预测的 Depth Anything 模型。

查看详情
收起详情

模型信息

摘要

Depth Anything v2 是执行单眼深度预测的基础模型。它保留了原版 Depth Anything 的优势，并通过优化强大的数据管理引擎和知识蒸馏管道弥补了原版的缺陷。

为了训练教师模型，Depth Anything v2 使用纯合成的计算机生成图像。这可以避免使用真实图像产生的问题，这些问题会因错误标注和低分辨率而限制单眼深度预测模型的性能。教师模型会预测无标签真实图像的深度信息，然后仅使用新的伪标签数据来训练学生模型。这有助于避免合成图像和真实图像之间的分布偏移。

在处理深度预测任务时，Depth Anything v2 模型相比 v1 版有了显著改善，尤其是在稳定性、推理速度以及图像深度属性 (如精细细节、透明对象、反射和复杂场景) 方面的表现优于 v1 版。通过改进的数据整理方法，该模型在多个标准数据集 (包括 KITTI、NYU-D、Sintel、ETH3D 和 DIODE) 上的表现优异，并且在专门为深度预测创建的新 DA-2k 评估集上，相较于 v1 版和其他社区模型，准确率提升了 9% 以上。

Depth Anything v2 提供多种模型规模和推理效率，以支持广泛的应用程序，并且可以更普遍地用于微调下游任务。它可用于任何需要深度预测的应用程序，例如 3D 重建、导航、自动驾驶以及图像或视频生成。

用例

深度预测、语义分割

链接

变体

模型名称	大小	操作
DepthAnythingV2SmallF16.mlpackage	49.8MB	下载
DepthAnythingV2SmallF16P6.mlpackage	19MB	下载

变体	参数	大小	权重精度	激活精度
F32	24.8M	99.2	Float32	Float32
F16	24.8M	49.8	Float16	Float16

推理时间

变体	设备	操作系统	推理时间 (毫秒)	运算单元
Small F16	iPhone 16 Pro	18.3	26.21	全部
Small F16	iPhone 15 Pro Max	17.4	33.90	全部
Small F16	MacBook Pro (M1 Max)	15.0	33.48	全部
Small F16	MacBook Pro (M1 Max)	15.0	32.78	图形处理器

图像

DETR Resnet50 Semantic Segmentation

语义分割

经过训练用于对象检测和全景分割，并配置为返回语义分割遮罩的 DEtection TRansformer (DETR) 模型。

查看详情
收起详情

模型信息

摘要

DETR 模型是一个编码器/解码器转换器，具有在 COCO 2017 数据集上训练的卷积主干。它融合了一组行之有效的机器学习策略，能够比标准对象检测器更巧妙地检测和分类图像中的对象，同时具备与标准对象检测器相同的性能。

该模型使用一个损失函数进行训练，该函数在预测对象和真实对象之间执行二分匹配。在推理时，DETR 应用全局自注意力机制一次性预测图像中的所有对象。得益于全局注意力机制，该模型在检测大型对象时的表现优于标准对象检测器，但在小型对象上的表现则不及标准对象检测器。尽管如此，在极具挑战性的 COCO 数据集上的评估显示，DETR 在准确性和运行时性能方面可以与其他高度优化的架构相媲美。

DETR 可以在任何包含标准卷积神经网络 (CNN) 和转换器类的框架中轻松重现。此外，它还可以轻松地扩展以支持更复杂的任务，例如全景分割以及其他需在预训练 DETR 模型上再训练一个简单的分割头的任务。

DETR 避免了传统架构为实现可接受性能所需的繁重代理任务和手动设计组件，取而代之提供了一种概念上简单且易于重现的方法，简化了对象检测管道。

用例

对象检测、全景分割

链接

变体

模型名称	大小	操作
DETRResnet50SemanticSegmentationF16.mlpackage	85.5MB	下载
DETRResnet50SemanticSegmentationF16P8.mlpackage	43.1MB	下载

变体	参数	大小	权重精度	激活精度
F32	43M	171	Float32	Float32
F16	43M	86	Float16	Float16

推理时间

变体	设备	操作系统	推理时间 (毫秒)	运算单元
F16	iPhone 16 Pro	18.3	34.32	全部
F16	iPhone 15 Pro Max	17.6	39	全部
F16	iPhone 15 Plus	17.6	43	全部
F16	iPhone 14 Plus	17.6	50	全部
F16	iPhone 14	17.5	51	全部
F16	iPhone 13 Pro Max	17.6	51	全部
F16	MacBook Pro (M1 Max)	15.0	117	全部
F16	MacBook Pro (M1 Max)	15.0	43	图形处理器
F16P8	iPhone 16 Pro	18.3	32.23	全部
F16P8	iPhone 15 Plus	18.0	40.73	全部
F16P8	iPhone 13 Pro Max	17.6	51.53	全部
F16P8	MacBook Pro (M1 Max)	15.0	36.52	全部
F16P8	MacBook Pro (M1 Max)	15.0	33.14	图形处理器
F16P8	iPad Pro (第五代)	18.0	62.49	全部
F16P8	iPad Pro (第四代)	18.0	1224	全部

文本

BERT-SQuAD

问答

查找文本段落相关问题的答案。

查看详情
收起详情

模型信息

摘要

BERT (Bidirectional Encoder Representations from Transformers) 是一种语言表示模型，它使用基于微调的方法将预训练的表示应用于下游 NLP 任务。就 BERT-SQuAD 而言，下游 NLP 任务是基于上下文的问答。

BERT 的多层双向转换器编码器架构在预训练和微调这两个步骤中均会得到使用。BERT-SQuAD 针对此架构进行了调整，以便从 Stanford Question Answering Dataset (SQuAD) 中，根据给定的问题和相关上下文提取精确的答案。

BERT 通过两个非监督式预训练任务，在 BooksCorpus 和英文 Wikipedia 文本段落上进行预训练。它使用掩码语言模型任务来预训练一个深度的双向自注意力转换器，并通过下一句预测任务来联合预训练文本对表示，这些表示在所有层中都与左右上下文相关联。

进行微调时，BERT-SQuAD 通过预训练期间获取的参数进行初始化。随后，使用 Stanford Question Answering Dataset 中有标签的数据对所有参数进行微调。

一般来说，针对你的特定 NLP 任务对 BERT 进行微调既简单又成本低廉：BERT 论文中所有特定于任务的词元级和句子级模型都是通过将 BERT 只与一个额外的输出层相结合而形成的。

用例

问答

链接

变体

模型名称	大小	操作
BERTSQUADFP16.mlmodel	217.8MB	下载

示例项目

在文本文稿中查找问题答案
通过向 Bidirectional Encoder Representations from Transformers (BERT) 模型提问，查找文稿中的相关段落。

图像

DeeplabV3

图像分类

将相机取景框或图像的像素分割为一组预定义的类。

查看详情
收起详情

模型信息

链接

变体

模型名称	大小	操作
DeepLabV3.mlmodel	8.6MB	下载
DeepLabV3FP16.mlmodel	4.3MB	下载
DeepLabV3Int8LUT.mlmodel	2.3MB	下载

图像

MNIST

涂鸦分类

对单个手写数字进行分类 (支持数字 0-9)。

查看详情
收起详情

模型信息

链接

源数据集

变体

模型名称	大小	操作
MNISTClassifier.mlmodel	395KB	下载

图像

MobileNetV2

图像分类

MobileNetv2 架构经过训练，可对相机取景框内或图像中的主要对象进行分类。

查看详情
收起详情

模型信息

链接

变体

模型名称	大小	操作
MobileNetV2.mlmodel	24.7MB	下载
MobileNetV2FP16.mlmodel	12.4MB	下载
MobileNetV2Int8LUT.mlmodel	6.3MB	下载

示例项目

通过 Vision 和 Core ML 对图像进行分类
使用 Vision 框架对照片进行预处理，然后通过 Core ML 模型对照片进行分类。

图像

Resnet50

图像分类

一种残差神经网络，它能对相机取景框内或图像中的主要对象进行分类。

查看详情
收起详情

模型信息

链接

变体

模型名称	大小	操作
Resnet50.mlmodel	102.6MB	下载
Resnet50FP16.mlmodel	51.3MB	下载
Resnet50Int8LUT.mlmodel	25.8MB	下载
Resnet50Headless.mlmodel	94.4MB	下载

示例项目

通过 Vision 和 Core ML 对图像进行分类
使用 Vision 框架对照片进行预处理，然后通过 Core ML 模型对照片进行分类。

图像

UpdatableDrawingClassifier

涂鸦分类

基于 K 近邻 (KNN) 模型学习识别新涂鸦的涂鸦分类器。

查看详情
收起详情

模型信息

链接

源代码和文档

变体

模型名称	大小	操作
UpdatableDrawingClassifier.mlmodel	382KB	下载

示例项目

通过设备端更新对模型进行个性化设置
通过在设备端更新涂鸦分类模型，学习如何将用户的涂鸦映射到自定贴纸。

图像

YOLOv3

对象检测

对相机取景框内或图像中 80 种不同类型的对象进行定位和分类。

查看详情
收起详情

模型信息

链接

变体

模型名称	大小	操作
YOLOv3.mlmodel	248.4MB	下载
YOLOv3FP16.mlmodel	124.2MB	下载
YOLOv3Int8LUT.mlmodel	62.2MB	下载
YOLOv3Tiny.mlmodel	35.4MB	下载
YOLOv3TinyFP16.mlmodel	17.7MB	下载
YOLOv3TinyInt8LUT.mlmodel	8.9MB	下载

示例项目

在实时拍摄中识别对象
应用 Vision 算法识别实时视频中的对象。

Core ML 模型

FastViT

模型信息

摘要

用例

链接

变体

推理时间

示例项目

Depth Anything V2

模型信息

摘要

用例

链接

变体

推理时间

DETR Resnet50 Semantic Segmentation

模型信息

摘要

用例

链接

变体

推理时间

BERT-SQuAD

模型信息

摘要

用例

链接

变体

示例项目

DeeplabV3

模型信息

链接

变体

MNIST

模型信息

链接

变体

MobileNetV2

模型信息

链接

变体

示例项目

Resnet50

模型信息

链接

变体

示例项目

UpdatableDrawingClassifier

模型信息

链接

变体

示例项目

YOLOv3

模型信息

链接

变体

示例项目

无任何结果。