什么是预训练AI模型

廖雪峰 / 文章 / ... / Reads: 8838 Edit

注：本文来自NVIDIA的博客，原文是英文，以下译文完全是由AI翻译的：

预训练的AI模型是在大规模数据集上进行训练，以完成特定任务的深度学习模型，可以直接使用或根据不同行业的应用需求进行定制。

想象一下，试着教一个幼儿什么是独角兽。一个好的起点可能是向孩子展示这个生物的图片，并描述它独特的特征。

现在想象一下，试图教一个人工智能机器什么是独角兽。应该从哪里开始呢？

预训练的AI模型提供了一个解决方案。

预训练的AI模型是一个深度学习模型，它是一种类似大脑的神经算法表达，通过数据找到模式或进行预测，它在大规模数据集上进行训练以完成特定任务。它可以直接使用或进一步微调以适应应用的具体需求。

为什么使用预训练的AI模型？

与从头开始构建一个AI模型相比，开发人员可以使用预训练模型并对其进行定制，以满足他们的需求。

要构建一个AI应用程序，开发人员首先需要一个能够完成特定任务的AI模型，无论是识别神话中的马，检测自动驾驶车辆的安全隐患，还是根据医学影像诊断癌症。该模型需要大量代表性的数据进行学习。

这个学习过程涉及通过多个层次的输入数据，并在每个层次上强调与目标相关的特征。

例如，为了创建一个能够识别独角兽的模型，可以先向其输入独角兽、马、猫、老虎和其他动物的图片。这些是输入数据。

然后，构建代表性数据特征的层次结构，从简单的线条和颜色开始，逐步发展到复杂的结构特征。通过计算概率，这些特征被赋予不同程度的相关性。

例如，与猫或老虎相比，一个生物越像马，就越有可能是独角兽。这种概率值存储在AI模型中每个神经网络层中，随着层次的增加，对其表示的理解会改善。

从头开始创建这样的模型，开发人员需要大量的数据集，通常有数十亿行数据。这可能会很昂贵，也很难获得，但是数据上的妥协可能会导致模型性能不佳。

预先计算的概率表示（称为权重）可以节省时间、金钱和精力。预训练模型已经使用这些权重构建和训练好。

使用具有大量准确代表性权重的高质量预训练模型可以提高AI部署成功的机会。权重可以进行修改，还可以向模型添加更多数据以进一步定制或微调它。

在预训练模型上构建应用程序的开发人员可以更快地创建AI应用程序，而无需担心处理大量的输入数据或计算密集层的概率。

换句话说，使用预训练的AI模型就像获得一件衣服，然后按照自己的需求进行裁剪，而不是从面料、线和针开始。

预训练的AI模型通常用于迁移学习，并可以基于多种模型架构类型。其中一种流行的架构类型是Transformer模型，这是一种通过跟踪序列数据中的关系来学习上下文和含义的神经网络。

根据AI公司Clarifai的高级副总裁Alfredo Ramos的说法，预训练模型可以将AI应用程序开发时间缩短多达一年，并节省数十万美元的成本。

预训练模型如何推动AI发展？

由于预训练模型简化和加快了AI的开发，许多开发人员和公司使用它们来加速各种AI应用。

预训练模型在推动AI发展的主要领域包括：

自然语言处理：预训练模型用于翻译、聊天机器人和其他自然语言处理应用。基于Transformer模型架构的大型语言模型是预训练模型的扩展。一个例子是预训练的LLM（Large Language Model）——NVIDIA NeMo Megatron，它是世界上最大的AI模型之一。
语音AI：预训练模型可以帮助语音AI应用在不同语言之间进行插拔式使用。应用案例包括呼叫中心自动化、AI助手和语音识别技术。
计算机视觉：就像上面的独角兽例子一样，预训练模型可以帮助AI快速识别生物、物体、地点和人物。通过这种方式，预训练模型加速了计算机视觉，使应用具备类似人类的视觉能力，适用于运动、智慧城市等领域。
医疗保健：对于医疗保健应用，像MegaMolBART这样的预训练AI模型——作为NVIDIA BioNeMo服务和框架的一部分——可以理解化学语言，并学习现实分子中的原子之间的关系，为科学界提供了一个更快速的药物发现工具。
网络安全：预训练模型为实施基于AI的网络安全解决方案提供了一个起点，并扩展了人类安全分析师检测威胁的能力。例子包括对人类和机器的数字指纹识别，以及异常、敏感信息和钓鱼的检测。
艺术和创意工作流程：加强最近的AI艺术浪潮，预训练模型可以通过GauGAN和NVIDIA Canvas等工具加速创意工作流程。

预训练的AI模型可以应用于超越上述领域的各个行业，因为它们的定制和微调可以带来无限的用例可能性。

在哪里可以找到预训练的AI模型？

像谷歌、Meta、微软和NVIDIA这样的公司正在发明尖端的模型架构和框架来构建AI模型。

这些模型有时会发布在模型库或作为开源，使开发人员能够对预训练的AI模型进行微调，提高其准确性并扩展模型库。

NVIDIA NGC是一个针对GPU优化的AI软件、模型和Jupyter Notebook示例的中心，其中包括预训练模型以及针对NVIDIA AI平台使用的AI基准和训练方案的优化。

NVIDIA AI Enterprise是一个完全托管、安全的基于云原生的AI和数据分析软件套件，包括没有加密的预训练模型。这使得希望将NVIDIA预训练模型集成到自定义AI应用程序中的开发人员和企业可以查看模型的权重和偏差，提高可解释性并轻松进行调试。

数以千计的开源模型也可以在GitHub、Hugging Face等平台上找到。

重要的是，预训练模型的训练要使用透明且可解释的道德数据，符合隐私规定，并经过同意且没有偏见地获得。

NVIDIA预训练的AI模型

为了帮助更多的开发人员将AI从原型转化为生产，NVIDIA提供了几个预训练模型，可以直接部署，包括：

NVIDIA SegFormer，一种用于简单、高效、强大的语义分割的Transformer模型，可在GitHub上获取。
NVIDIA专门构建的计算机视觉模型，通过在数百万图像上进行训练，可以用于各种计算机视觉任务。
NVIDIA MegaMolBART，用于化学自然语言处理（CNLP）和分子生成的预训练语言模型，旨在加速药物发现。

这些模型是为特定任务而构建的，可以用于迁移学习或直接部署。

总结

预训练的AI模型通过在大规模数据集上进行训练，并获得代表性权重，使得AI应用程序的开发更加高效和可行。

预训练模型可以在多个领域加速AI的发展，包括自然语言处理、语音AI、计算机视觉、医疗保健、网络安全和艺术创作。

预训练的AI模型可以通过各种平台和资源获得，包括公司的模型库、开源社区和GitHub。

NVIDIA提供了几个预训练模型，旨在帮助开发人员将AI从原型转化为生产，并加速各种AI应用的开发和部署：https://developer.nvidia.com/ai-models