2024 大模型必知必会词条术语

date

May 6, 2024

大(语言)模型

Large Language Model，LLM, 学术 Foundation Models, LLM 只是 NLP

Foundation Models

基础模型（Foundation Models），就指的是一种基于深度神经网络和自监督学习技术的，在大规模、广泛来源数据集上训练的AI模型。

https://hub.baai.ac.cn/view/15931

深度神经网络

DNN Deep-Learning Neural Network

https://wiki.sipeed.com/ai/zh/basic/dnn_basic.html

深度神经网络（DNN）是机器学习（ML）领域中的一种技术。

机器学习

ML，Machine Learning: 教计算机学习, AI 的基础

AI

artificial intelligence 人工智能: 学习和模仿人类行为能力思维的软件

NLP

Natural Language Model

PyTorch

https://pytorch.org/

PyTorch 是一个基于软件的开源深度学习框架，用于构建神经网络，将 Torch 的后端机器学习库与基于 Python 的高级 API 相结合。它的灵活性和易用性以及其他优点使其成为面向学术和研究社区的领先机器学习框架。

https://www.ibm.com/cn-zh/topics/pytorch

Torch

torch是采用C语言作为底层，然后lua语言为接口的深度学习库

Tensorflow

https://tensorflow.google.cn/

TensorFlow由Google智能机器研究部门Google Brain团队研发的

Keras

Keras 是一个用 Python 编写的高级神经网络 API，它能够以 TensorFlow, CNTK 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果，是做好研究的关键。https://keras-zh.readthedocs.io/

自然语言处理

(NLP, Natural Language Processing)

jittor

https://cg.cs.tsinghua.edu.cn/jittor/

计图（Jittor）：一个完全基于动态编译（Just-in-time）,内部使用创新的元算子和统一计算图的深度学习框架，元算子和Numpy一样易于使用，并且超越Numpy能够实现更复杂更高效的操作。而统一计算图则是融合了静态计算图和动态计算图的诸多优点，在易于使用的同时，提供高性能的优化。基于元算子开发的深度学习模型，可以被计图实时的自动优化并且运行在指定的硬件上，如CPU，GPU，TPU。

Gradio

Gradio is the fastest way to demo your machine learning model with a friendly web interface so that anyone can use it, anywhere!

https://www.gradio.app/

Streamlit

A faster way to build and share data apps

https://streamlit.io/

大模型量化

大模型量化工具将高位浮点数转为低位的定点数，例如16bit降低到8bit，直接减少模型权重的体积，生成量化参数和权重文件。

深度学习模型

循环神经网络 (RNN)

循环神经网络（Recurrent Neural Network, RNN）是一类具有内部环状连接的人工神经网络，用于处理序列数据。其最大特点是网络中存在着环，使得信息能在网络中进行循环，实现对序列信息的存储和处理。

卷积神经网络 (CNN)

卷积神经网络（Convolutional Neural Network，CNN）是一种在计算机视觉领域取得了巨大成功的深度学习模型。它们的设计灵感来自于生物学中的视觉系统，旨在模拟人类视觉处理的方式。在过去的几年中，CNN已经在图像识别、目标检测、图像生成和许多其他领域取得了显著的进展，成为了计算机视觉和深度学习研究的重要组成部分

Transformer

Transformer 模型的核心思想是自注意力机制（self-attention）——能注意输入序列的不同位置以计算该序列的表示的能力。Transformer 创建了多层自注意力层（self-attetion layers）组成的堆栈，下文的按比缩放的点积注意力（Scaled dot product attention）和多头注意力（Multi-head attention）部分对此进行了说明。 https://tensorflow.google.cn/tutorials/text/transformer?hl=zh-cn

Transformers 是由 Hugging Face 开发的一个 NLP 包，支持加载目前绝大部分的预训练模型。随着 BERT、GPT 等大规模语言模型的兴起，越来越多的公司和研究者采用 Transformers 库来构建 NLP 应用。

本文地址 : https://www.dajun.info/Large-Language-Model-nomenclature