AI相关学习笔记


LLM的全称是什么?

全称是 Large Language Model ,翻译过来就是 大语言模型
这类模型的特点:
Large:大,主要体现在三个方面,参数规模大、训练数据量大和计算资源消耗大。
Language:说明了模型的核心能力范围,它主要处理和理解人类语言。

对于模型描述常说的参数 B 是什么意思?代表了什么?

B 是英文 Billion 的缩写,意思是 十亿
这个数字代表的是模型中 参数(Parameters) 的数量。

  • 什么是参数?
    参数是模型内部可以被调整的变量。可以把它们想象成人类大脑中神经元之间的连接点(突触)。我们大脑的学习过程,就是不断调整这些连接强弱的过程。
    对于AI模型而言,“训练”的过程,就是在海量数据的指导下,不断微调这数十亿、上百亿个参数值的过程,直到模型能够对输入(你的问题)给出正确或高质量的输出(回答)。

  • 参数数量代表着什么?
    参数数量通常被看作是衡量模型复杂度和能力上限的一个关键指标。

    1. 模型的容量和知识量: 参数越多,模型能够“记忆”和“编码”的知识就越多、越复杂。一个参数量更大的模型,就像一个拥有更多脑细胞和神经连接的大脑,有潜力学习和存储更多的信息,理解更细微的语言差别。

    2. 推理和泛化能力: 更大的参数量通常意味着更强的逻辑推理、上下文理解和举一反三(泛化)的能力。它能处理更长、更复杂的指令,并给出更有深度和创造力的回答。

    3. 成本和资源: 参数量也直接决定了模型的训练成本和运行成本。模型越大,需要的计算资源(GPU)、电力和时间就越多,开发和使用的门槛也越高。这也是为什么我们看到有些较小的模型(如7B、13B)可以在高端个人电脑上运行,而巨型模型(100B以上)则必须部署在拥有成千上万GPU的数据中心里。

1M token是什么?

1M=一百万token
1K=一千token


参考资料

  • Gemini-2.5-pro
订阅评论
提醒
用户头像

0 评论
最旧
最新 最多投票