Transformer explainer

Transformer 是一种神经网络架构
- 文本生成 Transformer 模型基于下一词预测原理：给定用户输入的文本提示，最有可能跟随此输入的下一个词是什么？
- Transformer 的核心创新和强大之处在于它们使用自注意力机制，这使得它们能够更有效地处理整个序列并捕捉比先前架构更长的依赖关系。
  - 自注意力机制：通过计算输入序列中每个元素与其他元素的相关性，捕捉序列内部的依赖关系，广泛应用于自然语言处理（NLP）等领域。
每个文本生成式 Transformer 都包含这三个关键组件：
- Embedding （嵌入层）
- Transformer 块
- Output Probabilities（输出概率）