关于这个问题,GPT-2是一种基于Transformer模型的语言模型,具有1.5亿、3.5亿、8亿和15亿个参数的四种不同大小的版本。其中,8亿和15亿版本只开放了API使用权限,因为它们在生成文本方面具有非常强大的能力,可能会被滥用。以下是各个版本的参数数量:
1.5亿参数版本:
- Transformer层数:12
- 每层隐藏单元数:768
3.5亿参数版本:
- Transformer层数:24
- 每层隐藏单元数:1024
8亿参数版本:
- Transformer层数:32
- 每层隐藏单元数:1280
15亿参数版本:
- Transformer层数:40
- 每层隐藏单元数:1600

已解决




