Softmax是一个在机器学习和深度学习中常用的函数，特别是在处理分类问题时。它通常用于多分类模型的输出层，将模型输出的原始分数（也称为logits）转换成概率分布。

Softmax函数的定义：
对于一个样本，假设我们有一个包含
𝐶
C个类别的分类问题，模型输出的原始分数向量为
𝑧

[
𝑧
1
,
𝑧
2
,
.
.
.
,
𝑧
𝐶
]
z=[z
1

,z
2

,…,z
C

]。Softmax函数将这个向量转换为一个概率分布
𝜎
(
𝑧
)

[
𝜎
(
𝑧
1
)
,
𝜎
(
𝑧
2
)
,
.
.
.
,
𝜎
(
𝑧
𝐶
)
]
σ(z)=[σ(z
1

),σ(z
2

),…,σ(z
C

)]，其中每个元素
𝜎
(
𝑧
𝑖
)
σ(z
i

) 表示样本属于第
𝑖
i 个类别的概率，计算公式为：

𝜎
(
𝑧
𝑖
)

𝑒
𝑧
𝑖
∑
𝑗

1
𝐶
𝑒
𝑧
𝑗
σ(z
i

)=
∑
j=1
C

e
z
j

e
z
i

Softmax函数的特点：
归一化：Softmax函数的输出是一个概率分布，所有类别的概率之和为1。
区分度：它放大了原始分数之间的差异。如果一个类别的原始分数比其他类别的分数稍微高一点，经过Softmax函数转换后，这个类别的概率会比其他类别的概率高得多。
稳定性：当原始分数非常大或非常小的时候，Softmax函数能够稳定地输出概率值，避免数值计算问题。
应用场景：
多分类问题：在深度学习模型的输出层，用于将模型的预测输出转换为概率形式，以便于选择概率最高的类别作为预测结果。
概率解释：Softmax输出的概率可以用于概率解释和概率推断。
与Logistic回归的比较：
在二分类问题中，Softmax函数退化为Logistic函数（或称为Sigmoid函数），用于将原始分数转换为概率。而在多分类问题中，Softmax函数能够处理多个类别，输出一个概率分布。

Softmax函数在深度学习框架中广泛使用，如TensorFlow、PyTorch等，它们提供了方便的Softmax实现，可以直接应用于模型的输出层。

青苑

softmax

Softmax函数的定义：
对于一个样本，假设我们有一个包含
𝐶
C个类别的分类问题，模型输出的原始分数向量为
𝑧

[
𝑧
1
,
𝑧
2
,
.
.
.
,
𝑧
𝐶
]
z=[z
1

,z
2

,…,z
C

]。Softmax函数将这个向量转换为一个概率分布
𝜎
(
𝑧
)

𝜎
(
𝑧
𝑖
)

𝑒
𝑧
𝑖
∑
𝑗

Softmax函数的定义：对于一个样本，假设我们有一个包含𝐶C个类别的分类问题，模型输出的原始分数向量为𝑧

[𝑧1,𝑧2,...,𝑧𝐶]z=[z1​ ,z2​ ,…,zC​ ]。Softmax函数将这个向量转换为一个概率分布𝜎(𝑧)

𝜎(𝑧𝑖)

𝑒𝑧𝑖∑𝑗

Softmax函数的定义：
对于一个样本，假设我们有一个包含
𝐶
C个类别的分类问题，模型输出的原始分数向量为
𝑧

[
𝑧
1
,
𝑧
2
,
.
.
.
,
𝑧
𝐶
]
z=[z
1

,z
2

,…,z
C

]。Softmax函数将这个向量转换为一个概率分布
𝜎
(
𝑧
)

𝜎
(
𝑧
𝑖
)

𝑒
𝑧
𝑖
∑
𝑗