Función de activación

A función de activación dun nodo nunha rede neural artificial é unha función que calcula a saída do nodo baseándose nas súas entradas individuais e os seus pesos. Os problemas non triviais poden ser solucionados utilizando só uns cantos nodos se a función de activación é non linear.^[1] As funcións de activación modernas inclúen a versión suave da ReLU, a GELU, o cal foi utilizado no 2018 modelo BERT, a función loxística (sigmoide) utilizada no modelo de recoñecemento da fala de 2012 desenvolvido por Hinton et al., a ReLU utilizada no modelo de visión por computador AlexNet de 2012 e no modelo ResNet de 2015.^[2]^[3]^[4]

Comparación de funcións de activación

Á parte do seu rendemento empírico, as funcións de activacións tamén teñen propiedades matemáticas diferentes:

Non linear: Cando a función de activación é non linear, pódese probar que unha rede neural de dúas capas pode ser un aproximador universal de funcións.^[5] Isto coñécese como o teorema de aproximación universal. A función de activación identidade non satisfai esta propiedade. Cando múltiples capas utilizan a función de activación identidade, toda a rede é equivalente a un modelo dunha única capa.
Imaxe: Cando a imaxe da función de activación é finita, os métodos de adestramento baseados non descenso do gradiente tenden a ser máis estables, porque as presentacións de patróns afectan de forma significativa só a un número limitado de pesos. Cando a imaxe é infinita, o adestramento é xeralmente máis eficiente porque as presentacións de patróns afectan de forma significativa á maioría dos pesos. No caso último, tipicamente son necesarios taxas de aprendizaxe máis pequenas.
Continuamente diferenciable: Esta propiedade é desexable (ReLU non é continuamente diferenciable e ten algúns problemas coa optimización baseada en gradientes, mais aínda é posible) para os métodos de optimización baseados no gradiente. A función de activación do paso binario non é diferenciable no 0, e a súa derivada é 0 no resto de valores, polo que os métodos baseados no gradiente non poden facer ningún progreso con ela.^[6]

Estas propiedades non inflúen decisivamente no rendemento, nin son as únicas propiedades matemáticas que poden ser útiles. Por exemplo, a imaxe estritamente positiva da función de activación suave positiva faina adecuada para predicir varianzas en auto-codificadores variacionais.

Aspectos matemáticos

As funcións de activación máis comúns poden dividirse en tres categorías: funcións de crista, funcións radiais e funcións de prego.

Unha función de activación $f$ considérase saturante se $\lim_{| v | \to \infty} | \nabla f (v) | = 0$ . É non saturante se $\lim_{| v | \to \infty} | \nabla f (v) | \neq 0$ . As funcións de activación non saturantes, como ReLU, poden ser mellores que as saturantes, porque son menos propensas a sufrir o problema do esvaecemento do gradiente.^[3]

Funcións de activación de crista

As funcións de crista son funcións de varias variables que actúan sobre unha combinación linear das variables de entrada. Algúns exemplos utilizados a miúdo son os seguintes:

Función de activación linear: $ϕ (𝐯) = a + 𝐯^{'} 𝐛$
Función de activación ReLU: $ϕ (𝐯) = \max (0, a + 𝐯^{'} 𝐛)$
Función de activación Heaviside: $ϕ (𝐯) = 1_{a + 𝐯^{'} 𝐛 > 0}$
Función de activación loxística: $ϕ (𝐯) = (1 + \exp (- a - 𝐯^{'} 𝐛))^{- 1}$

En redes neurais inspiradas na bioloxía, a función de activación é normalmente unha abstracción que representa a taxa de impulso de potenciais de acción na célula.^[7] Na súa forma máis sinxela, esta función é binaria, é dicir, ou a neurona está nun impulso ou non. As neuronas tampouco poden facer impulsos máis rápido que un determinado valor, motivando as funcións de activación sigmoides, cuxa imaxe é un intervalo finito.

A función é a seguinte, $ϕ (𝐯) = U (a + 𝐯^{'} 𝐛)$ $U$ , onde $U$ é a función de paso Heaviside.

Se unha liña ten unha pendente positiva, pode reflectir o aumento na taxa de impulsos que ocorre a medida que aumenta a corrente de entrada. Tal función sería da forma $ϕ (𝐯) = a + 𝐯^{'} 𝐛$ .

Funcións de activación de unidade linear rectificada e unidade linear de erro gaussiano.

Funcións de activación radiais

Unha clase especial de funcións de activación son as funcións radiais básicas (RBFs, das súas siglas en inglés), utilizadas en redes de RBF, as cales son extremadamente eficientes como aproximadores universais de funcións. Estas funcións de activación poden tomar moitas formas, pero normalmente atópanse como algunha das funcións seguintes:

Función gaussiana: $ϕ (𝐯) = \exp (- \frac{‖ 𝐯 - 𝐜 ‖^{2}}{2 σ^{2}})$
Función multicadrática: $ϕ (𝐯) = \sqrt{‖ 𝐯 - 𝐜 ‖^{2} + a^{2}}$
Función multicadrática inversa: $ϕ (𝐯) = {(‖ 𝐯 - 𝐜 ‖^{2} + a^{2})}^{- \frac{1}{2}}$
Splines poliharmónicos

Onde $𝐜$ é o vector representando o centro da función e $a$ e $σ$ os parámetros que afectan á dispersión do radio.

Funcións de activación de prego

As funcións de activación de prego son amplamente usadas nas capas de agrupamento nas redes neurais convolucionais e en capas de saída de redes de clasificación multiclases. Estas funcións de activación realizan agregación sobre as entradas, como tomar a media, mínimo ou máximo. En problemas de clasificación multiclase, utilízase con frecuencia a función de activación softmax.

Táboa de funcións de activación

A seguinte táboa compara as propiedades de varias funcións de activación:

Nome	Función, $g (x)$	Derivada de $g$ , $g^{'} (x)$	Rango	Diferenciabilidade
Identidade	$x$	$1$	$(- \infty, \infty)$	$C^{\infty}$
Paso binario	${\begin{matrix} 0 & se x < 0 \\ 1 & se x \geq 0 \end{matrix}$	$0$	${0, 1}$	$C^{- 1}$
Loxística, sigmoide ou paso suave	$σ (x) ≐ \frac{1}{1 + e^{- x}}$	$g (x) (1 - g (x))$	$(0, 1)$	$C^{\infty}$
Tanxente hiperbólica (tanh)	$\tanh (x) ≐ \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}$	$1 - g (x)^{2}$	$(- 1, 1)$	$C^{\infty}$
Tanxente hiperbólica de Soboleva (smht)	$smht (x) ≐ \frac{e^{a x} - e^{- b x}}{e^{c x} + e^{- d x}}$		$(- 1, 1)$	$C^{\infty}$
Unidade linear rectificada (ReLU)	$\begin{matrix} (x)^{+} ≐ & {\begin{matrix} 0 & se x \leq 0 \\ x & se x > 0 \end{matrix} \\ = & \max (0, x) = x 𝟏_{x > 0} \end{matrix}$	${\begin{matrix} 0 & se x < 0 \\ 1 & se x > 0 \end{matrix}$	$[0, \infty)$	$C^{0}$
Unidade linear de erro gaussiano (GELU)	$\begin{matrix} \frac{1}{2} x (1 + erf (\frac{x}{\sqrt{2}})) \\ = & x Φ (x) \end{matrix}$	$Φ (x) + x ϕ (x)$	$(- 0.17 \dots, \infty)$	$C^{\infty}$
Suave positiva^[8]	$\ln (1 + e^{x})$	$\frac{1}{1 + e^{- x}}$	$(0, \infty)$	$C^{\infty}$
Unidade linear exponencial (ELU)	${\begin{matrix} α (e^{x} - 1) & se x \leq 0 \\ x & se x > 0 \end{matrix}$ Con parámetro $α$	${\begin{matrix} α e^{x} & se x < 0 \\ 1 & se x > 0 \end{matrix}$	$(- α, \infty)$	${\begin{matrix} C^{1} & se α = 1 \\ C^{0} & noutro caso \end{matrix}$
Unidade linear exponencial escalada (SELU)^[9]	$λ {\begin{matrix} α (e^{x} - 1) & se x < 0 \\ x & se x \geq 0 \end{matrix}$ Con parámetros $λ = 1.0507$ e $α = 1.67326$	$λ {\begin{matrix} α e^{x} & se x < 0 \\ 1 & se x \geq 0 \end{matrix}$	$(- λ α, \infty)$	$C^{0}$
Unidade linear rectificada con fuga (Leaky ReLU)^[10]	${\begin{matrix} 0.01 x & se x \leq 0 \\ x & se x > 0 \end{matrix}$	${\begin{matrix} 0.01 & se x < 0 \\ 1 & se x > 0 \end{matrix}$	$(- \infty, \infty)$	$C^{0}$
Unidade linear rectificada paramétrica (PReLU)	${\begin{matrix} α x & se x < 0 \\ x & se x \geq 0 \end{matrix}$ Con parámetro $α$	${\begin{matrix} α & se x < 0 \\ 1 & se x \geq 0 \end{matrix}$	$(- \infty, \infty)$	$C^{0}$
Unidade linear sigmoide (SiLU)^[11]	$\frac{x}{1 + e^{- x}}$	$\frac{1 + e^{- x} + x e^{- x}}{{(1 + e^{- x})}^{2}}$	$[- 0.278 \dots, \infty)$	$C^{\infty}$
Gaussiana	$e^{- x^{2}}$	$- 2 x e^{- x^{2}}$	$(0, 1]$	$C^{\infty}$

A seguinte táboa lista funcións de activación que non son funcións dun só prego Modelo:Mvar da capa ou capas anteriores:

Nome	Función, $g_{i} (\vec{x})$	Derivada, $\frac{\partial g_{i} (\vec{x})}{\partial x_{j}}$	Imaxe	Diferenciabilidade
Softmax	$\frac{e^{x_{i}}}{\sum_{j = 1}^{J} e^{x_{j}}}$ , Modelo:Mvar = 1, …, Modelo:Mvar	$g_{i} (\vec{x}) (δ_{i j} - g_{j} (\vec{x}))$ Modelo:Ref	$(0, 1)$	$C^{\infty}$
Maxout^[12]	$\max_{i} x_{i}$	${\begin{matrix} 1 & se j = \underset{i}{argmax} x_{i} \\ 0 & se j \neq \underset{i}{argmax} x_{i} \end{matrix}$	$(- \infty, \infty)$	$C^{0}$

Modelo:Nota Aquí,

δ_{i j}

é a Delta de Kronecker.

Funcións de activación cuánticas

Nas redes neurais cuánticas programadas en computadoras cuánticas de modelo de porta, baseadas en perceptróns cuánticos en lugar de circuítos cuánticos variacionales, a non linearidade da función de activación pódese implementar sen necesidade de medir a saída de cada perceptrón en cada capa. As propiedades cuánticas cargadas dentro do circuíto, como a superposición, poden ser preservadas creando a serie de Taylor do argumento calculado polo propio perceptrón, con circuítos cuánticos axeitados que calculan as potencias ata un grao de aproximación desexado. Debido á flexibilidade de ditos circuítos cuánticos, poden ser deseñados para aproximar calquera función de activación clásica arbitraria.^[13]

Vantaxes e inconvenientes dalgunhas funcións de activación

Sigmoide

Esta función de activación presenta numerosos inconvenientes, tales como que a saída non está centrada no cero (o que deriva en problemas coa actualización de pesos polas direccións do gradiente), que as neuronas saturadas "matan" ao gradiente e que a operación expoñencial é cara computacionalmente.

Tanxente hiperbólica

Neste caso, a tanxente hiperbólica si que está centrada no cero. Malia isto, comparte o resto de desvantaxes coa función sigmoide.

ReLU

Esta función de activación non satura (pois é positiva), é eficiente computacionalmente e ten unha converxencia rápida (ao redor de 6 veces máis rápida que as dúas funcións anteriores). Porén, a saída non está centrada no cero e as neuronas poden morrer (polo que hai que escoller unha taxa de aprendizaxe axeitada, xeralmente baixa).

ReLU con fuga

Nesta función as neuronas non morren e a media das saídas está cerca do cero, alén de ter tódalas vantaxes da ReLU.

Maxout

Nesta función de activación as neuronas tampouco morren, mais o número de parámetros dóbrase.

ELU

Esta función ten tódalas vantaxes da ReLU salvo o seu tempo de cómputo, pois utiliza a aplicación expoñencial, que demora os cálculos.^[14]

Notas

Modelo:Listaref

Véxase tamén

Outros artigos

Modelo:Control de autoridades

[1] Modelo:Cita web

[2] Modelo:Cita publicación periódica

[:0-3] 3,0 ^3,1 Modelo:Cita publicación periódica

[4] Modelo:Cita publicación periódica

[5] Modelo:Cita publicación periódica

[6] Modelo:Cita libro

[7] Modelo:Cita publicación periódica

[8] Modelo:Cita web

[9] Modelo:Cita publicación periódica

[10] Modelo:Cita publicación periódica

[11] Modelo:Cita publicación periódica

[12] Modelo:Cita publicación periódica

[13] Modelo:Cita publicación periódica

[14] Modelo:Cita libro

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Función de activación

Índice

Comparación de funcións de activación

Aspectos matemáticos

Funcións de activación de crista

Funcións de activación radiais

Funcións de activación de prego

Táboa de funcións de activación

Funcións de activación cuánticas

Vantaxes e inconvenientes dalgunhas funcións de activación

Sigmoide

Tanxente hiperbólica

ReLU

ReLU con fuga

Maxout

ELU

Notas

Véxase tamén

Outros artigos

Menú de navegación

Función de activación

Comparación de funcións de activación

Aspectos matemáticos

Funcións de activación de crista

Funcións de activación radiais

Funcións de activación de prego

Táboa de funcións de activación

Funcións de activación cuánticas

Vantaxes e inconvenientes dalgunhas funcións de activación

Sigmoide

Tanxente hiperbólica

ReLU

ReLU con fuga

Maxout

ELU

Notas

Véxase tamén

Outros artigos

Menú de navegación

Procura