Función de activación

De testwiki
Saltar á navegación Saltar á procura
Función de activación loxística.

A función de activación dun nodo nunha rede neural artificial é unha función que calcula a saída do nodo baseándose nas súas entradas individuais e os seus pesos. Os problemas non triviais poden ser solucionados utilizando só uns cantos nodos se a función de activación é non linear.[1] As funcións de activación modernas inclúen a versión suave da ReLU, a GELU, o cal foi utilizado no 2018 modelo BERT, a función loxística (sigmoide) utilizada no modelo de recoñecemento da fala de 2012 desenvolvido por Hinton et al., a ReLU utilizada no modelo de visión por computador AlexNet de 2012 e no modelo ResNet de 2015.[2][3][4]

Comparación de funcións de activación

Á parte do seu rendemento empírico, as funcións de activacións tamén teñen propiedades matemáticas diferentes:

Non linear
Cando a función de activación é non linear, pódese probar que unha rede neural de dúas capas pode ser un aproximador universal de funcións.[5] Isto coñécese como o teorema de aproximación universal. A función de activación identidade non satisfai esta propiedade. Cando múltiples capas utilizan a función de activación identidade, toda a rede é equivalente a un modelo dunha única capa.
Imaxe
Cando a imaxe da función de activación é finita, os métodos de adestramento baseados non descenso do gradiente tenden a ser máis estables, porque as presentacións de patróns afectan de forma significativa só a un número limitado de pesos. Cando a imaxe é infinita, o adestramento é xeralmente máis eficiente porque as presentacións de patróns afectan de forma significativa á maioría dos pesos. No caso último, tipicamente son necesarios taxas de aprendizaxe máis pequenas.
Continuamente diferenciable
Esta propiedade é desexable (ReLU non é continuamente diferenciable e ten algúns problemas coa optimización baseada en gradientes, mais aínda é posible) para os métodos de optimización baseados no gradiente. A función de activación do paso binario non é diferenciable no 0, e a súa derivada é 0 no resto de valores, polo que os métodos baseados no gradiente non poden facer ningún progreso con ela.[6]

Estas propiedades non inflúen decisivamente no rendemento, nin son as únicas propiedades matemáticas que poden ser útiles. Por exemplo, a imaxe estritamente positiva da función de activación suave positiva faina adecuada para predicir varianzas en auto-codificadores variacionais.

Aspectos matemáticos

As funcións de activación máis comúns poden dividirse en tres categorías: funcións de crista, funcións radiais e funcións de prego.

Unha función de activación f considérase saturante se lim|v||f(v)|=0. É non saturante se lim|v||f(v)|0. As funcións de activación non saturantes, como ReLU, poden ser mellores que as saturantes, porque son menos propensas a sufrir o problema do esvaecemento do gradiente.[3]

Funcións de activación de crista

As funcións de crista son funcións de varias variables que actúan sobre unha combinación linear das variables de entrada. Algúns exemplos utilizados a miúdo son os seguintes:

  • Función de activación linear: ϕ(𝐯)=a+𝐯𝐛
  • Función de activación ReLU: ϕ(𝐯)=max(0,a+𝐯𝐛)
  • Función de activación Heaviside: ϕ(𝐯)=1a+𝐯𝐛>0
  • Función de activación loxística: ϕ(𝐯)=(1+exp(a𝐯𝐛))1

En redes neurais inspiradas na bioloxía, a función de activación é normalmente unha abstracción que representa a taxa de impulso de potenciais de acción na célula.[7] Na súa forma máis sinxela, esta función é binaria, é dicir, ou a neurona está nun impulso ou non. As neuronas tampouco poden facer impulsos máis rápido que un determinado valor, motivando as funcións de activación sigmoides, cuxa imaxe é un intervalo finito.

A función é a seguinte, ϕ(𝐯)=U(a+𝐯𝐛)U , onde U é a función de paso Heaviside.

Se unha liña ten unha pendente positiva, pode reflectir o aumento na taxa de impulsos que ocorre a medida que aumenta a corrente de entrada. Tal función sería da forma ϕ(𝐯)=a+𝐯𝐛.

Funcións de activación de unidade linear rectificada e unidade linear de erro gaussiano.

Funcións de activación radiais

Unha clase especial de funcións de activación son as funcións radiais básicas (RBFs, das súas siglas en inglés), utilizadas en redes de RBF, as cales son extremadamente eficientes como aproximadores universais de funcións. Estas funcións de activación poden tomar moitas formas, pero normalmente atópanse como algunha das funcións seguintes:

  • Función gaussiana: ϕ(𝐯)=exp(𝐯𝐜22σ2)
  • Función multicadrática: ϕ(𝐯)=𝐯𝐜2+a2
  • Función multicadrática inversa:ϕ(𝐯)=(𝐯𝐜2+a2)12
  • Splines poliharmónicos

Onde 𝐜 é o vector representando o centro da función e a e σ os parámetros que afectan á dispersión do radio.

Funcións de activación de prego

As funcións de activación de prego son amplamente usadas nas capas de agrupamento nas redes neurais convolucionais e en capas de saída de redes de clasificación multiclases. Estas funcións de activación realizan agregación sobre as entradas, como tomar a media, mínimo ou máximo. En problemas de clasificación multiclase, utilízase con frecuencia a función de activación softmax.

Táboa de funcións de activación

A seguinte táboa compara as propiedades de varias funcións de activación:

Nome Gráfica Función, g(x) Derivada de g, g(x) Rango Diferenciabilidade
Identidade x 1 (,) C
Paso binario {0se x<01se x0 0 {0,1} C1
Loxística, sigmoide ou paso suave σ(x)11+ex g(x)(1g(x)) (0,1) C
Tanxente hiperbólica (tanh) tanh(x)exexex+ex 1g(x)2 (1,1) C
Tanxente hiperbólica de Soboleva (smht) smht(x)eaxebxecx+edx (1,1) C
Unidade linear rectificada (ReLU) (x)+{0se x0xse x>0=max(0,x)=x1x>0 {0se x<01se x>0 [0,) C0
Unidade linear de erro gaussiano (GELU) Visualization of the Gaussian Error Linear Unit (GELU) 12x(1+erf(x2))=xΦ(x) Φ(x)+xϕ(x) (0.17,) C
Suave positiva[8] ln(1+ex) 11+ex (0,) C
Unidade linear exponencial (ELU) {α(ex1)se x0xse x>0
Con parámetro α
{αexse x<01se x>0 (α,) {C1se α=1C0noutro caso
Unidade linear exponencial escalada (SELU)[9] λ{α(ex1)se x<0xse x0
Con parámetros λ=1.0507 e α=1.67326
λ{αexse x<01se x0 (λα,) C0
Unidade linear rectificada con fuga (Leaky ReLU)[10] {0.01xse x0xse x>0 {0.01se x<01se x>0 (,) C0
Unidade linear rectificada paramétrica (PReLU) {αxse x<0xse x0
Con parámetro α
{αse x<01se x0 (,) C0
Unidade linear sigmoide (SiLU)[11] Swish Activation Function x1+ex 1+ex+xex(1+ex)2 [0.278,) C
Gaussiana ex2 2xex2 (0,1] C

A seguinte táboa lista funcións de activación que non son funcións dun só prego Modelo:Mvar da capa ou capas anteriores:

Nome Función, gi(x) Derivada, gi(x)xj Imaxe Diferenciabilidade
Softmax exij=1Jexj , Modelo:Mvar = 1, …, Modelo:Mvar gi(x)(δijgj(x))Modelo:Ref (0,1) C
Maxout[12] maxixi {1se j=argmaxixi0se jargmaxixi (,) C0
Modelo:Nota Aquí, δij é a Delta de Kronecker.

Funcións de activación cuánticas

Nas redes neurais cuánticas programadas en computadoras cuánticas de modelo de porta, baseadas en perceptróns cuánticos en lugar de circuítos cuánticos variacionales, a non linearidade da función de activación pódese implementar sen necesidade de medir a saída de cada perceptrón en cada capa. As propiedades cuánticas cargadas dentro do circuíto, como a superposición, poden ser preservadas creando a serie de Taylor do argumento calculado polo propio perceptrón, con circuítos cuánticos axeitados que calculan as potencias ata un grao de aproximación desexado. Debido á flexibilidade de ditos circuítos cuánticos, poden ser deseñados para aproximar calquera función de activación clásica arbitraria.[13]

Vantaxes e inconvenientes dalgunhas funcións de activación

Sigmoide

Esta función de activación presenta numerosos inconvenientes, tales como que a saída non está centrada no cero (o que deriva en problemas coa actualización de pesos polas direccións do gradiente), que as neuronas saturadas "matan" ao gradiente e que a operación expoñencial é cara computacionalmente.

Tanxente hiperbólica

Neste caso, a tanxente hiperbólica si que está centrada no cero. Malia isto, comparte o resto de desvantaxes coa función sigmoide.

ReLU

Esta función de activación non satura (pois é positiva), é eficiente computacionalmente e ten unha converxencia rápida (ao redor de 6 veces máis rápida que as dúas funcións anteriores). Porén, a saída non está centrada no cero e as neuronas poden morrer (polo que hai que escoller unha taxa de aprendizaxe axeitada, xeralmente baixa).

ReLU con fuga

Nesta función as neuronas non morren e a media das saídas está cerca do cero, alén de ter tódalas vantaxes da ReLU.

Maxout

Nesta función de activación as neuronas tampouco morren, mais o número de parámetros dóbrase.

ELU

Esta función ten tódalas vantaxes da ReLU salvo o seu tempo de cómputo, pois utiliza a aplicación expoñencial, que demora os cálculos.[14]

Notas

Modelo:Listaref

Véxase tamén

Outros artigos

Modelo:Control de autoridades