//styles, look here: https://cdnjs.com/libraries/highlight.js/9.12.0

January 31, 2022

815 palavras 4 mins

Concentração do Máximo

Este post é uma continuação do post sobre concentração de medida, e vai ser necessário para um post futuro.

Naquele post eu falei sobre variáveis subgaussianas, para as quais a seguinte desigualdade vale:

P(X>t)et22σ2 P(|X| > t) \leq e^{-\frac{t^2}{2\sigma^2}}

Agora suponha que você tem uma coleção de variáveis aleatórias, todas subgaussianas e não necessariamente independentes. Neste post, nós vamos cotar a probabilidade do máximo delas ser maior que um valor t.

Se você precisa de uma motivação pra isso, eu ofereço duas:

  1. Nós frequentemente trabalhamos com estimadores que minimizam ou maximizam alguma função: mínimos quadrados, máxima verossimelhança. É natural que estes estimadores dependam do máximo de uma variável aleatória
  2. Se você está trabalhando com algum processo aleatório, muitas vezes o máximo pode ser mortal: qual é o máximo que um ativo pode perder se a distribuição dos retornos é subgaussiana, por exemplo?

O próximo post vai ilustrar uma aplicação dessas desigualdades no caso 1. Para o problema em mãos, nós queremos:

P(maxi=1,,nX>t)? P\left(\max_{i=1,\ldots,n} |X| > t\right) \leq \text{?}

A primeira observação é que se o máximo de uma coleção é maior que tt, então pelo menos um dos elementos da coleção é maior que tt (duhhh). Logo, o problema maxi=1,,nX>t\max_{i=1,\ldots,n} |X| > t é equivalente ao problema “pelo menos um dos Xi|X_i| é maior que t”. A gente vai escrever isso como i=1,,nXi>t\bigcup_{i=1,\ldots,n} |X_i| > t.

Qual a vantagem disso? Bom, a seguinte desigualdade vale:

P(i=1,,nXi>t)i=1nP(Xi>t) P\left(\bigcup_{i=1,\ldots,n} |X_i| > t\right) \leq \sum_{i=1}^n P(|X_i| > t)

Eu não vou dar uma prova extremamente formal: se AA e BB são dijuntos - se AA acontece, então BB nunca acontece - então P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B). Isso pode ser estendido pra qualquer união finita de conjuntos. Suponha o caso mais geral, em que AA e BB não são dijuntos. Eu posso escrever:

AB=(ABc)(AcB)(AB) A \cup B = (A\cap B^c) \cup (A^c \cap B) \cup (A \cap B)

O superescrito cc significa o evento complementar. Pelo resto do post, ABAB vai representar ABA \cap B. Veja que ABcA \cap B^c é dijunto de AcBA^c \cap B e os dois são dijuntos de ABA \cap B. Logo, eu escrevi a união de dois conjuntos como a união de dijuntos. Então:

P(AB)=P(ABc)+P(AcB)+P(AB) P(A \cup B) = P(AB^c) + P(A^cB) + P(AB)

Agora, nós podemos escrever A=ABcABA = AB^c \cup AB (A é a união de A interseção B e A interseção não B). Usando o único resultado que nós temos sobre probabilidade:

P(A)=P(AB)+P(ABc)P(ABc)=P(A)P(AB) P(A) = P(AB) + P(AB^c) \therefore P(AB^c) = P(A) - P(AB)

Eu posso fazer a mesma coisa com P(B)P(B), e nós temos:

P(AB)=P(ABc)+P(AcB)+P(AB)=P(A)P(AB)+P(B)P(AB)+P(AB)=P(A)+P(B)P(AB) P(A \cup B) = P(AB^c) + P(A^cB) + P(AB) = P(A) - P(AB) + P(B) - P(AB) + P(AB) = P(A) + P(B) - P(AB)

Agora, probabilidades são sempre não negativas, então:

P(AB)=P(A)+P(B)P(AB)P(A)+P(B) P(A \cup B) = P(A) + P(B) - P(AB) \leq P(A) + P(B)

A nossa desigualdade é só é uma generalização para mais dois eventos.

De volta ao fio da meada, suponha que nós temos uma coleção x1,,xnx_1,\ldots,x_n de variáveis subgaussianas, todas com parâmetro σ\sigma. Usando o meu argumento:

P(maxj=1,,nXj>t)=P(j=1nXj>t)j=1nP(Xj>t) P\left(\max_{j=1,\ldots,n} |X_j| > t\right) = P\left(\bigcup_{j=1}^n |X_j| > t\right) \leq \sum_{j=1}^n P(|X_j| > t)

Agora, use a cota para uma variável subgaussiana:

P(maxj=1,,nXj>t)=P(j=1nXj>t)j=1nP(Xj>t)j=1net22σ2=net22σ2 P\left(\max_{j=1,\ldots,n} |X_j| > t\right) = P\left(\bigcup_{j=1}^n |X_j| > t\right) \leq \sum_{j=1}^n P(|X_j| > t) \leq \sum_{j=1}^ne^{-\frac{t^2}{2\sigma^2}} = ne^{-\frac{t^2}{2\sigma^2}}

Vamos deixar isso mais bonitinho: Faça t=σ(2log(n)+δ)t = \sigma(\sqrt{2\log(n)} + \delta). Então:

t2=σ2(2log(n)+δ)2 t^2 = \sigma^2(\sqrt{2\log(n)} + \delta)^2

Se a,b>0a,b > 0, então (a+b)2a2+b2(a+b)^2 \geq a^2 + b^2. Considere os termos de t: 2log(n)\sqrt{2\log(n)} é positivo e δ\delta é sempre positivo, então:

t2=σ2(2log(n)+δ)2σ2(2log(n)+δ2) t^2 = \sigma^2(\sqrt{2\log(n)} + \delta)^2 \geq \sigma^2(2\log(n) + \delta^2)

Multiplicando por 1-1 a gente inverte a desigualdade, logo:

P(maxj=1,,nXj>σ(2log(n)+δ))nexp(δ222log(n)2)=eδ22 P \left(\max_{j=1,\ldots,n} |X_j| > \sigma(\sqrt{2\log(n)} + \delta) \right) \leq n\exp \left(-\frac{\delta^2}{2} - \frac{2\log(n)}{2}\right) = e^{-\frac{\delta^2}{2}}

Na última igualdade, eu usei que elog(n)=1ne^{-\log(n)} = \frac{1}{n}

O que essas contas todas dizem? Primeiro, mesmo se todas as variáveis tem média zero, o máximo delas não vai estar centrado em zero: a gente ganhou um termo σ2log(n)\sigma\sqrt{2\log(n)}. Esse termo é extremamente benevolente: ele cresce a raiz quadrada do log de n. Isso é bastante lento, como a figura abaixo mostra:

library(ggplot2)
library(latex2exp)
library(tidyr)

n <- 1:50
y <- sqrt(log(n))

df <- data.frame(n = n,y = y, id = n)
df <- pivot_longer(df,cols = c(y,id))

ggplot(df,aes(n,value,color = name)) + geom_abline() + geom_line()  + theme_light() + labs(x = "n", y = "", color = "") + scale_color_discrete(labels = c(id = expression(f(x)==x),y = expression(sqrt(log(n))))) 
R
R

A segunda observação é que as chances do valor do máximo ser muito maior que σ2log(n)\sigma\sqrt{2\log(n)} é muito baixo: a cauda cai com a exponencial do quadrado, ou seja, a mesma velocidade da gaussiana.

Este post é estupidamente abstrato, mas ele vai ser necessário para um post no futuro que é um pouco menos abstrato.