Hacking the brain by predicting the future and inverting…

WILLIAM SOFTKY: Bem-vindo
ao que vou falar. Estou feliz que tantas pessoas parecem
estar interessadas nele, pelo menos até agora. Curioso, algum de vocês
viu Jeff Hawkins falar? Ele falou aqui há pouco. Certo, alguns. Ele é um cara
com quem trabalhei no Redwood Neuroscience Institute. Ele é mais conhecido por ter
inventado o PalmPilot. E há um certo grau
de sobreposição entre o que estou falando e o que ele fez. Vou ficar muito mais
técnico e matemático. Mas temos muitas
abordagens comuns. Então, algo pode
parecer familiar.

O que me interessa é
como o cérebro funciona. Acho que muitos de nós somos. O cérebro é indiscutivelmente
o mistério mais legal deixado na ciência. É muito atraente porque
cada um de nós tem um e é quem somos e é o que
vivemos. Mas também é um tópico muito mais
acessível do que você imagina. Não depende de
coisas quânticas ou física gravitacional ou qualquer coisa. É macroscópico,
termodinâmico. Está na escala certa
para investigar. É apenas eletroquímico. É um monte de
elementos de circuito, na verdade. É legal se entendermos isso
por causa de quem somos e porque tem tantas
aplicações práticas. Se descobrirmos o que
está acontecendo dentro de nossas cabeças, ou mesmo dentro das cabeças
de ratos ou gatos, estaremos muito longe do
santo graal do aprendizado de máquina real e da robótica,
sendo capaz de conectar todos os sensores e o poder de computação
e os atuadores para poder fazer algo coordenado
e sensato.

Isso é uma coisa muito legal
de se abordar, e acho que estamos prestes a ter a grande
teoria unificada, o e igual a mc ao quadrado dos
algoritmos cerebrais. E quando conseguirmos, acho que será
um algoritmo genérico. Não vai ser uma pequena
peça para visão de cores e uma peça para
visão binocular e uma peça para fala e outra para música
e assim por diante. Vai ser uma única
coisa que cobre tudo isso. Uma espécie de algoritmo genérico,
provavelmente a mãe de todos os algoritmos em termos de
utilidade e impacto. E temos uma prova de existência
porque todos carregamos algo. Somos capazes de aprender
praticamente qualquer coisa. Nós nem mesmo prestamos
muita atenção em como obtemos nossas pistas de nosso sistema visual
ou nosso sistema auditivo ou nosso equilíbrio e assim por diante.

Nós os juntamos perfeitamente
e podemos pilotar aviões de combate e escrever
programas de computador e todos os tipos de outras coisas malucas
que você não imaginaria para um mamífero com um monte de
nervos diretos entrando e um monte de outros
nervos motores saindo. Então tem algo
legal acontecendo. Eu gostaria de falar sobre como
chegamos lá a partir daqui.

Há realmente duas perguntas que as
pessoas tendem a fazer sobre como o cérebro funciona. Uma é uma questão de circuitos
e a outra é uma questão de algoritmos. A parte dos circuitos é de longe
a maneira mais tradicional de fazer neurobiologia teórica, ciência do cérebro, seja o que for. O que é um neurônio? Como os neurônios estão conectados? Como eles conversam
entre si? Como eles enviam
seus sinais? O que um grupo deles faz? E o que acontece dentro de
um neurônio? Qual é o seu cálculo? Canais iônicos, sódio, potássio,
dendritos, segundos mensageiros. Todos os tipos de
coisas eletroquímicas dentro. Todos esses juntos são
a maneira tradicional de abordá-lo. E eu diria que é a maneira errada
de abordá-lo, em grande parte porque os dados são
tão variados, ambíguos, difíceis de interpretar, emaranhados,
desagradáveis ​​e simplesmente não vale a pena construir uma teoria.

É uma coisa interessante. Passei quase toda a minha
carreira acadêmica fazendo isso. Eu descobri algumas coisas muito legais
sobre o que acontece dentro dos neurônios e vou falar até
você se você quiser falar sobre como é difícil
realmente entender o cérebro a partir do nível do circuito. Mas para mim, não é onde
eu quero forçar as coisas. A outra parte são os
algoritmos. É aí que eu acho que coisas interessantes
vão acontecer. E foi aí que passei meus últimos
10 anos, como hacker de algoritmo, programador,
engenheiro de software, arquiteto de software, biofísico, coisas
assim. E essa é a
parte matemática. Não é o que os elementos são,
é que operações matemáticas eles fazem? Como eles representam as coisas? Armazená-los de forma eficiente? Transformar informações? Faça o cálculo? Qual é a
inferência estatística acontecendo? É bayesiano? É quantizado, contínuo,
variedades, métricas, todo esse tipo de coisa. A parte matemática é a
parte que não tem que esperar pelo experimento, não
tem as mesmas ambiguidades do experimento.

E é algo que,
se você acertar, tem aplicação esta tarde,
em vez de daqui a 10 anos. Quero abordar isso mais
como um problema de algoritmo com as três partes– vou falar apenas sobre
uma delas– mas as três partes de como abordar o
cérebro como um algoritmo. Em primeiro lugar, qual é
o espaço do problema? Você não ouve muito sobre
isso, mas se um cérebro vai dar sentido aos dados sensoriais, de
um milhão de pixels chegando ou som chegando com resolução de 10 kilohertz
ou algo assim, tátil de
todo o corpo, propriocepção, qualquer coisa . Se o cérebro vai
entender essas coisas, o que é um padrão? Dizemos que o cérebro cria padrões,
mas um padrão é uma variedade linear, uma variedade não linear
? Que tipo de dimensionalidade
ele tem? Que tipo de continuação
no tempo? Precisamos entender o
espaço de entrada antes de falarmos sobre o que lidar. A segunda pergunta, claro, como
arquiteto de software, é qual é a modularidade disso? Não podemos resolver tudo de uma vez. Temos que quebrá-lo
em pedaços. Então, o que seria um módulo
para um pedaço do cérebro lidar? E qual é a API
entre os módulos? Como você garante que
eles sejam robustos quando conectados, que
tudo seja escalável? Essa é a conexão entre os
módulos, o que é uma boa pergunta.

A peça
sobre a qual falarei hoje é um subconjunto disso. É o que acontece
dentro de um módulo? Você tem um pedaço do
cérebro, este centímetro quadrado de córtex cerebral, digamos. O que ele faz com
suas entradas? Que dicas ele tem
para fazer a inferência? Quais serão suas saídas
? Como pode juntá-los,
generalizar adequadamente, esse tipo de coisa. É aí que eu quero entrar em
alguns detalhes excruciantes, ou pelo menos hackdom, hoje. Mas antes de chegar lá, uma
coisa sobre o método que distingue essa abordagem
de muitas abordagens acadêmicas, embora eu esteja
falando disso como um problema matemático, não acho que
a resposta seja um punhado de equações em um
artigo em algum lugar . Não acho que a resposta seja
algum tipo de arquitetura que se pareça com o cérebro ou
algum conjunto de saídas que se pareça com o funcionamento do cérebro.

Eu não acho que parece
é suficiente. Eu acho que a resposta é mais como
algo que funciona. Precisamos construir um sistema que
funcione, que faça algo perceptualmente adequado,
que generalize da maneira certa. E então teremos um palpite de que
estamos no caminho certo, porque a natureza não pode nos deixar
fazer isso a menos que estejamos fazendo algo certo. E, claro, teremos
um produto funcional, seja lá o que isso signifique. Mas, para chegar lá
nesse tipo de mãe desagradável de todos os algoritmos, é necessário
entender algo sobre o desenvolvimento de algoritmos. Algoritmos são hackeados,
são complicados, evoluem, iteram. Eles não saem simplesmente
nascidos inteiros na página. Há um processo envolvido,
um processo que às vezes envolve código aberto,
envolve trabalho em equipe, benchmarks, revisões
e assim por diante. Eu não deveria estar dizendo
isso para você. O Google tem indiscutivelmente o algoritmo
mais sofisticado e valioso do mundo.

E você sabe como desenvolvê-
lo e sabe que é mais do que apenas classificação de página agora. Não sei quanto
mais, mas sei que é mais do que isso. E envolve questões de
classificação, dimensionamento, agrupamento, acesso a dados
, representação e armazenamento. Fazer algo funcionar envolve
muitas questões de engenharia , todas
teoricamente interessantes. E esse é o aspecto do
desenvolvimento do algoritmo cerebral que eu sei que estava à espreita em
segundo plano, embora eu só possa falar sobre uma pequena
parte dele agora. Onde estamos neste processo
é, acho, em 1903. Ainda não temos aviões. E não estou interessado em
escrever um artigo de jornal sobre a teoria dos aviões. Estou interessado em ir para as
dunas de areia da Carolina do Norte e construir uma. Eu acho que depois que você
constrói algo que sai do papel, por mais mal que seja,
todo mundo pode se juntar ao time e torná-lo melhor. Mas o que precisamos é de uma
implementação de referência.

Não precisamos de uma teoria,
na verdade. Então, tentarei abrir caminho
através de um pequeno pedaço disso e talvez convencê-lo de
que, mesmo que esse truque em particular não seja muito bom,
talvez esteja no caminho certo. Há muitas outras pessoas
que fizeram partes disso. Eu não vou entrar neles. Laurenz Wiskott fez um grande
pedaço sobre o qual falarei, pessoas como Geoff Hinton
fizeram um trabalho incrível neste campo e com muitos desses
módulos hierárquicos ao longo do tempo. Rao e Ballard fizeram parte
do trabalho de previsão temporal, que construíram
sobre algo que eu não fiz. Estou construindo sobre coisas que eles
não fizeram, e assim por diante. Não vou entrar em nomes
, só quero ver se podemos nos concentrar no
conteúdo por enquanto.

Então deixe-me ver se consigo
fazer isso funcionar. Vamos começar com algumas
observações simples. Eu gostaria apenas de afirmar
no nível de ratos, gatos e pessoas que todos os
córtex são iguais. Este córtex é a
parte externa do cérebro aqui. Acontece que cada
pedaço parece o mesmo. Um camundongo parece um pouco diferente
do humano, mas a parte do ser humano que faz a
consciência corporal parece a mesma que faz a visão, ou
memória verbal, ou ação, planejamento emocional,
reconhecimento de fala. É tudo o mesmo circuito. E eles estão conectados de
uma forma razoavelmente comum, hierarquicamente. Algumas partes são meio
que de baixo nível. Eles lidam com as
entradas sensoriais brutas. Olhos, ouvidos e assim por diante. Outras camadas costuram
algumas delas. Os que estão no topo são uma espécie
de córtex frontal, a parte que afirmamos fazer o
pensamento e o planejamento.

Eles estão realmente
conectados dessa maneira. Esses caras falam uns com os outros
de maneira estereotipada, assim como têm uma
estrutura interna estereotipada. A outra generalização que
farei é essencialmente que toda essa parte do cérebro,
todo o córtex, aprende do zero. Agora, é claro que você sabe, os bebês
começam sem coordenação, não
entendem a fala e não conseguem entender muito o
que está ao seu redor.

Mas há algumas outras indicações
ainda mais poderosas . Uma delas é que em alguém cuja
visão desapareceu desde o nascimento, eles têm esse pedaço do
cérebro, o córtex occipital, que normalmente, na maioria
de nós, faz a visão. Bem, está adormecido. Essas pobres pessoas não
têm visão. Bem, o que isso faz? Acaba fazendo
outra coisa. Não só trata de
acústica, como acaba lidando com um alto nível
de abstração. Faz memória verbal em vez
de visão de baixo nível. Mesmo circuito, completamente
reaproveitado. Da mesma forma, ou talvez ao contrário,
se você encontrar alguma pobre alma que, ao nascer,
não tem o lobo temporal esquerdo que geralmente fala,
eles falarão. Alguma outra parte do cérebro
assumirá essa tarefa. Então eles estão perdendo 10% de seu
tecido, talvez eles sejam 10% piores
em tudo. Mas parece uma substância altamente maleável e
inespecífica , seja lá o
que esses pedaços de córtex cerebral fazem. Então deixe-me condensar isso em uma
espécie de desenho animado, e então farei desenhos dentro de
desenhos animados.

O cartoon aqui é uma hierarquia
na qual, no nível inferior, você tem um
fluxo de entrada dimensional muito alto que muda
rapidamente. Cada uma dessas coisas, pense
nisso como um pixel, mas também pode ser
das orelhas. Está mudando muito rápido. Nenhum
deles é constante, mesmo todos juntos não são
constantes, ou mesmo lentos. Portanto, é alta
largura de banda e dimensional alta. E cada um desses módulos que estou
desenhando nesta facção pega um monte de
material de alta dimensão, meio que o comprime em uma
dimensão menor, e agora você costura a primeira linha e
obtém outro sinal de alta dimensão, que
talvez tem correlações e estrutura nele.

Isso agora é reunido
pelo mesmo tipo de algoritmo. Então você basicamente comprime seus
dados em uma hierarquia até o topo, você
tem algo que é, em princípio, menos estruturado,
mais independente, mais representativo do
mundo exterior e uma espécie de abstração. Você está pensando em um cachorro ou um
carro em vez do pixel 27, e é algo um
pouco mais persistente. O Pixel 27 pode ligar ou desligar, mas,
presumivelmente, o cachorro fica parado por alguns segundos. Então você está basicamente encontrando
coisas que são invariantes no espaço e no tempo.

E esse é o propósito
de tudo. E envia sinais de volta. Então, desenhei setas
em ambas as direções. Então, se você tem alguma ideia de
Bayesian antes sobre que tipo de coisa um módulo vai
esperar, esse módulo pode aceitar isso e talvez expandi-
lo para uma representação mais particular e
expandi-lo para baixo. Então você tem uma espécie de
árvore de crença bayesiana aqui, exceto que ela está correndo no
tempo e está tendo que aprender muito de suas próprias coisas. Mas esta é uma espécie de
visão abrangente de um cérebro sensorial. Estou deixando completamente
de lado o movimento motor. Estou até deixando de lado a
noção de detecção de surpresa, a novidade, só para fazer o
andaime onde podemos começar a fazer alguma coisa. Essas outras coisas importam, mas
acho que podemos fazer algo sem fazer isso primeiro.

Hoje, quero falar sobre
apenas uma parte disso. O que há dentro de um
único desses módulos? Agora, estou chamando isso de minha própria notação. Estou chamando de compressor. Ele comprime os dados. Ele pega algo como pixels
na parte inferior e coloca algo como um JPEG
na parte superior. Ou pega streaming de pixel
e lança MPEG-4. Ou recebe áudio
e reproduz MP3. O truque é que ele precisa
aprender sozinho. Você nem consegue dizer
se será um gravador de MP3 ou um
codificador de MPEG-4. Ele tem que olhar para seus
fluxos de entrada, descobrir quais são os padrões, descobrir como
representá-los, fazer a abstração– a representação comprimida. E no processo, ele precisa
ser capaz de retroceder, pegar a versão comprimida
e reinflá-la em algo que faça
sentido no nível de pixel de alta dimensão. E essa última parte, essa
parte azul, é sobre o que estou falando hoje.

Portanto, as questões são, antes de
mais nada, permitir que os pixels sejam um substituto para qualquer
sinal sensorial de alta dimensão, como você transforma os pixels em
abstrações? Como você faz isso? Em segundo lugar, como você aprende a fazer
sem que ninguém diga o que você deve fazer? E o mais importante, como
você pode pegar essa versão comprimida e reativá-la
sem supervisão? Então deixe-me começar com uma
técnica que foi publicada alguns anos atrás. Eu acho que é brilhante. Eu não o inventei e não
vou contar como funciona. Apenas aceite minha palavra de que
funciona. É chamada de análise lenta de características
, e o que ela faz é olhar para um monte de diferentes
sinais de alta dimensão e flutuação rápida,
como pixels em uma imagem, e olha no espaço de todos os
polinômios de segunda ordem desses, e tenta encontre aquelas
funções polinomiais que mudam lentamente.

Então, se seus pixels estão fazendo
isso, ele tenta encontrar um polinômio que faça isso. Envolve análise de componentes principais
, redução de variância, autovetores mínimos e coisas assim. Posso entrar mais tarde, se
você realmente quiser. Apenas confie que funciona
porque é tudo o que realmente precisamos. Ele encontra um punhado de
polinômios legais como uma função de um espaço de entrada dimensional muito maior
.

E esses polinômios tendem a
ser mais constantes ao longo do tempo do que as
entradas flutuantes individualmente. Então é com isso que estamos
começando. Vamos supor que isso
já funcionou. Essas são as funções s. O problema é– e este é
um problema muito profundo. Em última análise, um dos problemas mais difíceis
neste ramo da ciência do cérebro. Você não pode inverter isso. Primeiro de tudo, é um monte
de polinômios arbitrários. Você não pode simplesmente
inverter esses polinômios com inúmeras funções. Em segundo lugar, é mal colocado. Você tem uma função
de 100 entradas. Você não pode determinar cada um
desses 100 números a partir desse número. Isso é impossível.

E, no entanto, precisamos fazê-lo. Toda essa hierarquia da qual estou falando
exige que invertamos o invertível. Passamos de um sinal de baixa dimensão
e criamos um de alta dimensão em geral,
o sentido genérico. Como vamos fazer isso? Nós hackeamos, ou pelo menos eu hackeei. Você pode fazer as contas. Vou ligar junto. Farei isso com um
mapa separado. Em vez de tentar pegar o
polinômio real e reduzi-lo matematicamente, o que
não sei como fazer– não sou bom com
polinômios– vou juntar um
monte de pistas diferentes, truques e macetes e o que for
Posso montar de alguma forma para tentar fazer funcionar da melhor maneira.

Conseguir algo que funcione
agora é melhor do que ter uma grande ideia daqui a 10 anos. Portanto, quero listar basicamente
seis truques diferentes ou seis pistas diferentes. Cada pista inspira um pequeno
truque, e você os junta e parece funcionar. Não é uma prova. Eu só testei em
um tipo de conjunto de dados. Para começar, era um conjunto de dados de brinquedo
, mas isso é tudo o que consegui. Talvez você possa melhorar
isso para mim. Isso é estranho. Isso é muito estranho, porque eu
não vejo a outra parte do– oh, OK. Acho que sei o que está
acontecendo. Vou começar com um
exemplo bem simples, que é apenas um caso bidimensional. Então, ilustrei 100 pixels
subindo para 10 dimensões. Não consigo representar 100 por 10. Não consigo representar 1.000
dimensões. Vou fazer o
mínimo absoluto, que é um espaço de entrada bidimensional,
representando graficamente até uma dimensão de saída, porque
mal consigo encaixar três dimensões em um slide.

Espero que você possa me conceder a
licença literária para isso, porque assim, pelo menos consigo
fazer desenhos e torná- los compreensíveis, mesmo
que não esteja nem perto da complexidade do
problema real. Então vamos supor que temos
este espaço de entrada bidimensional , e temos algo que
se aproxima de um movimento unidimensional nele. Algum pequeno pixel está vagando,
ou a pequena imagem da lanterna de alguém está
vagando nestes dois– não é nem mesmo uma matriz de pixels.

São apenas duas dimensões, e
você tem algo que está andando aproximadamente em
um círculo. E essa é a nossa entrada e queremos
aprender como descobrir onde está a entrada, como a
entrada está mudando, como prever o que vai
acontecer a seguir. Basicamente, queremos fazer uma
previsão e, então, outra pessoa pode usar uma previsão. Vamos apenas tentar
descobrir como aprender o padrão e como prever
o padrão. Portanto, é um gráfico de duas
dimensões para uma dimensão. Então aqui estamos nós. Encontrou-o, de acordo
com esta receita que outra pessoa inventou. Ele descobriu uma espécie de
contorno e descobriu que existe essa função que você e
eu sabemos que é x ao quadrado mais y ao quadrado, ou x1 ao quadrado
mais x2 ao quadrado. E essa função
é quase constante. Portanto, mesmo que x e y estejam se
debatendo, x ao quadrado mais y ao quadrado está
em um círculo. Isso é bom. Isso é o que
deveria fazer. Então, o que temos neste ponto
é que temos o mapa de duas dimensões para uma.

Temos o mapeamento avançado. Não temos o
mapeamento reverso. Não sabemos como encontrar x e
y dados x ao quadrado mais y ao quadrado, e é isso que
queremos. Então, em poucas palavras,
é isso que estou tentando resolver. Portanto, tenho seis
truques diferentes, algumas pistas sobre o que temos e como usá-los. E deixe-me passar
por eles. Então a primeira pista. Os dados de entrada que temos não estão
preenchendo todos os valores possíveis. Está no que chamaremos
de variedade, um subespaço localmente de baixa dimensão. Neste caso, vamos chamá-lo de
aproximadamente um círculo. Portanto, a maioria dos pontos de dados possíveis
não são usados. Esta é uma boa notícia. Podemos usar isso. Portanto, a maneira de usar isso é
encontrar uma maneira de representá-los. Agora, sabemos que é um
círculo, mas, em geral, pode não ser um círculo.

Pode ser um pretzel, pode
ser uma linha ou um triângulo ou qualquer outra coisa. Como não podemos designar a
forma, tudo o que sabemos é que é algo de baixa dimensão. Vamos pegar um monte de
pontos de amostra, os vermelhos que vou chamar de pontos de ancoragem,
e colocá-los ao redor. Pense neles como
centros de agrupamento. Vamos fazer uma
análise de cluster no espaço de entrada, soltar um monte de clusters. Acontece que eu gosto
de k-medoids.

É melhor que k-means, deixa
de fora os outliers melhor. Assim, encontramos alguns centros de agrupamento
no espaço de entrada e é aí que vamos
focar nossa atenção. OK, este foi o primeiro truque. Segundo truque, como
o primeiro truque. Você percebe que na
região de qualquer um desses centros de cluster, os dados são
0-dimensionais, o que significa que não é um determinado nevoeiro em todas as
dimensões em torno desse centro de cluster, mas é estendido
em um– neste caso, uma dimensão, idealmente apenas alguns. Então, como representamos isso? Eu pegaria a
matriz de covariância– os vetores de autovetores da matriz de covariância
dos dados sobre o centro do cluster e observaria
que ele é esticado de uma maneira específica. Vou escrever esses
autovetores em algum lugar, e isso nos ajudará a nos lembrar
de que maneira os dados são orientados sobre cada
centro de cluster. Portanto, agora temos uma
representação razoável da dimensionalidade localmente baixa
de nossa entrada.

Estamos chegando lá. Pista número três. Nós temos a função suave. É neste caso, um
polinômio de segunda ordem, mas não é uma função realmente enrugada. O bom das
funções suaves é que elas são localmente lineares. Portanto, em torno de qualquer um desses
centros de agrupamento, podemos fazer um trabalho razoavelmente bom de
aproximação da função dizendo que é linear. Série Taylor. Então é isso que faremos. Sobre cada uma dessas coisas,
veremos o polinômio, encontraremos os
gradientes sobre quantas dimensões ele tiver e
os anotaremos. Então teremos– Vou s sub l. Será a
aproximação linear sobre o centro do aglomerado. Então estamos chegando lá. Portanto, não apenas sabemos onde nos
preocupamos com os dados, mas também sabemos algo genérico sobre a
função na vizinhança de cada um desses pontos. No meio do caminho. Passamos da pista três
até a seis. Vamos para quatro. Bem, ainda não podemos ir para quatro. A boa notícia é que temos
essa função linear localmente, e as funções lineares
podem ser invertidas.

O polinômio do qual estávamos
falando não pode. Isso é péssimo. E se fosse uma
função arbitrária, isso também não pode. Mas funções lineares, sim. Você pode inverter aqueles. É apenas uma matriz. Bem, pseudo-inverta de qualquer maneira,
já que está indo de uma dimensão baixa para uma dimensão alta. Então, quando você pseudo-inverte,
você basicamente obtém o melhor palpite do inverso linear
para uma restrição de norma. O problema aqui– é uma boa notícia, uma
má notícia.

A má notícia é que, quando você
obtém esse pseudo-inverso, ele realmente informa um ponto
na variedade de alta dimensão , ou no
espaço de alta dimensão, que resolve essa equação ou resolve
essa equação inversa. Ele não diz a você
um ponto no coletor com o qual você se importa. Lembre-se, esta função linear
não sabe sobre o fato de que estes pequenos pontos estão
nesta pequena faixa através do ponto vermelho. A função linear apenas tenta
pseudo-inverter e, portanto, apontará para algum lugar
ao lado. Não vai colocar um ponto de
volta onde você quer. E então temos que fazer
um hack em torno disso. Então é aqui que usamos a
matriz de covariância. E se alguém for realmente inteligente,
pode descobrir como isso é um truque e não
a coisa matematicamente perfeita a se fazer. Mas eu não vou te contar. O truque é que temos a
matriz de covariância que nos diz como o manifold é
esticado, onde os dados realmente estão na vizinhança daquele ponto vermelho.

E então o truque aqui é primeiro,
você obtém o que a decomposição de valor singular lhe diz. Você obtém o pseudo-inverso, então
agora está em algum lugar no espaço de dados original e
usa essa matriz de covariância para esticá-lo. Então, se o inverso linear
lhe der aquela pequena linha verde horizontal à esquerda,
você a estica e ela se tornará muito mais
parecida com a linha diagonal verde à direita. Não é perfeito, mas é um
bom trabalho e é numericamente bastante estável. Portanto, esta é uma maneira de obter pelo menos
aproximadamente seu ponto de volta no coletor de que
você gosta. Agora, obviamente, você tem que
colocar um termo de normalização aqui para que não
fique muito longe. Mas isso não é muito difícil. Então agora temos uma maneira de
realmente começar com a coisa de baixa dimensão e
voltar para baixo.

Isso é bom. Quase, há uma
coisa que deixei de fora. Outra boa notícia, má notícia. A boa notícia é que o truque que
acabei de explicar funciona, de pegar a função linear local
, voltar ao coletor e esticá-lo. Tudo isso funciona se você
souber em qual ponto está começando. Mas nós não. Nós apenas sabemos o quão alto
estamos naquele lençol. Temos, neste caso, uma
dimensão de entrada. Sabemos que estamos neste
espaço unidimensional. Queremos entrar no
espaço bidimensional. Existem muitos
pontos diferentes nesse espaço unidimensional, e muitos deles compartilham
o mesmo valor, embora estejam distantes. Você pode imaginar, como abaixo,
talvez todos os três encaixotados em pontos de ancoragem
compartilhem a mesma elevação nesta colina. Eles compartilham o mesmo valor
do número com o qual estamos começando.

Como saber
qual escolher? Isto é um grande problema. É aqui que se torna um
problema mal colocado porque pode haver muitos desses pontos. E você tem que escolher de alguma forma com
qual desses pontos vermelhos começar se tiver alguma esperança
de chegar ao bairro certo quando
estiver voltando. Então aqui está uma pista. Bem, primeiro, uma reafirmação
do problema. Certamente precisamos de um desses
pontos de ancoragem vermelhos que compartilhem os números de baixa dimensão corretos
.

Tem que ter a
altura certa nisso. Então estamos começando com isso. Portanto, isso é necessário, mas
não suficiente. Mas de alguma forma precisamos de algo para
quebrar o impasse, para desempatar se houver muitos
desses candidatos. Precisamos de uma dica de
quais usar. E a boa notícia é que estamos
lidando com algum tipo de espaço de entrada que deve
ser contínuo, o que significa qualquer
ponto vermelho aproximadamente– significa que qualquer ponto vermelho que usamos da última
vez provavelmente está próximo do ponto vermelho que estamos vai
usar esse tempo. Pode não ser o mesmo, mas
não vai ser do outro lado do círculo.

Então temos duas
dicas complementares. Um que lhe diz a que altura o
ponto vermelho deve estar, e o outro lhe diz onde
ele deve estar e em que vizinhança ele deve
estar no espaço x y. Portanto, embora nenhum
deles sozinho seja suficiente, eles são pelo menos meio que
ortogonais, não são a mesma coisa. Talvez possamos combinar essas
dicas, fazer uma abordagem do melhor dos dois mundos, um
compromisso, e talvez isso restrinja qual
desses pontos vermelhos começar e, portanto, qual função linear
inverter e assim por diante. Oh sim. AUDIÊNCIA: Então [INAUDÍVEL] difícil
compreensão. Se você tivesse uma função circular perfeita
e estivesse resolvendo esse problema,
não seria capaz de usar set, certo? Porque [INAUDÍVEL] WILLIAM SOFTKY: Um
dos problemas– OK, aqui está uma digressão, muito
boa, sobre um dos problemas com esse método
de análise– estou pegando emprestado essa coisa chamada
análise lenta de recursos, que procura mudando rapidamente as
coisas e encontra algumas funções constantes, ou não constantes,
algumas mudando menos rapidamente .

Agora, essa é uma ideia muito boa,
porque, a longo prazo, você quer se afastar das coisas
que estão mudando rapidamente e encontrar coisas sobre o mundo
que são mais constantes. Mas na versão extrema, você
não quer encontrar algo que seja tão constante que não
tenha nenhuma informação. Então isso não é, eu diria, nem
mesmo uma falha de sua abordagem. É uma falha em nossa
compreensão do que estamos tentando realizar aqui. Você realmente não quer encontrar
coisas que não tenham nenhum conteúdo de informação,
você quer encontrar coisas que tenham um pouco de
conteúdo de informação que seja realmente útil, como
isso é um cachorro ou não? Isso vai me comer ou não? Mas não algo que se debate
minuto a minuto.

Essa é uma pergunta extremamente profunda
e, por ser uma pergunta profunda, não posso respondê-la
com uma resposta algorítmica. É por isso que eu disse no
começo, vamos supor que essa coisa seja aproximadamente
um círculo. Estou literalmente tentando
contornar a questão extremamente profunda do que constitui
uma invariância útil. Qual é a enorme diferença
entre mudar lentamente e não mudar nada.

E estou apenas tentando dar um
exemplo que ilustra um processo aqui. Se você está lidando com
pixels reais, não há problema. Nada no mundo real
será tão constante para você. OK, então isso responde a
sua pergunta? Isso é bom o suficiente? Sinta-se livre para acompanhá-
lo mais tarde. Há muitas
questões profundas enterradas nisso. OK. Um par de viagem de pista final que
não é essencial para resolver o problema, mas é muito útil
para avaliar sua solução, é que você ainda tem uma
noção de onde os dados deveriam estar e você tem
um ponto de dados putativo. E você pode dizer se está fazendo
um bom trabalho, em parte, se o ponto de dados que você obtém
uma– dessas estrelas verdes– se esse ponto de dados
está próximo dos pontos que você obteve
historicamente.

E uma maneira de fazer isso é
pegar essas matrizes de covariância que dizem, grosso
modo, onde os dados estão próximos dos círculos vermelhos
e usá-los para criar
hiperelipsoides Gaussianos, que é basicamente uma maneira de criar pequenas
nuvens de probabilidade. E agora, você pode dizer se o
ponto que acabou de obter, o que você está reivindicando, é sua
previsão do futuro, se esse ponto está de fato dentro
de uma dessas pequenas zonas de probabilidade ou não. Portanto, é uma maneira de obter
um tipo de número de probabilidade como uma verificação de sanidade. Na pior das hipóteses, você pelo menos
sabe que é péssimo. Chupar não é tão ruim
se você sabe que chupa. O pior é se você é péssimo
e não sabe que é péssimo. Portanto, isso é meio caminho
andado e ajuda a corrigir o problema. Então aqui, deixe-me passar
por tudo isso, todos esses
passos aqui como uma espécie de lembrete de desenho animado.

E então posso mostrar um
caso de teste muito simples. Então, o que queremos é
encontrar a estrela verde. Temos um histórico dos
últimos pontos pretos azuis. Eles parecem estar se movendo
em algum padrão. Queremos saber onde eles
estarão a seguir. Quer t mais 1, que
ainda não vimos. Então, a primeira coisa que você faz é
encontrar esse recurso lento, esse polinômio invariante ou
quase invariante dos x's. E agora você o converteu
de uma coisa bidimensional que muda rapidamente para uma
coisa unidimensional que você espera que mude menos rapidamente em
função do tempo. Agora, nesse espaço de baixa dimensão
, você extrapola. Então, porque é suave, você apenas
espera poder fazer algum tipo de
extrapolação linear e adivinhar que meu novo valor dessa coisa invariante
estará aqui. Essa é a estrela verde
no número dois, aquela que você espera obter.

Agora, você examina todos os seus
pontos de ancoragem naquele espaço e descobre quais
estão próximos disso. Aqui embaixo, todas
as linhas pontilhadas são todos os diferentes valores que você poderia
ter. Você sabe o único valor que deseja, então olha
para as coisas cujos valores estão próximos disso. E acabei de
enumerar os candidatos 1, 16, 3 e 7. Então, de talvez 20
pontos de ancoragem, esses são os que estão próximos naquele espaço. Então, apenas anote
esses números inteiros.

Agora, você volta para o espaço
abaixo, o espaço de alta dimensão , e tomando seu
ponto mais recente como uma dica, agora você procura os
outros pontos de ancoragem que estão próximos a ele. Então essa é a
parte complementar. Você está olhando para a proximidade
no espaço de entrada, em vez da proximidade no espaço de saída. Você tem uma
lista diferente de candidatos. Deixe-me enumerá-los,
8, 3, 5 e 17. Então agora você tem duas listas
entre chaves. Esta lista do espaço de entrada
e a outra lista do espaço de saída, que
tenho na tabela. Aqueles em que o espaço de saída
à esquerda era 1, 16, 3 e 6. E no espaço de entrada,
8, 3, 5 e 17. E você faz algum tipo de melhor
compromisso e diz adivinhe , três está em ambas as listas. Exatamente como você faz isso
é apenas outro truque. Eu até esqueci como
fiz isso. Acho que acabei de fazer algo em
que não tanto a soma deles é a mesma, mas é
como se a soma ao quadrado fosse mínima ou algo assim.

Então você basicamente tenta
encontrar coisas que estão no topo de ambas as listas. E a primeira coisa que está no
topo das duas listas vence. Então você leva os dois em
consideração de alguma forma. Agora você tem um ponto de ancoragem. Agora você sabe qual círculo vermelho
e está tudo em casa a partir daí. Então você usa aquele
círculo vermelho em particular. Então você tem agora algum
ponto de entrada que está perto do círculo vermelho, mas não nele. Ou não, você não tem
o ponto de entrada. Você tem entradas históricas. Mas você tem aquela coisa, você tenta
descobrir a que distância do círculo vermelho você está
no espaço de saída. Você o projeta de volta com
o pseudo inverso. Você o projeta de volta e agora
o estica ao longo do coletor, de modo que agora é presumivelmente
onde você sempre viu seus dados. E então você pega aquele
pedaço esticado e o prende onde
está o ponto vermelho, então agora está esticado em relação
ao ponto vermelho.

Isso é
basicamente toda a série de Taylor. Agora estamos de volta ao nosso espaço de entrada
, exceto que agora temos uma previsão de um novo ponto que
nunca vimos antes. Achamos que é aqui que vai se
basear historicamente onde vimos
os pontos, qual foi nossa extrapolação de tendência recente
e todas essas coisas pseudo-inversas. É basicamente isso. Isso é o que temos feito. E gostaria de poder dizer que
testei isso em imagens de vídeo em tempo real ou algo assim. Mas essa pesquisa, eu estava trabalhando
em um instituto que fechou e esse problema de pesquisa
chegou a esse ponto quando o instituto
fechou. Então, tem ficado
em êxtase nos últimos meses.

Mas deixe-me mostrar o quanto
pude provar, pelo menos para minha satisfação, de que o
conceito parece funcionar. Há duas partes para o teste.
A primeira é testar a parte que não fiz,
que é a análise lenta de recursos. Esse sistema para encontrar
padrões estáveis ​​em uma linha instável de entradas
realmente realiza algo sensato? O que significa que precisamos começar
com um espaço de entrada que seja simples o suficiente para
sabermos se faz sentido. Se eu estava fazendo imagens em tempo real,
não sabemos qual é a resposta, então é
difícil verificar. Eu quero algo melhor
do que isso. Eu quero saber qual
é a resposta. Então é de novo, um
espaço absurdamente simples e muito bom para ilustração. A segunda parte, depois de provar
que aprendi o mapa ascendente corretamente, é ver se
o mapa descendente é realmente um bom método
de previsão.

E minha resposta é que
é 95% bom. Então deixe-me mostrar-lhe isso. A primeira parte, olhe
primeiro para baixo naquele tipo de linhas pretas. O espaço de entrada é
20 dimensional. Razoavelmente alto, mais do que
os dois que mostrei. E tudo o que temos ali são
borrões, um pequeno borrão gaussiano movendo-se lateralmente com
condições de contorno circulares. Então ele sai aqui e
aparece aqui e vai girando e girando e
girando em uma direção. E assim continua se
movendo de lado. Acho que é um terço de
pixel por passo. E há três
larguras diferentes. Portanto, existem três
padrões diferentes. Podemos ter um gaussiano estreito,
um gaussiano médio ou um gaussiano largo. Assim como Cachinhos Dourados e
os Três Ursos. Você só tem grande, médio e
pequeno, e eles continuam girando por aqui.

Este é um problema verdadeiramente bidimensional
. Embora tenhamos 20
dimensões de entrada da retina, os únicos parâmetros subjacentes que
geram isso são onde está– essa é uma dimensão,
lado a lado– e sua largura. Portanto, a verdadeira
dimensionalidade intrínseca do espaço do problema é de duas dimensões, e
quero que meu sistema descubra essa bidimensionalidade. E se isso acontecer, estou
confiante de que o sistema avançado funcionou e posso me preocupar
em invertê-lo. Então vamos ver como foi. Esses dois gráficos são as duas
principais dimensões que encontrou, os dois principais polinômios que
encontrou. O de cima parece
corresponder a quê? Porque eu estava executando essa coisa
várias vezes e mudei a largura
do gaussiano. E o parâmetro superior tem três
valores discretos para as três larguras discretas
de Gaussian que encontrei. Agora, este parâmetro superior é um
polinômio de 20 entradas. Então ele tem 20 entradas e é
um polinômio de segunda ordem. Não sei quais
são os coeficientes disso, mas existem cerca de 400 deles. Portanto, não é uma
coisinha insignificante, é na verdade uma função grande e feia.

Mas qualquer que seja esse polinômio,
ele parece ser razoavelmente constante em três
valores razoavelmente diferentes para as três larguras diferentes
do gaussiano. Então, em certo sentido,
descobriu tanto quanto você poderia esperar sobre a
natureza intrínseca da amplitude. Acontece que variei a largura,
não contei, descobri. O gráfico inferior parece ter
descoberto a outra coisa que muda lentamente, e essa
é a posição desse borrão gaussiano em movimento. A propósito, os pontos vermelhos
são os dados do polinômio. Os pontos verdes são a
função geradora. Então, no gráfico superior, as três
funções degrau de verde são o parâmetro gerador que dei
em largura gaussiana, que acho que foram cerca de
50% de desconto cada. Não dimensionei direito,
desculpe. Então você pode dizer que no
gráfico superior, o onde ou o quê, as larguras de borrão gaussianas
em vermelho que estão saltando ou pelo menos mudando ao
mesmo tempo que a largura real do gaussiano,
dada em verde. O inferior, a
posição real é novamente dada em verde, mas agora é o
padrão de dente de serra.

E o polinômio descobriu
algo que é uma correspondência de um para um com o
padrão dente de serra, que é uma onda senoidal. Você
realmente não esperaria que um polinômio tivesse um dente de serra. É difícil obter polinômios
que mudam descontinuamente assim. Então, estou muito feliz com a
onda senoidal porque a onda senoidal é algo como dizer
o cosseno da posição dessa coisa. Então, grosso modo, o vermelho
que saiu do sistema são os dois parâmetros que
aprendi dos 20 parâmetros que poderia ter aprendido,
e eles correspondem muito bem aos
parâmetros de geração reais que incorporei ao sistema.

Portanto, isso deve ser considerado
como se não fosse uma prova, pelo menos uma plausibilidade, de que o sistema para
descobrir recursos intrínsecos, que variam lentamente, funciona. Essa é a
primeira parte, agora vou mostrar que meu sistema para
retroceder também funciona. Então esse é o próximo passo. Será que meu pequeno mapa recortado
dessas seis pistas e truques e covariâncias e
âncoras e tudo mais, isso realmente aprende a
prever qual será a próxima imagem? Portanto, este sistema acabou de
aprender. Ele viu um monte de
borrões gaussianos se movendo. Agora, estou configurando-o para tentar
descobrir onde esses pixels serão os próximos
com base apenas em seu próprio aprendizado, sem supervisão
, interferência ou hacking de qualquer tipo. Então vamos ver o que acontece. Deixe-me meio que reafirmar
o problema. Agora temos um monte de história
de aprendizado de coisas para frente e para trás, e temos um punhado
de pontos recentes, pontos recentes neste espaço de alta dimensão
que correspondem a um borrão
movendo-se lateralmente. E onde estão esses pontos de interrogação
é onde queremos que o sistema encontre
uma resposta.

Queremos que diga onde o
branco e o preto estarão no lugar desses
pontos de interrogação. Mas como é o sucesso
? Quero dizer, é sucesso relativo
a zeros ou uns ou o quê? Vou usar a
previsão do meteorologista, que é a hipótese nula de que você está
apenas prevendo que o futuro é como hoje. Você está apenas tomando como
referência quaisquer que sejam seus dados reais mais recentes. Seria realmente estúpido
fazer pior do que isso. Portanto, obtive a métrica em que
você obtém 1,0 se apenas fizer como sua previsão
qual foi o ponto de dados mais recente. Qualquer coisa abaixo de 1,0 é bom. Então o erro será
normalizado de forma que 1 é a previsão de referência e 0 é
infinitamente perfeito, então você imagina que vou mostrar
um gráfico com um monte de coisas abaixo de 1.

Aqui estão elas. A previsão de referência
é uma linha pontilhada. Alguns dos pontos
são muito ruins. Eles são três vezes piores do que
a previsão de referência. A maioria deles não é. A maioria deles está em cerca de
5%, 6% da previsão de referência, o que eu
diria 95% bom. E isso sem usar meu
pequeno truque de descobrir quais pontos são ruins e
quais não.

Se você usar essa
estimativa de probabilidade com os hiperelipsoides gaussianos para descobrir
se uma previsão faz sentido com base em suas anteriores,
agora você pode decidir excluir aquelas que, com base nisso,
não parecem boas. Portanto, isso não é exclusão post hoc
, não é ver se funcionou e
dizer, oh não, vou jogar isso fora porque
é uma merda. Isso é batota. É antecipadamente decidir
se você vai jogá-lo fora. E se você filtrar pela
mediana lá, agora você tem o dobro de bom. Portanto, agora é 97% bom em vez de
94% bom, o que é, no que me diz respeito, para uma primeira
iteração de um algoritmo hackeado, assim como eu
esperaria que fosse uma aproximação.

Mas, novamente, isso deve
ser uma espécie de biplano dos irmãos Wright para o problema de
aprender a compactação de dados e desdobrá-la novamente. Não é a última palavra. Tenho certeza de que existem milhões de
outras maneiras de melhorá-lo. By the way, eu não estava
jogando mediana. Eu não estava jogando 50%,
estava jogando apenas 20%. Então é muito melhor
do que eu pensava. Que tal isso. Então aqui está uma espécie de
piada. Em primeiro lugar, é possível
não apenas encontrar, mas também inverter as características lentas do
espaço de alta dimensão. Eles podem ser usados ​​para fazer
previsões específicas no tempo, previsões do futuro, não
apenas reconstruções do presente ou do passado.

A
previsão funciona bem no nível de 95%. E pode ser ainda melhor do que
isso se você usar estimativas de confiança incorporadas que
acompanham o território. Então isso é realmente tudo que existe. Isso foi uma espécie de
isca e troca. Comecei com
propostas grandiosas sobre como nossos cérebros funcionam e como isso será ótimo
para o tipo de sociedade, filosofia e outras coisas. E terminei nem mesmo com
matemática, mas com uma série de truques matemáticos e de
programação.

Mas é assim que sei
ir daqui para lá, e espero que outras
pessoas tenham ideias melhores ou
possam ajudar. É isso. Obrigado. [APLAUSOS] WILLIAM SOFTKY: Sim. AUDIÊNCIA: Como você prevê o
movimento e o tempo? Este modelo parece apenas– no mundo real, se eu visse
alguém se movendo na metade da velocidade que estou acostumado a vê-
los, eu notaria. Como o seu modelo
[INAUDÍVEL] WILLIAM SOFTKY: Deixe-me tentar
repetir isso por causa do microfone. Como você prevê o
movimento e o tempo? Porque no mundo real, você
vê as coisas realmente se movendo. E você meio que sabe onde
eles vão estar. Essa é a sua pergunta? AUDIÊNCIA: Sim. Mas se as coisas se movem mais rápido ou
mais devagar do que eu esperava, eu as observo.

Eu tenho noção do tempo. Seu modelo não– não sei como– WILLIAM SOFTKY: Oh, muito bom. Esta foi uma pergunta maravilhosa. Como você prevê o movimento e o
tempo porque ele observa que esse modelo realmente não
tem noção do tempo? Bem, em alguns sim. Quando eu disse que você está
extrapolando, você pega os valores mais recentes dos
pixels e, na próxima etapa, tenta colocar uma
inclinação nisso. Dado o histórico mais recente
, você realmente pode– neste caso, você faz uma
previsão de onde a coisa vai estar.

Então nesse sentido dá. Mas há um sentido mais profundo em
que você está absolutamente certo e descobriu um dos
pontos fracos de tudo isso. Eu disse a você que esse
princípio de recurso lento, aquele que estou pegando emprestado por atacado,
encontra uma função polinomial das entradas de uma vez e
cria um polinômio que muda lentamente com base
nas estatísticas históricas. Você está certo, esse polinômio
não é uma função de várias etapas de tempo. É uma função apenas de agora. Acontece que é um
polinômio semelhante ao aqui e ao aqui. Mas o polinômio não está
multiplicando x de t vezes x de t menos 1 vezes x de t
menos 2 ou algo assim. Não é capaz de interações não lineares ao longo do tempo. Eu consideraria isso um
ponto fraco e uma das coisas que gostaria de fazer é consertá-lo. Uma maneira óbvia é apenas expandir
a dimensionalidade que é capaz de aprender
para um punhado de intervalos de tempo por vez.

Então você está certo. Este sistema polinomial
não detecta movimento. O sistema polinomial por si só
tem exatamente o mesmo valor se você estiver se movendo para
a esquerda ou para a direita. E esse é um ponto fraco, mas
acho que é facilmente hackeável. Não há nada intrínseco
nisso. Felizmente, meu processo inverso
não depende desse truque particular
dos polinômios. Meu processo inverso é
bastante genérico. Estou impressionado. Estou feliz que você me lembrou
disso, porque eu esqueci de dizer isso. Sim. AUDIÊNCIA: O problema que você
decidiu atacar é muito bom, certo? Inverter a coisa é
muito importante. A inversão nem sempre
acontece quando você está observando algo e prevendo
o que está prestes a acontecer no cérebro. Você também precisa inverter
as coisas típicas [FRASE ININTLIGÍVEL] Então, se eu disser para você pensar
em uma foto de sua mãe, que sobe pelo
córtex auditivo e depois desce pelo córtex visual sem nenhuma
foto anterior de sua mãe, aquela você está prestes a
imaginar é apenas um leve [? mudar. ?] Então isso está fora do domínio ou
escopo do que você fez? Ou como você– porque pelo
menos uma etapa explicitamente fez uso do
ponto anterior, embora não pareça com você– parecia que
provavelmente havia outras maneiras de fazer essas coisas que não
exigiam isso.

AUDIÊNCIA: [INAUDÍVEL] houve alguns experimentos
que fizeram– WILLIAM SOFTKY: Existe alguma
chance de eu chegar a esta questão antes de expandi-la? Porque é uma pergunta muito boa
e quero focar pelo menos antes, porque posso
esquecer de outra forma com as nuances dela. É um ponto extremamente bom,
e eu só quero chegar a ele. Eu voltarei. Para reformular o ponto, caso os
microfones não tenham captado e caso eu tenha entendido mal, o
sistema que descrevi faz sua previsão apelando para
a abstração, o tipo de versão de baixa dimensão
aqui, mas também apelando para o passado recente no
espaço de alta dimensão. Em um cérebro real ou em um
sistema de aprendizado de máquina real, você pode não ter acesso a uma
forma confiável do passado recente. Você pode não ter acesso
a uma dica de alta dimensão.

Você pode ter apenas a
abstração para trabalhar. Isso é uma condensação justa
disso? Absolutamente verdadeiro. Parte do meu argumento para isso é que
eu estava tentando trabalhar apenas com o que acontece dentro de
um módulo. Portanto, eu não estava falando explicitamente
sobre como os módulos conversam entre si e como um
desses módulos compressores tiraria proveito de alguns
anteriores. Certamente em um cérebro real,
incluindo a coisa hierárquica que descrevi, esses caras
estão conversando o tempo todo.

Cada uma dessas coisas não está
apenas olhando para sua versão mais recente da
variável abstrata e do passado. Ele também está olhando para todos os votos
caindo, chovendo sobre ele de todas as pessoas
em um nível abstrato superior que agora estão dando a ele suas
opiniões, seus priores bayesianos, sobre o que essa
variável abstrata será. Portanto, a boa notícia é que você
tem uma versão muito melhor em um sistema como um cérebro real,
com viés a favor de uma foto de sua mãe
em oposição a George Bush ou uma bicicleta. A má notícia é que, como você
não sabe como nenhum dos pixels está alinhado,
não tem a dica de alta dimensão. Em primeiro lugar, não posso
afirmar que resolvi isso. Eu tenho algumas ideias sobre isso. Mas você pode ver que pelo menos
você tem metade das dicas.

Se você tiver alguma previsão
do sistema, ele não fornecerá a previsão específica exata
. Se você sabe que verá
uma foto de sua mãe, mas não sabe onde ela
estará no espaço de pixels, obviamente não pode dizer que sabe
quais pixels serão preto e branco. No entanto, agora você está preparado para
distinguir muito mais rapidamente se é sua mãe ou não,
porque agora, de certa forma, restringiu seu
espaço de pesquisa àqueles que são consistentes com a mãe
versus aqueles que não são. Eu sei que é uma
abordagem meio ondulante, mas pelo menos aborda sua pergunta, mesmo
que não a responda? AUDIÊNCIA: OK. [ININCOMPENSÁVEL] WILLIAM SOFTKY: OK. Isso é tão bom quanto eu acho que posso
fazer com essa pergunta agora.

Mas é muito bom. Sim? AUDIÊNCIA:
[FRASE ININTLIGÍVEL] WILLIAM SOFTKY: OK. Legal. Então acabei respondendo à
pergunta que não foi feita melhor do que respondi à
pergunta que foi. Sortudo. Sim? AUDIÊNCIA: Então, voltando à
questão de calcular o [ININTELLIGÍVEL] Eu realmente gosto da sua analogia de
você computar uma função e então meio que você a tem e
então você precisa reinventá-la, e você precisa descobrir
o [ININTELIGÍVEL] O A pergunta é o quão preciso
isso [ININTELLIGÍVEL] precisa ser? Então, se você pegar o exemplo de
você desenhando um círculo, eu olhando para ele e construindo
um modelo mental de um círculo.

E então eu copio seu círculo. Para algo simples como um
círculo, posso produzir uma cópia perfeita. Mas se você desenhar a figura de um
cachorro, a figura de um cachorro que eu desenho pode parecer significativamente diferente, sem dúvida. Então, em que nível, quão preciso
esse inverso deve ser? Essa função inversa
[ININTELIGÍVEL] WILLIAM SOFTKY: Para reformular
a pergunta, desenhei um sistema de mapeamento muito simples de
muito poucas dimensões até menos ainda e vice-versa.

Portanto, você pode razoavelmente esperar
que os dois se alinhem muito bem. Mas se o problema é muito
mais irrestrito, de dimensão muito maior, como você pode
saber se está fazendo um bom trabalho e como pode
esperar que esteja fazendo um bom trabalho? Isso é justo– AUDIÊNCIA: Bem, não. A questão é quão bom
o inverso precisa ser para que o cérebro seja capaz de raciocinar
efetivamente sobre a imagem de um cachorro? WILLIAM SOFTKY: Vejamos. Quão bom o inverso precisa
ser para que o cérebro raciocine efetivamente sobre
a imagem ser um cachorro ou algo assim? Claro, lidando em um nível
que pode ser aplicado a um mouse. Então, quando digo razão, estou realmente
pensando em ser capaz de preencher os espaços em branco e
meio que reconhecer o que é. Mas a resposta curta é
o grau em que você estreitou suficientemente o
espaço de probabilidade.

Na medida em que agora você tem
uma prévia que o ajudará a descobrir rapidamente
se isso é um predador ou não. Se você eliminou 90% das
possibilidades, você é, em princípio, nove vezes mais rápido para
fugir do cachorro, algo assim, em vez de ter que
sentar e esperar e coletar mais dados para descobrir
se realmente é um cachorro. Portanto, qualquer melhoria é
boa em relação a uma linha de base de nada. Portanto, não é um sistema que
presumivelmente falhará catastroficamente se você
tiver mais erros do que costuma ter. Ele apenas terá que
coletar um pouco mais de dados ou processá-los um pouco mais. Mas, novamente, estou
deixando completamente de lado aqui as questões de como funcionam esses diferentes
módulos na hierarquia. E se esse sistema agora
tem 50% de um cachorro, então ele passa seus 50% aqui, e esse
sistema passa 50% e eles sobem.

E agora você tem 100%. E aquele cara vai e agora esses
caras estão com 70 e agora com 90 ou algo assim. Você pode imaginar – embora eu não esteja
descrevendo especificamente. Você pode imaginar um sistema no
qual a reverberação para cima e para baixo é um processo de estabilização. Portanto, mesmo que cada
peça individual tenha dados muito ruidosos e por si só não tenha uma
estimativa muito boa, cada uma está melhorando iterativamente a
estimativa, passando-a para outros níveis que têm acesso
a mais informações de outros lugares e que, coletivamente,
eles pode ser capaz de decidir ou se concentrar em uma resposta
que seria inútil para qualquer um desses módulos
independentemente.

OK, estou vendo um tempo marcado
aqui, então parece que fiquei sem perguntas assim
que elas estão ficando difíceis. Muito obrigado pelo seu
tempo, e espero que vocês resolvam isso para mim. Tomar cuidado. [APLAUSOS].

Texto inspirado em publicação no YouTube.

Quer Saber Muito Mais? Venha para a MIND21 Educação

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.