Olá, bem-vindo à nossa
série de introdução ao aprendizado de máquina para ciência de materiais. Meu nome é Ben Atlerbach. Sou um estudante de pós-graduação aqui
na Universidade de Wisconsin-Madison, e hoje estarei percorrendo esta atividade de laboratório e
espero discutir alguns dos pontos, algumas das coisas-chave para prestar atenção. E, você sabe,
as coisas em que vamos nos concentrar são, é, você sabe, o que é aprendizado de máquina? O que isso pode
fazer pela ciência dos materiais? Quais são as coisas em que é bom? Quais são as coisas que não são
boas? Quais são algumas das estratégias que podemos usar para melhorar nossos modelos de aprendizado de máquina
e qual é um fluxo de trabalho comum em que podemos pegar um conjunto de dados e, com sorte, construir um
modelo a partir dele e começar a fazer algumas previsões.
Então, para começar, examinarei, inicialmente, as
seções que abordaremos à medida que avançamos e, se eu rolar a tela para baixo, podemos ver as
neste bloco de anotações nas quais trabalharemos. Então, a seção um é sobre inspeção de dados, então vamos
apenas olhar, você sabe, qual é o conjunto de dados com o qual vamos trabalhar. Quais são as coisas
para prestar atenção e especificamente o que é, como podemos limpar o conjunto de dados para
que esteja pronto para o aprendizado de máquina. A seção dois é a geração de recursos. Portanto, é aqui
que realmente geramos as principais entradas que usaremos em nosso modelo. A seção três é sobre
engenharia futura e, para isso, vamos usar os recursos que geramos e fazer
algumas modificações para melhorar sua usabilidade no modelo.
A seção quatro é
sobre a avaliação do modelo. Então é aqui que começamos a decidir, sabe, como vamos saber se nosso
modelo está tendo um bom desempenho? Que tipo de testes faremos nele? A seção 5 é onde
realmente começamos a ajustar e avaliar esse modelo. Então, vamos construir um modelo padrão usando
algumas configurações padrão. E então, na seção 6, vamos começar a tentar otimizar os modelos.
Vamos começar a mudar coisas sobre o modelo para afetar seu desempenho e vamos
ver se podemos melhorar o desempenho do modelo e, finalmente, no final, faremos
alguns previsões. E veremos, você sabe, o que essas previsões implicam e o que elas nos dizem,
você sabe, como podemos usar esse modelo daqui para frente. Isso passa por todas as seções, e a
próxima coisa que precisamos abordar é, você sabe, como você pode acompanhar isso em casa. Essa é uma
das coisas realmente legais de usar notebooks Júpiter, é um
tipo de ambiente de programação totalmente interativo e você pode acompanhar e basicamente escrever todo
o código que vou executar, veja nos resultados e possivelmente fazer algumas alterações.
E enquanto eu passo, falarei sobre algumas seções em que podemos fazer algumas alterações, de modo
que, se você tiver, talvez um pouco de experiência em programação, ou se estiver apenas
interessado em talvez aprender alguns coisas, você pode fazer algumas pequenas alterações e afetar
seus resultados, e ver como eles, como eles afetam o que faremos, faremos.
Então, para
começar, você precisa ir para nanohub.org. Então, será assim quando você
chegar aqui. Você terá que fazer login para executar as ferramentas que estão hospedadas aqui. O nanohub é
basicamente uma plataforma onde podemos hospedar diferentes ferramentas e executá-las, e basicamente, você
sabe, nos fornecer alguns recursos de computação para fazer isso. Portanto, as duas ferramentas que veremos
são primeiro o próprio módulo de laboratório, que está em nanohub.org/tools/introMLLab. Então você pode ver isso
bem aqui no topo, espero. Então, se você for aqui e clicar na ferramenta de inicialização, você chegará exatamente a
esta página que eu estava olhando um segundo atrás. Então, este é o notebook e ele está novamente executando
esse ambiente de programação interativo para nós. Outra coisa que será útil
saber é essa ferramenta de notebook Júpiter. Portanto, esse é o tipo de estrutura subjacente a partir da qual o laboratório
é construído. Você não precisa estar executando os dois ao mesmo tempo ou algo assim, mas vou
apontar esta ferramenta especificamente para ajudar a salvar nossos resultados e voltar mais tarde.
Então, depois
de abrir o bloco de anotações aqui, você também pode executar a ferramenta de bloco de anotações e chegará a uma página
semelhante a esta aqui. Isso mostra onde estão todos os arquivos no tipo
de computador virtual que o nanohub está executando para nós. E para onde você vai é na
seção de dados e, em seguida, nos resultados aqui nesta pasta, e você chegará a várias pastas que se
parecem com esta e têm números ao lado delas. E se esta for sua primeira vez no
nanohub, talvez você veja apenas uma pasta, e esperamos que seja, você sabe, a pasta
que acabou de ser criada para você. Então, aqui está meu mais recente, iniciado há uma hora. Vou
entrar aqui e vejo aqui o laboratório de introdução ML, sabe, a pasta que ele criou para mim.
Então, vou entrar lá e na lixeira, e agora vejo aqui o notebook
que estamos executando aqui na outra guia. E o motivo pelo qual estou chamando a atenção para isso é
se voltarmos para aquele caderno, o que podemos ver é que não podemos realmente salvar este caderno.
Então
estou olhando para o topo aqui, e tem esse tipo de salvamento riscado. Se eu tento clicar no
ícone de salvar, ele diz que o bloco de anotações é somente leitura, aqui no canto superior direito, então não vai me deixar, você sabe,
salvar quaisquer alterações que eu queira fazer. Para fazer isso, o que precisamos fazer é acessar o
menu suspenso de arquivos no canto superior esquerdo e, em seguida, o que vou fazer é fazer uma cópia deste notebook.
Vou fazer esta cópia e gerar uma nova guia, e esta será exatamente a mesma
que tenho aqui, exceto que agora tenho propriedade deste arquivo.
Portanto, esta é uma maneira de permitir
que eu salve e faça alterações durante o processo. Agora tenho a propriedade deste notebook, mas é
exatamente igual ao outro. Então, na verdade, vou fechar este aqui e ver se ele
vai me perguntar se eu quero sair, tudo bem. Portanto, agora temos uma cópia da qual sou
proprietária, então agora, quando clicar em salvar, ela deve ser salva comigo.
Ele diz que o ponto de verificação foi
criado, isso é incrível, e se eu voltar aqui, agora posso ver que a cópia existe aqui. Então agora, se eu
voltar, sabe, em alguns dias ou em uma semana, e se meu notebook com o qual começamos
originalmente, você sabe, foi reiniciado ou não está mais funcionando, então posso voltar e este aqui terá todas as
minhas alterações salvas, desde que eu me lembre de salvar.
Então, isso deve nos ajudar a começar a
seguir lá. As últimas coisas que abordarei são apenas algumas noções básicas de como
usamos um notebook Júpiter. Mencionei que isso é como um ambiente de programação. Com base no seu histórico,
você pode se sentir bastante confortável com isso. Você pode estar pensando, sabe, como vou
realmente executar o código aqui? E a principal coisa a lembrar, se tudo mais falhar, é que, para executar o código, tudo o que você
precisa fazer é selecionar uma célula diferente no notebook, você vê que estou apenas clicando com o botão esquerdo no
lado esquerdo aqui, e eu obter este destaque azul. Assim, posso selecionar todas essas células diferentes e
se eu apenas começar no topo e pressionar shift enter, shift mais enter, e ele executará o código que está
na célula atual e irá para a próxima.
E se não houver nenhum código lá, ele simplesmente pulará essa célula.
Então você vê que este primeiro tem apenas algumas imagens. Então, vou apenas pressionar shift enter, shift
enter e ele começará a executar o código, e a maneira como sabemos que está sendo executado e executado com
êxito é que podemos olhar à esquerda aqui. E há um colchete e, quando estiver em execução
, terá algumas estrelas dentro do colchete, ou um asterisco, desculpe, e quando terminar, ele
me dará um número, que é basicamente o número de número de células que foram executadas durante esta
instância. Esta é a primeira célula que executei, então tem uma aqui, então vou continuar descendo
aqui e continuar executando.
E o que vou fazer na verdade é revisar tudo até
chegar à seção um do caderno. Então, vou apenas passar por aqui, continuar passando por todas
as informações de introdução. Há esta seção aqui que basicamente faz várias importações de
diferentes requisitos e diferentes pacotes que vamos usar. Não é muito
importante saber sobre isso, mas é necessário para fazer as coisas mais tarde.
Vou passar por
tudo isso até chegar à primeira seção sobre limpeza e inspeção de dados. E com isso,
vamos parar com a introdução e continuaremos na próxima seção, onde começaremos
a examinar nossos dados e entender como faremos a limpeza de dados e outras
etapas como este. Então nos vemos no próximo..