Ferramenta Da árvore Da Decisão
Ferramenta Da árvore Da Decisão
Use a ferramenta Árvore de Decisão para criar um conjunto de regras se-então divididas para otimizar critérios de criação de modelos com base nos métodos de Aprendizagem de Árvore de Decisão. A formação de regras baseia-se no tipo de campo de destino:
- Se o campo de destino é um membro de um conjunto de categorias, uma árvore de classificação é construída.
- Se o campo de destino for uma variável contínua, uma árvore de regressão será construída.
Use a ferramenta Árvore de Decisão quando o campo alvo for previsto usando um ou mais campos variáveis, como um problema de classificação ou regressão de alvo contínua.
Esta ferramenta utiliza a ferramenta R. Vá para Opções > Baixe ferramentas preditivas e faça login no portal Alteryx Downloads and Licenses para instalar R e os pacotes usados pela ferramenta R. Consulte Baixar e Usar Ferramentas Preditivas.
Conectar uma entrada
A ferramenta Decision Tee requer uma entrada com...
- Um campo de interesse alvo
- Um ou mais campos preditores
Os pacotes usados na estimativa dos modelos variam de acordo com o fluxo de dados de entrada.
- Um fluxo de dados Alteryx usa a função rpart R de código aberto.
- Um fluxo de metadados XDF, proveniente de uma ferramenta de entrada XDF ou da ferramenta de saída XDF,usa a função RevoScaleR rxDTree.
- Dados de um fluxo do SQL Server na base de dados usam a função rxBTrees.
- A instalação do Microsoft Machine Learning Server faz uso da função rxBTrees do RevoScaleR para os dados nas bases de dados do SQL Server ou Teradata. Isso requer que o computador local e o servidor sejam configurados com o Microsoft Machine Learning Server, o que permite o processamento no servidor da base de dados e resulta em uma melhoria significativa de desempenho.
Recursos revoScaler
Em comparação com as funções open-source do R, a função baseada em RevoScaleR pode analisar conjuntos de dados muito maiores. No entanto, a função baseada no RevoScaleR deve criar um arquivo XDF, o que aumenta o custo de sobrecarga, usa um algoritmo que faz mais passagens pelos dados, aumentando o tempo de execução, e não pode criar saídas de diagnóstico para alguns modelos.
Configure a ferramenta para processamento padrão
Essas opções são necessárias para gerar uma decisão.
- Digite o nome do modelo: Um nome para o modelo que pode ser referenciado por outras ferramentas. O prefixo ou nome do modelo deve começar com uma letra e pode conter letras, números e os caracteres especiais ponto (".") e sublinhado ("_"). O R diferencia maiúsculas e minúsculas.
- Selecione a variável-alvo: O campo de dados a ser previsto, também conhecido como resposta ou variável dependente.
- Selecione variáveis preditoras: Os campos de dados utilizados para influenciar o valor da variável alvo, também conhecida como característica ou variável independente. Um campo do preditor é exigido no mínimo, mas não há nenhum limite superior no número de campos do preditor selecionado. A variável de destino propriamente dita não deve ser usada no cálculo do valor de destino, portanto, o campo de destino não deve ser incluído com os campos preditores. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
Selecione Personalizar para ajustar configurações adicionais.
Personalize o Modelo
Guia modelo
As opções que mudam a forma como o modelo avalia os dados e são construídas.
Escolha o algoritmo: Selecione a função rpart ou a função C5.0. Opções subsequentes diferentes dependendo de qual algoritmo você escolher.
- rpart: Um algoritmo baseado no trabalho de Breiman, Friedman, Olshen e Stone; considerado o padrão. Use rpart se você estiver criando um modelo de regressão ou se você precisar de uma parcela de poda.
- Tipo de Modelo e Pesos Amostrais:Controles para o tipo de modelo baseado na variável alvo e no manuseio de pesos amostrais.
- Tipo de Modelo: O tipo de modelo utilizado para prever a variável alvo.
- Auto: O tipo de modelo é selecionado automaticamente com base no tipo de variável alvo.
- Classificação: O modelo prevê um valor de texto discreto de uma categoria ou grupo.
- Regressão: O modelo prevê valores numéricos contínuos.
- Use pesos amostrais na estimativa do modelo: Uma opção que permite selecionar um campo que julle a importância colocada em cada registro e pondera o registro de acordo ao criar uma estimativa de modelo.
Se um campo é usado como um preditor e um peso de amostra, o campo de variável de peso de saída é anexado com "Right_".
- Tipo de Modelo: O tipo de modelo utilizado para prever a variável alvo.
Critérios de divisão e substitutos: Controles sobre como o modelo determina uma divisão e como os substitutos são usados na avaliação de padrões de dados. Os critérios de divisão a serem utilizados: Selecione a forma como o modelo avalia quando uma árvore deve ser dividida.
Os critérios de divisão ao usar um modelo de regressão são sempre menos quadrados.
Coeficiente de Gini
A impureza é usada.
Índice de informações
Use substitutos para: Selecione o método para usar substitutos no processo de divisão. Os substitutos são variáveis relacionadas à variável primária que são usadas para determinar o resultado de divisão para um registro com informações ausentes.
Omitir observações com valor faltante para regra de divisão primária: O registro que falta a variável candidato não é considerado na determinação da divisão.
Registros divididos faltando a variável candidato: Todos os registros que faltam a variável candidato são distribuídos uniformemente na divisão.
Envie observação na direção majoritária se todos os substitutos estiverem faltando: Todos os registros que faltam na variável candidato são empurrados para o lado da divisão que contém mais registros.
Selecione a melhor divisão de substitutos usando: Selecione os critérios para escolher a melhor variável para dividir a partir de um conjunto de variáveis possíveis.
Número de classificações corretas para uma variável candidato: Escolhe a variável para dividir com base no número total de registros classificados corretamente.
Percentual de classificações corretas para uma variável candidato Escolhe a variável para dividir com base na porcentagem de registros classificados corretamente.
Hiperparametros: Controles para a distribuição prévia do modelo.Ajuste o processamento com base na distribuição anterior.
O número mínimo de registros necessários para permitir uma divisão: Defina o número de registros que devem existir antes que uma divisão ocorra. Se houver menos registros do que o número mínimo, então não serão permitidas divisões adicionais.
O número mínimo permitido de registros em um nó terminal: Definir o número de registros que podem estar em um nó terminal. Um número mais baixo aumenta o número potencial de nós terminais finais no final da árvore.
O número de dobras a serem usados na validação cruzada para podar a árvore: Definir o número de grupos (N) em que os dados devem ser divididos ao testar o modelo. O número padrão é 10, mas outros valores comuns são 5 e 20. Um maior número de dobras dá mais precisão para a árvore, mas pode demorar mais tempo para processar. Quando a árvore é podada usando um parâmetro de complexidade, a validação cruzada determina quantas divisões ou ramificações estão na árvore. Na validação cruzada, N-1 das dobras são usados para criar um modelo, e a outra dobra é usada como uma amostra para determinar o número de ramificações que melhor se encaixa na dobra de validação, a fim de evitar a supermontagem.
A profundidade máxima permitida de qualquer nó na árvore final: Defina o número de níveis de galhos permitidos desde o nó raiz até o nó mais distante da raiz para limitar o tamanho total da árvore.
O número máximo de lixeiras para usar para cada variável numérica: Digite o número de lixeiras para usar para cada variável. Por padrão, o valor é calculado com base no número mínimo de registros necessários para permitir uma divisão.
Apenas metadata Sream XDF
Esta opção só se aplica quando a entrada na ferramenta é um fluxo de metadados Xdf do. A função de escalador Revo (rxDTree) que implementa a árvore de decisão escalável manipula variáveis numéricas por meio de um processo de binning de intervalo igual para reduzir a complexidade computacional.
- Parâmetro de complexidade:Um valor que controla o tamanho da árvore de decisão. Um valor menor resulta em mais ramificações na árvore e um valor maior resulta em menos ramificações. Se um parâmetro de complexidade não estiver selecionado, o parâmetro será determinado com base na validação cruzada.
- Tipo de Modelo e Pesos Amostrais:Controles para o tipo de modelo baseado na variável alvo e no manuseio de pesos amostrais.
- C5.0: Um algoritmo baseado no trabalho de Quinlan; use C5.0 se seus dados forem classificados em uma de um pequeno número de classes mutuamente exclusivas. Propriedades que podem ser relevantes para a atribuição de classe são fornecidas, embora alguns dados podem ter valores desconhecidos ou não-aplicáveis.
- Opções Estruturais: Controles para a estrutura do modelo. Por padrão, o modelo é estruturado como uma árvore de decisão.
- Decomposição da árvore em modelo baseado em regras: Altere a estrutura do algoritmo de saída de uma árvore de decisão em uma coleção de regras simples e simples.Selecione o número de limite de bandas para agrupar regras para selecionar um número de bandas para as regras do grupo em onde o número definido é o limite da banda.
- Opções detalhadas: Controles para as divisões e recursos do modelo.
- Modelo deve avaliar grupos de preditores discretos para divisões: Agrupar variáveis preditoras categóricas em conjunto. Selecione para reduzir a supermontagem quando houver atributos discretos importantes que tenham mais de quatro ou cinco valores.
- Use winnowing preditor (ou seja, seleção de recursos): Selecione para simplificar o modelo, tentando excluir preditores não úteis.
- Árvore de ameixa: Selecione para simplificar a árvore para reduzir o excesso de adaptação, removendo as rachaduras das árvores.
- Avaliar divisões avançadas nos dados: Selecione para realizar avaliações com variáveis secundárias para confirmar qual ramo é a previsão mais precisa.
- Use o método de parada para impulsionar: Selecione para avaliar se as iterações de reforço estão se tornando ineficazes e, se for o caso, pare de impulsionar.
- Hiperparadores numéricos: Controles para a distribuição prévia do modelo que são baseados em um valor numérico.
- Selecione o número de iterações de aumento: Selecione um 1 para usar um único modelo.
- Selecione o fator de confiança: Este é o parâmetro analógico do parâmetro de complexidade da rpart.
- Selecione o número de amostras que devem estar em pelo menos 2 splits: Um número maior dá uma árvore menor, mais simplificada.
- Percentual de dados mantidos a partir do treinamento para avaliação do modelo: Selecione a parte dos dados utilizados para treinar o modelo. Use o valor padrão 0 para usar todos os dados para treinar o modelo. Selecione um valor maior para manter essa porcentagem de dados de treinamento e avaliação da precisão do modelo
- Selecione sementes aleatórias para algoritmo: Selecione o valor da semente. O valor deve ser um inteiro positivo.
- Opções Estruturais: Controles para a estrutura do modelo. Por padrão, o modelo é estruturado como uma árvore de decisão.
Guia de validação cruzada
Controles para personalização de um método de validação com uso eficiente das informações disponíveis.
Selecione Usar validação cruzada para determinar estimativas de qualidade do modelo para realizar a validação cruzada para obter várias métricas e gráficos de qualidade do modelo. Algumas métricas e gráficos são exibidos na saída R, e outros são exibidos na saída i.
- Número de dobras de validação cruzada: O número de subsamples dos dados é dividido para validação ou treinamento. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Número de ensaios de validação cruzada: O número de vezes que o procedimento de validação cruzada é repetido. As dobras são selecionadas de forma diferente em cada teste, e os resultados são calculados em todas as tentativas. Um número maior de dobras resulta em estimativas mais robustas da qualidade do modelo, mas menos dobras fazem a ferramenta funcionar mais rápido.
- Definir sementes para validação cruzada externa: Um valor que determina a sequência de sorteios para amostragem aleatória. Isso faz com que os mesmos registros dentro dos dados sejam escolhidos, embora o método de seleção seja aleatório e independente dos dados.Use Selecionar valor de sementes aleatórias para validação cruzada para selecionar o valor da semente. O valor deve ser um inteiro positivo.
Guia de parcelas
Selecione e configure quais gráficos aparecem no relatório de saída.
- Relatório estático de exibição: Selecione para exibir um relatório de resumo do modelo a partir da âncora de saída R. Selecionado por padrão.
- Gráficoda Árvore : Um gráfico de variáveis e ramos da árvore de decisão. Use o alternador de gráfico de árvore de exibição para incluir um gráfico de variáveis e ramos de árvore de decisão na saída do relatório do modelo.
Distâncias uniformes do ramo: Selecione para exibir os galhos das árvores com comprimento uniforme ou proporcional à importância relativa de uma divisão na previsão do alvo.
Resumo dafolha : Determine o que é exibido nos nódulos finais da folha no enredo da árvore. Selecione Contagens se o número de registros for exibido. Selecione Proporções se a porcentagem do total de registros for exibida.
Tamanho do enredo:Selecione se o gráfico é exibido em Polegadas ou Centímetros.
Largura: Defina a largura do gráfico utilizando a unidade selecionada no tamanho da parcela.
Altura: Defina a altura do gráfico utilizando a unidade selecionada no tamanho da parcela.
Resolução do gráfico: Selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi)ou 3x (288 dpi).
A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor.
Maior resolução cria um arquivo maior com melhor qualidade de impressão.
Tamanho da fonte base (pontos): Selecione o tamanho da fonte no gráfico.
Parcela de poda: um gráfico simplificado da árvore de decisão.Use uma parcela de poda no relatório
Gráfico de ameixa de exibição: Clique para incluir um gráfico simplificado da árvore de decisão na saída do relatório do modelo.
Tamanho da parcela: Selecione se o gráfico estiver exibido em Polegadas ou Centímetros.
Largura: Defina a largura do gráfico usando a unidade selecionada no tamanho da parcela.
Altura: Defina a altura do gráfico usando a unidade selecionada no tamanho da parcela.
Resolução do gráfico: selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi); 2x (192 dpi); ou 3x (288 dpi). A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor. Maior resolução cria um arquivo maior com melhor qualidade de impressão.
Tamanho da fonte base (pontos): Defina o tamanho da fonte no gráfico.
Configure a ferramenta para processamento no banco de dados
A ferramenta árvore de decisão suporta o Microsoft SQL Server 2016 e o processamento de banco de dados Teradata. Consulte visão geral do banco de dados para obter mais informações sobre suporte e ferramentas no banco de dados.
Quando uma ferramenta árvore de decisão é colocada na tela com outra ferramenta in-DB, a ferramenta muda automaticamente para a versão do in-DB. Para alterar a versão da ferramenta, clique com o botão direito do mouse na ferramenta, aponte para escolher a versão da ferramenta e clique em uma versão diferente da ferramenta. Consulte Predictive Analytics para obter mais informações sobre suporte preditivo no banco de dados.
Guia de parâmetros necessários
- Nome do modelo: Cada modelo precisa ser dado um nome para que possa ser identificado posteriormente.
- Um nome de modelo específico:Digite o nome do modelo que deseja usar para o modelo. Os nomes de modelo devem começar com uma letra e podem conter letras, números e o período de caracteres especiais (".") e sublinhado ("_"). Nenhum outro caractere especial é permitido, e R é diferencia maiúsculas de minúsculas.
- Gere automaticamente um nome de modelo : O designer gera automaticamente um nome de modelo que atenda aos parâmetros necessários.
- Selecione avariável de destino : Selecione o campo a partir do fluxo de dados que deseja prever.
- Selecione as variáveis preditoras: Escolha os campos do fluxo de dados que você acredita que "causam" alterações no valor da variável alvo. As colunas que contêm identificadores exclusivos, como chaves primárias alternativas e chaves primárias naturais, não devem ser usadas em análises estatísticas. Elas não têm nenhum valor preditivo e podem causar exceções de tempo de execução.
- Use pesos amostrais na estimativa do modelo (Opcional): Selecione escolher um campo do fluxo de dados de entrada para usar o peso da amostragem fo.
- Selecione o campo de peso amostral: Selecione um campo de peso a partir do fluxo de dados para estimar um modelo que usa peso amostral. Um campo é usado como um preditor e a variável de peso. A variável de peso aparece na chamada modelo na saída com a sequência "Right_" preparada para ele.
Guia de personalização de modelos
- Tipo demodelo : Selecione que tipo de modelo será usado.
- Classificação: Um modelo para prever um alvo categórico. Se estiver usando um modelo de classificação, selecione também os critérios de divisão.
- Coeficiente de Gini
- Índice de informações baseado em entropia
- Regressão : Um modelo para prever um alvo numérico contínuo.
- Classificação: Um modelo para prever um alvo categórico. Se estiver usando um modelo de classificação, selecione também os critérios de divisão.
- O número mínimo de registros necessários para permitir uma divisão: Se ao longo de um conjunto de ramos de uma árvore houver menos registros do que o número mínimo selecionado do que não são permitidas outras divisões.
- Parâmetro de complexidade : Este parâmetro controla como as rachaduras são realizadas (ou seja, o número de galhos na árvore). O valor deve estar abaixo de 1 e, quanto menor o valor, mais ramificações terá a árvore final. Um valor "Automático" ou a omissão de um valor resultará na seleção do "melhor" parâmetro de complexidade com base na validação cruzada.
- O número mínimo permitido de registros em um nó terminal: O menor número de registros que devem ser contidos em um nó terminal. Diminuir esse número aumenta o número potencial de nós terminais finais.
- Uso de substitutos: Este grupo de opções controla como os registros com dados perdidos nas variáveis preditoras em uma determinada divisão são abordados. A primeira opção é omitir (remover) um registro com um valor ausente da variável usada na divisão. O segundo é usar "substituto" divide, em que a direção de um registro será enviado é baseado em divisões alternativas em uma ou mais outras variáveis com quase os mesmos resultados. A terceira opção é enviar a observação na direção maioritária na divisão.
- Omitir uma observação com um valor ausente para a regra de divisão primária
- Usar substitutos para dividir registros com a variável de candidato ausente
- Se todos os substitutos estão ausentes, envie a observação na direção da maioria
- O número total de classificações corretas para uma variável de candidato potencial
- A porcentagem correta calculada sobre os valores não ausentes de uma variável de candidato
- O número de dobras para usar na validação cruzada para podar a árvore: Quando a árvore é podada através do uso de um parâmetro de complexidade, a validação cruzada é usada para determinar quantas rachaduras, portanto, os galhos estão na árvore. Isto é feito através do uso da validação cruzada em que N-1 das dobras são usadas para criar um modelo, e a dobra enésimo é usada como uma amostra para determinar o número de filiais que melhor se ajusta melhor a dobra da validação a fim evitar overfitting. Uma coisa que pode ser alterada pelo usuário é o número de grupos (N) em que os dados devem ser divididos. O padrão é 10, mas outros valores comuns são 5 e 20.
- A profundidade máxima permitida de qualquer nó na árvore final: Esta opção limita o tamanho geral da árvore, indicando quantos níveis são permitidos desde o nó raiz até o nó mais distante da raiz.
- O número máximo de lixeiras para usar para cada variável numérica: A função Revo ScaleR (rxDTree) que implementa a árvore de decisão escalável lida com variáveis numéricas através de um processo de binning de intervalo igual para reduzir a complexidade da computação. As opções para estes são "default", que usa uma fórmula com base no número mínimo de registros necessários para permitir uma divisão, mas pode ser definida manualmente pelo usuário. Esta opção aplica-se somente em casos onde a entrada na ferramenta é um fluxo de metadados Xdf do.
Guia de opções gráficas
- Enredoda árvore : Este conjunto de opções controla uma série de opções associadas à plotagem de uma árvore de decisão.
- Resumo da folha : A primeira escolha sob esta opção é a natureza do resumo da folha. Essa opção controla se contagens ou proporções são impressas nos nós de folha final na plotagem de árvore.
- Contagens
- Proporções
- Distâncias uniformesdo ramo : A segunda opção é se devem ser utilizadas distâncias uniformes de ramificação. Esta opção controla se o comprimento dos galhos das árvores desenhadas reflete a importância relativa de uma divisão na previsão do alvo ou se são de comprimento uniforme na trama da árvore.
- Resumo da folha : A primeira escolha sob esta opção é a natureza do resumo da folha. Essa opção controla se contagens ou proporções são impressas nos nós de folha final na plotagem de árvore.
- Tamanho do enredo: Defina as dimensões do gráfico da árvore de saída.
- Inches: Defina a largura e a altura da trama.
- Centímetros:Defina a largura e a altura da trama.
- Resolução do gráfico : Selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi)ou 3x (288 dpi).
- A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor.
- Maior resolução cria um arquivo maior com melhor qualidade de impressão.
- Tamanho da fonte base (pontos): O tamanho da fonte em pontos.
Gráfico de poda: Selecione para incluir um gráfico simplificado da árvore de decisão na saída do relatório do modelo.
Tamanho do enredo: Selecione se o gráfico é exibido em Polegadas ou Centímetros.
Largura : Defina a largura do gráfico utilizando a unidade selecionada no tamanho da parcela.
Altura : Defina a altura do gráfico utilizando a unidade selecionada no tamanho da parcela.
Resolução do gráfico : Selecione a resolução do gráfico em pontos por polegada: 1x (96 dpi), 2x (192 dpi)ou 3x (288 dpi).
A resolução mais baixa cria um arquivo menor e é melhor para visualização em um monitor.
Maior resolução cria um arquivo maior com melhor qualidade de impressão.
Tamanho da fonte base (pontos): Defina o tamanho da fonte no gráfico.
Ver a saída
Conecte uma ferramenta Navegar a cada âncora de saída para exibir os resultados.
- O (Saída): Exibe o nome do modelo e o tamanho do objeto na janela Resultados.
- R (Relatório): Exibe um relatório resumido do modelo que inclui um resumo e parcelas.
- I (Interativo): Exibe um painel interativo de visuais de suporte que permite zoom, painéis e clique.
Comportamento esperado: Precisão do enredo
Ao usar a ferramenta árvore de decisão para processamento padrão, a saída interativa mostra maior precisão com valores numéricos do que a saída do relatório.
Comentários
Postar um comentário