IPS é Finalidade e funções dos sistemas de recuperação de informação
IPS é Finalidade e funções dos sistemas de recuperação de informação

Vídeo: IPS é Finalidade e funções dos sistemas de recuperação de informação

Vídeo: IPS é Finalidade e funções dos sistemas de recuperação de informação
Vídeo: ¿Como lo hacen? Locomotoras - DMAX 2024, Novembro
Anonim

É difícil para uma pessoa moderna imaginar a vida sem a Internet e acesso quase instantâneo às fontes de informação. O usuário raramente pensa em como é realizada a busca do conteúdo desejado na rede. Mas isso é muito interessante.

Um sistema de recuperação de informações (IPS) é um sistema complexo de software e hardware que seleciona informações a pedido do usuário. As informações são armazenadas em servidores em formato digital, como os livros costumavam estar nas prateleiras das bibliotecas. O sistema consiste em muitos subsistemas. Cada um desempenha sua tarefa no processo de processar a solicitação do usuário e fornecer a ele informações em forma de texto ou som. A multiplicidade de tarefas a serem resolvidas determina a complexidade da arquitetura dos modernos sistemas de recuperação de informação (abreviação de sistema de recuperação de informação). Uma espécie de "caixa preta": na entrada - o texto da solicitação, o que está dentro - é desconhecido, na saída - informações abrangentes.

Arquivo de cartão na vida real
Arquivo de cartão na vida real

Fluxos de entrada

Solicitações de informações que uma pessoa forma em forma de texto na tela de seu gadget,constituem uma pequena parte dos pedidos processados pelo motor de busca. As principais matrizes de consultas de pesquisa são formadas por robôs que aceitam uma solicitação humana e realizam uma pesquisa em várias etapas e feedback com o usuário. Os sistemas de recuperação de informações incluem o conhecido Google, Yandex e outros, processando milhões de solicitações diariamente.

Objetos de pesquisa de origem

O conjunto de objetos iniciais de interesse para a busca são documentos, registros, vídeos, imagens e muito mais. Eles são criados fora do IPS. O sistema de armazenamento e recuperação de informações gerais deve ter um sistema bibliográfico embutido - uma espécie de catálogo que permite pesquisar qualquer tipo de objeto.

Objetos ou suas transformações digitais tornam-se um "recurso de entrada" no IPS. É entre eles que se seleciona a informação que o usuário precisa.

Pesquisar informações
Pesquisar informações

Fontes externas

A visualização de seleção de informações usa fontes externas de conhecimento. Esta é a informação que o usuário está procurando. O título do filme, uma citação do livro e muito mais. Para uma pesquisa no computador, essas informações devem ser traduzidas em uma consulta em uma linguagem algorítmica. No IPS, isso é feito usando o bloco de criação, indexação e desenvolvimento de consultas.

Idealmente, esses três processos-representação, indexação e desenvolvimento de consultas-devem contar com fontes idênticas de conhecimento, mas, na prática, isso não é possível.

As fontes de conhecimento devem ser constantemente revisadas e atualizadas, e a atualização deve ser idêntica esincronizado. E uma fonte externa de conhecimento sempre precede cronologicamente seu uso nos mecanismos de busca para uma consulta, às vezes por vários anos.

Sistema de recuperação de informações
Sistema de recuperação de informações

Desempenhos

As representações dos objetos originais são compostas de dados de entrada em alguma combinação ou transformados de acordo com as regras e algoritmos de um determinado sistema de recuperação de informações.

As visualizações são cópias mais ou menos transformadas do objeto de pesquisa original. Na coleção de textos completos não editados, cada texto é sua própria representação. Na coleção de objetos de exposições e artefatos de museu, a representação pode ser uma descrição transformada do objeto com sua imagem. Em alguns casos, a representação pode ser parcialmente derivada do objeto original e parcialmente da descrição: nos motores de busca bibliográfica, as representações são derivadas do objeto - por exemplo, título, nome do autor serão combinados com a anotação da obra.

Encontrando o que você precisa
Encontrando o que você precisa

Índice pesquisável

Como a informação nos sistemas de recuperação da informação é armazenada na forma de representação, é lógico supor que a busca é realizada de acordo com a representação e, após a seleção, é entregue ao usuário. Na prática, este não é o caso. Por exemplo, os catálogos de bibliotecas online atuais normalmente restringem as pesquisas a alguns campos: autor, título e legendas em uma exibição que contém outros campos que não são pesquisados. Esta é razão suficiente para que seja necessário distinguiruma exibição e um índice pesquisável, que é a parte de pesquisa da exibição. Ele define tudo o que deve ser pesquisável. Um índice pesquisável, como a visualização e o objeto de origem, pode ser dividido em subíndices separados para fornecer pesquisas mais precisas e direcionadas

Os mecanismos de pesquisa geralmente têm uma estrutura sintética internamente para corresponder a resultados de pesquisa válidos. Essa estrutura é o segundo componente do índice pesquisável.

Proceduralmente, o processo de indexação pode ser implementado de diferentes maneiras: um índice pesquisável pode ser obtido por:

  • copiando literalmente uma representação pesquisável;
  • copiando os detalhes da visualização. Isso pode ser parte ou todas as visualizações que existem fisicamente apenas como fragmentos, distribuídos de acordo com as regras de criação de um índice para pesquisa, que será coletado quando necessário.
Gerenciamento de pesquisa
Gerenciamento de pesquisa

Solicite regras de design e solicitações formais

A engenharia de consultas é uma função que faz a mediação entre uma consulta do usuário e uma consulta formal. Ele transforma a consulta do usuário, combinando-a com os dicionários de comando de recuperação, especificação de índice e índice antes da recuperação. No início do desenvolvimento do IPS, essa função era tradicionalmente atribuída a especialistas de TI qualificados.

Desenvolver consultas de computador que podem corresponder a consultas de dicionário em um sistema de índice pesquisável é comumente referido como o módulo "entrada de dicionário". A automação dessa função é promissora e oferece oportunidades para métodos de pesquisa especializados e probabilísticos.

Uma solicitação formal se torna uma solicitação formal após a conversão da solicitação do usuário. Exemplos de tais transformações formais incluem truncamento, substituição, normalização, vetorização e outras transformações da representação "externa" nas representações "internas" de IPS de computador (descriptografia - sistema de recuperação de informações).

Conjuntos de links de documentos extraídos

O conjunto resultante de fontes de informação é logicamente um subconjunto das visualizações criadas pelas regras de correspondência aplicadas à consulta formal por um índice pesquisável.

Geralmente, mas não necessariamente, há um processo de classificação separado para o conjunto de informações recuperado. Os catálogos de bibliotecas online geralmente reordenam os conjuntos recebidos em ordem alfabética por autor antes de serem exibidos. Em sistemas de recuperação de informações que produzem classificações rígidas, a ordem de classificação precede qualquer reordenação.

Análise de dados
Análise de dados

Fluxos de saída

A saída dos resultados da pesquisa é feita tradicionalmente no display, mais frequentemente na forma de um fluxo de objetos a serem usados em outro lugar ou para alguma outra finalidade, completando o loop de pesquisa principal. Tais fluxos podem ser enviados para dispositivos de visualização, armazenamento para processamento posterior ou uso como fluxos de entrada para outros serviços de seleção.

Sistemas de recuperação de informações permitem feedback dea saída de qualquer processo de seleção. A saída de qualquer processo pode ser um feedback para outros processos. O feedback pode fornecer a base para o julgamento de especialistas em qualquer estágio.

Recomendado: