Please use this identifier to cite or link to this item:
https://hdl.handle.net/10216/10767| Author(s): | Escudeiro, Nuno Filipe Fonseca Vasconcelos |
| Title: | Automatic Web Resource Compilation Using Data Mining |
| Publisher: | Faculdade de Economia da Universidade do Porto FEP |
| Issue Date: | 2005-07-05 |
| Description: | Análise de Dados e Sistemas de Apoio à Decisão Master in Data Analysis and Decision Support Systems Nesta dissertação propomos uma metodologia que automatize a recolha de recursos na Web e facilite a sua exploração. Um recurso é uma colecção de documentos referentes a um tópico específico definido pelo utilizador. A intervenção do utilizador é explicitamente requerida numa fase inicial, quando este especifica as suas necessidades de informação e fornece alguns documentos exemplificativos. Após esta fase inicial, de definição e especificação das necessidades de informação, a metodologia mantém-se alinhada corn a contínua evolução das preferências do utilizador que são permanentemente monitorizadas e seguidas sem que seja necessáio requerer explicitamente a sua intervenção. Para tal, a metodologia analisa as preferencias do utilizador a partir das suas acções - guardar, imprimir, visualizar, alterar a categoria de documentos - que são automaticamente registadas durante cada sessão. Desta forma o utilizador fornece informação valiosa ao sistema sem qualquer esforço adicional. A metodologia prevê um nível de apresentação, desenhado com o objectivo de permitir a exploração e análise de colecções volumosas de documentos, através do qual o utilizador explora os seus recursos. 0 s recursos são compilados através de um processo de meta-search, onde as pesquisas são programadas por um agente que analisa o compromisso entre a actualidade do recurso e a percentagem de documentos duplicados nas respostas do processo de recolha. As pesquisas são programadas de forma a manter a actualidade do recurso, reduzindo, simultaneamente, o número de pesquisas efectuadas. A metodologia propõe também os mecanismos necessários para avaliar e controlar de forma automática a qualidade global do sistema. Esta qualidade é definida num espaço tridimensional cujas dimensões quantificam o desempenho no que se refere ao nível de Automação, Eficácia e Eficiência. Cada uma destas dimensões agrega um conjunto de medidas relevantes para a qualidade global do sistema: o nivel de Automação é calculado a partir da carga de trabalho que é explicitamente requerida ao utilizador; a Eficiência é calculada a partir das medidas de precison e accuracy; a Eficiência é calculada com base nas medidas de recall, freshness e novelty. 0 sistema mede e regista permanentemente o valor dos seus parâmetros de qualidade globais, que são usados para activar procedimentos correctivos ou preventivos de forma a corrigir ou antecipar uma degradação da qualidade global do sistema. A classificação de páginas Web assume-se como uma tarefa critica na nossa metodologia. Para avaliar da adequação de técnicas de aprendizagem semi-supervisionada foram desenhadas e realizadas algumas experiências. A realização destas experiências foi suportada por um protótipo que implementa parte da metodologia proposta e que foi implementado no decurso deste trabalho. Em particular este protótipo foi utilizado para compilar dois recursos distintos e para estudar a taxa de erro e a robustez da tarefa de classificação semi-automática. |
| Subject: | INFORMÁTICA Porto |
| DOI: | 10.34626/rtj6-kb51 |
| URI: | http://hdl.handle.net/10216/10767 |
| Document Type: | Dissertação |
| Rights: | openAccess |
| Appears in Collections: | FEP - Dissertação |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| teseNunoEscudeiro.pdf | 2.2 MB | Adobe PDF | ![]() View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
