BasicCrawler
02/23/2015
1502233312435

About the work

Crawler diseñado para la monitorización activa de fuentes buscando la presencia de palabras clave/expresiones regulares y supervisar la disponiblidad de diversos sitios web.

Entre las funcionalidades actuales se hayan:
-Configuración de las fuentes a través de un documento Excel.
-Uso de caché en disco con el estado de la ejecución.
-Envío por email de los segmentos html de cada resultado.
-Captura de pantalla del redenrizado de cada segmento html.
-Tamaño de la caché lógica en función de la fuente.
-Uso del cálculo de la distancia de Damerau-Levenshtein para eliminar resultados similares (>85%)
-Tratamiento personalizado en función del tipo de elemento DOM
-Optimizado para reducir el consumo de CPU y RAM al mínimo (1% CPU y 20-50MB RAM).

Tecnologías: .Net + Excel + PhantomJS + JavaScript

Software and Database designs
crawler
software
scrapper

Copyright registered declarations

JM
José Miguel Soriano de la Cámara
Author
Consolidated inscription:
Attached documents:
0
Copyright infringement notifications:
0
Contact

Notify irregularities in this registration

Print work information
Work information

Title BasicCrawler
Crawler diseñado para la monitorización activa de fuentes buscando la presencia de palabras clave/expresiones regulares y supervisar la disponiblidad de diversos sitios web.

Entre las funcionalidades actuales se hayan:
-Configuración de las fuentes a través de un documento Excel.
-Uso de caché en disco con el estado de la ejecución.
-Envío por email de los segmentos html de cada resultado.
-Captura de pantalla del redenrizado de cada segmento html.
-Tamaño de la caché lógica en función de la fuente.
-Uso del cálculo de la distancia de Damerau-Levenshtein para eliminar resultados similares (>85%)
-Tratamiento personalizado en función del tipo de elemento DOM
-Optimizado para reducir el consumo de CPU y RAM al mínimo (1% CPU y 20-50MB RAM).

Tecnologías: .Net + Excel + PhantomJS + JavaScript
Work type Software and Database designs
Tags crawler, software, scrapper

-------------------------

Registry info in Safe Creative

Identifier 1502233312435
Entry date Feb 23, 2015, 9:47 AM UTC
License All rights reserved

-------------------------

Copyright registered declarations

Author. Holder José Miguel Soriano de la Cámara. Date Feb 23, 2015.


Information available at https://www.safecreative.org/work/1502233312435-basiccrawler
© 2026 Safe Creative