Wieso werden nicht alle Links aus der hochgeladenen Datei genutzt?

Die hochgeladenen Linkdateien aus unterschiedlichen Quellen nutzen wir, um die Datenbasis für unseren Linkcrawler zu erweitern.

Dabei werden nur die Quell-URLs genutzt, die zuvor in anderen Datenquellen noch nicht vorgekommen sind. Darüber hinaus nutzen wir maximal 100 URLs pro Host, um so beim Crawlen den jeweiligen Server nicht zu überanspruchen und Sitewide-Links nicht zu stark in die Gewichtung einfließen zu lassen.