How Ahrefs Counts Hyperlinks and Domains

Jedes Backlink-Tool speichert unterschiedliche Links.

Beim Erstellen eines Webindex müssen Unternehmen viele Entscheidungen zum Crawlen, Parsen und Indizieren von Daten treffen. Zwar wird es viele Überschneidungen zwischen den Indizes geben, aber es wird auch einige Unterschiede geben, die von den Entscheidungen der einzelnen Unternehmen abhängen.

Im Namen der Transparenz möchten wir die Menschen über den Linkindex von Ahrefs informieren.

Links führen Benutzer von einer Webseite zur anderen, wenn sie angeklickt werden. Es gibt viele Möglichkeiten, sie zu erstellen, wobei die häufigste Methode der Klassiker ist HTML Element mit einem href-Attribut.

Link Text

Es ist jedoch möglich, Verknüpfungen mit anderen Elementen zu erstellen, darunter:

  • Onclick
  • Taste
  • Klicken Sie auf
  • Optionswert
  • Und mehr…

In einer idealen Welt würde alles gespeichert, was als Link fungiert. Leider leben wir nicht in einer idealen Welt. Weder Ahrefs noch Google speichern alle Arten von Links, da es nicht effizient ist, jede Seite zu laden und auf jeden Link zu klicken. Genau das müssten Sie tun, wenn Sie alle Links finden möchten, die für Benutzer funktionieren.

Stattdessen rufen Crawler normalerweise Seiten ab, rendern sie möglicherweise und extrahieren und speichern dann verschiedene Arten von Links. Alle Crawler arbeiten unterschiedlich. Sprechen wir also darüber, wie wir hier bei Ahrefs vorgehen.

Links, die wir speichern

Hier sind die Arten von Links, die wir in unserem Index speichern.

Externe Links

Links von einer Website zu einer anderen, die mit dem Klassiker erstellt wurden HTML Element mit einem href-Attribut.

Interne Links

Links von einer Seite einer Website zu einer anderen Seite derselben Website. Unser Index enthält 22,21 Billionen interne Backlinks. Das ist weitaus umfangreicher als unsere Anzahl an externen Live-Links. Wir sind die einzigen SEO Tool, mit dem Sie auf diese Daten zugreifen können, ohne eine benutzerdefinierte Website zu crawlen. Wir verwenden die internen Linkdaten in der URL Bewertung (UR) Berechnung, ähnlich wie Google sie in ihrer PageRank-Berechnung verwenden würde.

Wenn Sie sehen möchten, wann wir zum ersten und letzten Mal einen gecrawlt haben URLkönnen Sie den Bericht “Best by Links” im Site Explorer überprüfen. Es gibt Registerkarten für externe und interne Links.

Links, die wir speichern können

Hier sind alle Links, die wir unter bestimmten Umständen speichern.

Mit JavaScript eingefügte Links

Da Google alle Seiten rendert, können sie Links zählen, die mit JavaScript eingefügt wurden, sich aber nicht in der befinden HTML Code. Das Rendern in großem Maßstab erfordert viel mehr Ressourcen als nur das Herunterladen von HTML von Seiten. Bei Ahrefs rendern wir täglich rund 80 Millionen Seiten. Aus diesem Grund werden einige dieser Links von JavaScript eingefügt, aber nicht alle. Wir sind derzeit die einzigen SEO Tool, das während des regelmäßigen Crawls des Webs gerendert wird, sodass wir einige Linkdaten haben, die andere Tools nicht haben.

Wir zählen jedoch nur Links, die mit JavaScript eingefügt wurden, wenn sie das Format eines haben HTML Element mit einem href-Attribut. Diese Links werden im Backlinks-Bericht als „JS,” so was:

js Link

Links von Seiten mit URL Parameter

Parameter sind Ergänzungen zu a URL wie? tag = etwas. Möglicherweise sehen Sie einige dieser URLs in unserem Index, aber es handelt sich normalerweise um Parameter, die unterschiedliche Inhalte anzeigen. In vielen Fällen können Seiten mit Parametern denselben Inhalt anzeigen. Wir haben viele Systeme eingerichtet, um URLs zu kanonischen Versionen zu konsolidieren und zusätzlichen Schutz für unendliche Crawling-Pfade zu bieten. Andere Tools treffen möglicherweise nicht dieselben Entscheidungen oder verfügen nicht über denselben Schutz. Infolgedessen können sie viele Male im Wesentlichen dieselbe Verbindung zählen.

Links versuchen wir nicht zu speichern

Hier sind die Links, die wir nach besten Kräften nicht speichern.

Links von Seiten mit URL Parameter

Wie oben erwähnt, gibt es gute und schlechte Arten von Parametern. Wir versuchen, diejenigen, die dupliziert werden, nicht zu speichern.

Links von Seiten in unendlichen Crawling-Pfaden

Diese Pfade erzeugen eine unendliche Anzahl möglicher URLs. Parameter sind eine Möglichkeit, die sie bilden können, aber auch Filter, dynamischer Inhalt und unterbrochene relative Pfade für Links. Wie bereits erwähnt, verfügen wir über zahlreiche Schutzmaßnahmen für Links auf diesen Seitentypen, sodass diese weniger wahrscheinlich in unseren Berichten angezeigt werden. Das Respektieren der Kanonisierung und die Art und Weise, wie wir das Crawlen von Seiten priorisieren, sind nur zwei dieser Schutzmaßnahmen. Jeder Index muss sich mit diesen unendlichen Leerzeichen befassen, aber diese Seiten können die Anzahl der Links erhöhen.

Links, die wir nicht speichern

Hier sind alle Links, die wir nie speichern.

Links in PDFs oder anderen Dokumenten

Google konvertiert viele Dokumentformate in HTML und indiziert sie wie jede andere Seite. Dies bedeutet, dass sie Links in diesen Dokumenten zählen. Das glaube ich nicht SEO Das Tool indiziert derzeit diese Links, aber wir sollten es wahrscheinlich tun. Ich denke, dass wir es eines Tages tun werden, aber ich bin auch besorgt, dass sich der Aufwand und die dafür erforderlichen Ressourcen nicht lohnen werden. Laut John Mueller, Google Webmaster Trends Analyst, haben Links in PDFs keine praktischen Auswirkungen auf die Websuche.

Links in Iframes

Mit Iframes kann eine andere Seite innerhalb einer Seite angezeigt werden. Aus diesem Grund zählt Ahrefs keine Links in Iframes. Sie werden den Benutzern jedoch angezeigt, sodass andere Tools sie möglicherweise zählen, obwohl der Inhalt technisch zu einer anderen Seite gehört. Google kann diese Links zählen oder nicht.

Links von nicht indizierten Seiten

Wir lassen diese Links fallen. Es gibt gemischte Nachrichten von Google-Vertretern darüber, ob sie diese für Linkberechnungen verwenden oder nicht. Unterschiedliche Tools können unterschiedliche Entscheidungen treffen.

etwas mit noindex wird niemals den Serving-Index erreichen, aber wir werden die abgerufene Kopie für Dinge wie die Berechnung von Linkgraphen haben. – Gary ly 理 / 경리 Illyes (@methode) 17. Dezember 2020

Gleiche Links von mehreren IPs

Eine lustige Tatsache im Web ist, dass Websites dieselbe Seite von mehreren Seiten bedienen können IP Adressen. In diesem Fall kann ein Linkindex denselben Link mehrmals zählen. Das machen wir nicht. Wir verknüpfen Links mit den Seiten, auf denen sie sich befinden.

Mehrere Links auf dieselbe Seite von einer Seite

Derzeit zeichnen wir nur eine Version eines Links auf einer Seite auf. Wenn Sie im Menü und dann wieder im Textinhalt auf eine Seite verlinken, zählen wir nur einen dieser Links. Wir werden dies möglicherweise in Zukunft ändern, um den Benutzern mehr Daten zur Verfügung zu stellen. Dies ist jedoch der aktuelle Status. Google zählt alle Versionen von Links für die Übergabe des PageRank, verwendet jedoch möglicherweise nur den Ankertext einer Version.

Andere linkbezogene Elemente, die sich auf den Index auswirken

Zu verstehen, wie wir Links zählen, ist eine Sache, aber viele andere Dinge können sich darauf auswirken, was gezählt wird und was nicht.

Anzahl der Links pro Seite

Ich glaube nicht, dass wir ein Limit für die Anzahl der Links haben, die wir pro Seite zählen, aber wir haben ein Limit für die Seitengröße, das sich möglicherweise auf die Anzahl der Links auswirkt, die wir sehen. Google empfiehlt nicht mehr als ein paar tausend Links pro Seite.

Weitergeleitet oder kanonisiert

Bei Ahrefs vertrauen wir allen Weiterleitungen und kanonischen Tags und konsolidieren Links, zu denen uns Websites auffordern. Für Google ist dies komplizierter, da es viele Kanonisierungssignale gibt, die bestimmen, welche Seite in einem kanonischen Cluster führend ist. Wir halten die Dinge einfach, da es unmöglich ist zu wissen, wie Google jede Situation betrachtet, und es würde unsere Nutzer verwirren, wenn wir Canonicals und Weiterleitungen jedes Mal anders behandeln würden.

Diese Links sind in unseren Berichten mit “301”, “302” oder “Canonical” gekennzeichnet, z.

Welche Domains werden indiziert?

In Ahrefs haben wir die Verweisende Domains Bericht, der alle Domains anzeigt, die auf eine Website oder Webseite verlinken.

Aber wie genau zählen wir Domains?

Sie würden denken, dies wäre eine leicht zu beantwortende Frage. Es ist nur domain.com, richtig? Leider sind die Dinge etwas komplexer, da es viele Möglichkeiten gibt, Domains zu zählen. Eine Möglichkeit besteht darin, jede registrierte Domain als Domain zu behandeln. Dies scheint die Art und Weise zu sein, wie Google sie in der Google Search Console aggregiert. Eine andere Möglichkeit besteht darin, jede Subdomain als eine andere Domain zu behandeln. Sie können auch einige Abschnitte einer Website und nicht andere (was Google tut) zusammenfassen, jeden Abschnitt auf einem anderen Tech-Stack durchgehen usw. Es gibt viele Optionen.

Bei Ahrefs haben wir nach der Überprüfung ~ 175 Millionen Domains. Der Überprüfungsprozess umfasst das Entfernen von Spam-Domains und das Aufteilen einiger Subdomains, bei denen festgestellt wurde, dass verschiedene Benutzer die verschiedenen Bereiche kontrollieren. Wir verwenden hierfür eine benutzerdefinierte Liste, aber es gibt eine ähnliche öffentliche Liste unter https://publicsuffix.org/list/.

Ahrefs Domains

Es ist wichtig zu beachten, dass unterschiedliche Domänendefinitionen zu großen Abweichungen bei verweisenden Domänen führen können. Hier sind einige Beispiele für Dinge, die andere, nicht Ahrefs, als separate Domänen zählen können:

  • Subdomains für mobile Versionen (m.domain.com, mobile.domain.com usw.)
  • Länder- / Sprach-Subdomains (en.domain.com, fr.domain.com, de.domain.com, jp.domain.com usw.). Es kann Ausnahmen in unserem Index geben, wie z. B. wikipedia.org, aber dies ist keine Standardpraxis.
  • Zufällige Subdomains (support.domain.com, images.domain.com usw.)

Eine weitere Entscheidung, die Backlink-Tool-Anbieter treffen müssen, ist, ob sie einige Unterordner als unterschiedliche Domänen zählen sollen. Ich denke zum Beispiel, dass die meisten Linkindizes unterschiedliche Blogs auf bekannten Plattformen (z. B. user1.blogspot.com, user2.blogspot.com) als unterschiedliche Domains zählen würden, da unterschiedliche Benutzer sie steuern. Aber warum nicht dasselbe für Websites wie medium.com/user1 oder github.com/user1 tun? Bei Ahrefs tun wir dies derzeit nicht, aber es besteht die Möglichkeit, dass wir in Zukunft wissen, dass verschiedene Personen jeden Unterordner auf einer Site kontrollieren.

Der Punkt hier ist, dass es viele Möglichkeiten gibt, Domänen zu zählen. Das ist offensichtlich, wenn man sich die unterschiedlichen Zahlen von Unternehmen ansieht, die Websites im Internet zählen. Laut Verisign gibt es in 370,7 Millionen registrierte Domains Q3 2020 über alle TLDs hinweg. Laut Netcraft gibt es im November 2020 1.229.948.224 Websites auf 263.787.870 eindeutigen Domains mit 193,8 Millionen aktiven Websites. Laut Internet Live Stats gibt es derzeit rund 1,8 Milliarden Websites mit weniger als 200 Millionen aktiven Websites. Jedes Unternehmen hat eindeutig eine andere Methode zum Zählen von Domains.

Um es noch einmal zusammenzufassen: Bei Ahrefs nehmen wir alle uns bekannten Websites und entfernen viele Spam- und inaktive Domains. Fügen Sie dann einige für Subdomains auf Websites wie blogspot.com hinzu. So kommen wir zu unserer gesamten Domainanzahl von ~ 175 Millionen. Andere Indizes tun dies möglicherweise anders und liefern unterschiedliche Zählungen.

Warum wir nicht alle Links sehen können

Da wir beim Crawlen des Webs Backlinks finden, können wir dies nur auf Websites tun, die wir crawlen dürfen. Wenn Websitebesitzer AhrefsBot in ihrer robots.txt-Datei blockieren, können wir ihre Website nicht crawlen. Das gleiche gilt, wenn keine robots.txt verfügbar ist, da wir gerne auf Nummer sicher gehen. Wenn Sie beispielsweise einen Backlink von website.com erhalten und website.com AhrefsBot blockiert, können wir deren Website nicht crawlen und Ihr Backlink wird nicht in Ahrefs angezeigt. IP Blöcke, Benutzeragentenblöcke von Servern (anders als robots.txt), Server-Timeouts, Bot-Schutz und viele andere Dinge können sich auch auf unsere Fähigkeit auswirken, einige Websites zu crawlen. Das Web in großem Maßstab zu crawlen ist nicht einfach.

Wir haben mehrere Linkindizes

Jedes Tool muss Entscheidungen über das Speichern und Abrufen von Daten treffen. Bei Ahrefs teilen wir unsere Daten in mehrere Indizes auf.

  • Leben – die Links, die wir sehen und die noch im Web aktiv sind. Dies stellt am besten den aktuellen Status des Webs dar und ist für viele unserer Benutzer am nützlichsten.
  • Kürzlich – Links, die wir in den letzten 3 bis 4 Monaten im Internet gesehen haben.
  • Historisch – alle Links, die wir je gesehen haben. Dies wird die umfassendste Liste sein, aber mit vielen Links, die nicht mehr existieren.

Sie können zwischen Indizes in unserem Backlink und verweisenden Domainberichten wechseln.

Ahrefs-Indizes

Andere Indizes zeigen möglicherweise alle Daten an, die sie jemals gesehen haben, und obwohl dies bedeutet, dass sie möglicherweise viele Links anzeigen, sind viele dieser Links möglicherweise nicht mehr vorhanden.

Abschließende Gedanken

Wir wollten, dass Sie, unsere Benutzer, mehr Informationen in unserem Index haben, damit Sie fundierte Entscheidungen treffen können. Wir möchten auch, dass Sie uns mitteilen, ob und warum wir Ihrer Meinung nach Änderungen vornehmen sollten.

Wenn Sie derzeit Linkindizes vergleichen oder Fragen zu unseren Daten haben, können Sie sich gerne mit Fragen oder Erläuterungen an uns wenden.

Comments are closed.