Karina: Website vorhanden?

Hallo,

Ich würde gerne ein Programm schreiben was mir zu einer Adresse die Homepage liefert. Zunächst dachte ich: Adresse -> Googlen -> Erster Treffer = Homepage, aber das ist nicht immer der Fall und vorallem liefert google auch min. 20 Adressdatenbanken mit der Adresse, aber eben nicht die Homepage von der Firma. Also wie könnte man das Automatisieren? Fällt euch was ein?

Karina

  1. Hi,

    Ich würde gerne ein Programm schreiben was mir zu einer Adresse die Homepage liefert. Zunächst dachte ich: Adresse -> Googlen -> Erster Treffer = Homepage, aber das ist nicht immer der Fall und vorallem liefert google auch min. 20 Adressdatenbanken mit der Adresse, aber eben nicht die Homepage von der Firma. Also wie könnte man das Automatisieren?

    Na welchem Kriterium soll dein Programm beurteilen (können), ob es sich um die gesuchte Seite handelt?

    Diese Frage ist die ganz wesentliche, auf die du eine Antwort finden musst, wenn du sowas umsetzen willst.

    MfG ChrisB

    --
    Light travels faster than sound - that's why most people appear bright until you hear them speak.
    1. Hi,

      Habe Deine Frage nicht ganz verstanden bzw. ist das ja genau die Frage die sich mir stellt, glaube ich...

      Ich habe eine Vollständige Adresse und möchte das mein Programm selbständig in der Lage ist nach zu schauen ob es dafür eine Website gibt. So eine Art Suchmaschine nur für die eine Adresse eben. Oft liefert Google als erstes Ergebnis schon die Homepage, aber manche Firmen sind nicht so gut gelistet, haben aber bei einen der Adress-Datenbanken ihre HP hinterlegt. Wie unterscheide ich Adress-Datenbank von Homepage? bzw. könnte man allen Links der Adress-DB folgen bis im IMpressum wieder die Adresse auftaucht, aber dann hätte Google Sie ja drinne!?

      Karina

      1. Hello,

        Ich habe eine Vollständige Adresse und möchte das mein Programm selbständig in der Lage ist nach zu schauen ob es dafür eine Website gibt.

        setze einen HTTP-Head-Request ab und werte den Status-Code de Antwort aus.
        Sollte der Head-Request innerhalb eines innerhalb der Scriptlaufzeit lkiegenden Timeout keine Antwort erhalten, merke Dir in Deiner Datenbank, dass Du am ... um ... erfolglos ... Minuten gewartet hast.

        Beim nächsten Mal klappt es vielleicht.

        Habe ich genug neue Frage generiert?

        Liebe Grüße aus dem schönen Oberharz

        Tom vom Berg

        --
        Nur selber lernen macht schlau
        http://bergpost.annerschbarrich.de
        1. Hi,

          setze einen HTTP-Head-Request ab und werte den Status-Code de Antwort aus.

          Ich habe mir dafür eine Funktion geschrieben, weil ich bei User-generated Content "existierende" Webadressen von "nicht existierenden" Webadressen unterscheiden wollte!

          Ergebnis: Nicht möglich!!!11!1elf!

          Man glaubt gar nicht, wie falsch viele Server (oder deren CMS) eingerichtet sind (nicht nur "kleine Klitschen", sondern auch "große" Sites). Da kommen trotz tollster Endlosumleitungen und haarsträubendster Fehlercodes Daten, die die fehlertoleranten Browser klaglos darstellen. Fehlerseiten mit "gutem" Statuscode gibt es natürlich auch.

          Deswegen teste ich nur noch auf die Domain selbst (gethostbyname() - ggf. vorher Sonderzeichen in Punycode umwandeln!).

          Auf die "Existenz" der konkret angegebenen Webseite teste ich trotzdem, und lasse mir die "failes" zur Belustigung per Mail zuschicken. Ich sammle die, und schreibe vielleicht mal ein Buch drüber ... =:->

          Gruß, Cybaer

          --
          Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
          (Joseph Joubert, Schriftsteller)
          1. Hello,

            Auf die "Existenz" der konkret angegebenen Webseite teste ich trotzdem, und lasse mir die "failes" zur Belustigung per Mail zuschicken. Ich sammle die, und schreibe vielleicht mal ein Buch drüber ... =:->

            bis das fertig ist, hat Uschi von der Laie das Internet längst abgeschafft.

            Liebe Grüße aus dem schönen Oberharz

            Tom vom Berg

            --
            Nur selber lernen macht schlau
            http://bergpost.annerschbarrich.de
            1. Hi,

              bis das fertig ist, hat Uschi von der Laie das Internet längst abgeschafft.

              Die bekommt auf jeden Fall ein Extra-Kapitel!

              Gruß, Cybaer

              --
              Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
              (Joseph Joubert, Schriftsteller)
      2. Mahlzeit Karina,

        Ich habe eine Vollständige Adresse und möchte das mein Programm selbständig in der Lage ist nach zu schauen ob es dafür eine Website gibt.

        Definiere "es gibt eine Website für eine (Post-)Adresse". Was genau soll das bedeuten?

        • Es gibt eine Website, die irgendwo in ihrem Impressum oder ihren Kontaktdaten die zu überprüfende (Post-)Adresse angibt. Zusatzfrage: wie soll irgendein Programm das herausfinden? Einfach mal pauschal das gesamte Internet herunterladen und dann durch alle Seiten suchen, ob vielleicht irgendwo die Floskeln "Impressum", "Kontakt" o.ä. vorhanden sind und wenn ja, ob irgendwo auf diesen Seiten irgendwelche Texte vorkommen, die anscheinend so ähnlich aussehen wie eine (Post-)Adresse? Versuch' doch mal, einen brauchbaren Algorithmus zu entwickeln.

        • Es gibt eine Website, die unter einer Domain erreichbar ist, deren Inhaber die zu überprüfende (Post-)Adresse angegeben hat?

        • Es gibt eine Website, die unter einer Domain erreichbar ist, deren Admin-C die zu überprüfende (Post-)Adresse angegeben hat?

        Du solltest Dir genauer klar darüber werden, was Du eigentlich willst. Kleiner Hinweis: es gibt so etwas wie "eine (Post-)Adresse für eine Website" nicht.

        Achja: und was hat das Ganze eigentlich mit PHP zu tun?

        MfG,
        EKKi

        --
        sh:( fo:| ch:? rl:( br:> n4:~ ie:% mo:} va:) de:] zu:) fl:{ ss:) ls:& js:|
      3. Du solltest dir auch darüber im Klaren sein, dass automatische Suchanfragen an Google gegen deren Nutzungsbedingungen verstoßen und deine IP daraufhin für einige Zeit gesperrt werden kann - habe ich selbst leidvoll erfahren müssen. :)
        Christian

        1. Ab wann hast du gemerkt, dass du gesperrt warst?

          Karina

          1. Ab wann hast du gemerkt, dass du gesperrt warst?

            Google spuckte bei jeder Suchanfrage einen Text à la "Ihr Rechner hat zuviele Suchanfragen in kurzer Zeit gestellt. Vermutlich ist ihr Rechner mit einem Virus infiziert..." aus. Ich glaube, es hat dann auch etwas über einen Tag gedauert bis ich wieder suchen durfte.

            Christian

        2. Du solltest dir auch darüber im Klaren sein, dass automatische Suchanfragen an Google gegen deren Nutzungsbedingungen verstoßen

          Schreibe bitte 100x "Ich soll für solche Dinge deren darauf optimierte API verwenden und nicht unnötigerweise die HTTP-Server belasten, dann werde ich auch nicht gesperrt." :D

          1. Schreibe bitte 100x "Ich soll für solche Dinge deren darauf optimierte API verwenden und nicht unnötigerweise die HTTP-Server belasten, dann werde ich auch nicht gesperrt." :D

            Ich schwöre, dass da vor einem halben Jahr noch nicht stand, wie man die API über PHP nutzen kann. :) Alles was meine Recherchen bis dahin ergeben hatten war, dass es mal eine (registrierpflichtige) API gab für die aber keine Schlüssel mehr vergeben wurden. Ok, man hätte das JS auseinanderklamüsern können, aber soviel Lust hatte ich da auch nicht drauf.

              
            for($i=0; $i<100; $i++) echo 'Ich soll für solche Dinge deren darauf http://code.google.com/intl/de-AT/apis/ajaxsearch/ verwenden und nicht unnötigerweise die HTTP-Server belasten, dann werde ich auch nicht gesperrt.';  
            
            

            Christian

            1. Ich schwöre, dass da vor einem halben Jahr noch nicht stand, wie man die API über PHP nutzen kann. :)

              Vor einem halben Jahr gabs parallel dazu noch die SOAP-Variante.

  2. Ich würde gerne ein Programm schreiben was mir zu einer Adresse die Homepage liefert.

    Ich hätte gerne ein Programm, dass mir zu einer IPv4 Adresse den zugehörigen Planet liefert.

    Siehst du eine Ähnlichkeit?

    Du kannst allenfalls eine Beziehung zwischen domain und Adresse des Domaininhabers feststellen, indem du registrare, bzw whois Dienste anfragst.

    Adressen in Documenten sind ansonsten nichts anderes als beliebiger Content, und jede Beziehung zwischen Fund und url eher zufällig.

    mfg Beat

    --
    Woran ich arbeite:
    ><o(((°>           ><o(((°>
       <°)))o><                     ><o(((°>o
    Der Valigator leibt diese Fische
    1. Ich hätte gerne ein Programm, dass mir zu einer IPv4 Adresse den zugehörigen Planet liefert.

      Aüßerst schlechtes Beispiel, es ist naheliegen, dass es IPv4-Adressen nur auf der Erde gibt :p

      Besser wäre es die Führerscheinnummer des Fahrers anhand der Fahrgestellnummer eines Autos zu ermitteln.