vorgeschriebene Zeichen zwischen HTTP-Header und Content von Vinzenz Mai, 06.01.2012 15:45

merkwürdige Zeichen zwischen HTTP-Header und Content

Buddelflinktier 06.01.2012 15:10

https

Hallo,

wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.

Serverantwort:

  
HTTP/1.1 200 OK  
Date: Fri, 06 Jan 2012 13:59:37 GMT  
Server: Apache  
Expires: Fri, 06 Jan 2012 14:04:37 GMT  
Etag: W/"87e2e7af1764565f4248758f728e703e"  
Cache-control: max-age=300  
Vary: Accept-Encoding,User-Agent  
X-Powered-By: Perl http://www.perl.org/  
Connection: close  
Transfer-Encoding: chunked  
Content-Type: text/html; charset=utf-8  
  
11f42  
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">  
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:og="http://ogp.me/ns#" xml:lang="de">  
...

Am Ende steht dann noch

  
...  
</body>  
</html>  
<!-- Created with InterRed V12.0-x.x.x.x, http://www.interred.de/, by InterRed GmbH -->  
<!-- BID: 16, iBID: 721625, CID: 20, iCID: 1357206 -->  
<!-- Link: $(LB16:Linktext)$ $(LC20:Linktext)$ -->  
<!-- Generiert: 2012-01-06 10:42:15 -->  
  
  
0

Was bedeutet dabei "11f42" und am Ende "0"?
Schaue ich mir den Quellcode in div. Browsern an, fehlen diese Parts, ebenso bei curl und wget. Bei einigen Sniffern sind sie vorhanden. In der RFC 2616 und auch beim W3C finde ich keine Infos.

Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.

VG
Andreas

Beitrag melden

– Informationen zu den Bewertungsregeln

merkwürdige Zeichen zwischen HTTP-Header und Content
Cheatah 06.01.2012 15:15

https
– Informationen zu den Bewertungsregeln
Hi,

wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.

auf welche Weise - exakt! - erfolgt dieser Aufruf?

Was bedeutet dabei "11f42" und am Ende "0"?

Zunächst einmal, dass Deine Ausgabe um "11f42" und "0" angereichert wird. Ich beispielsweise habe das nicht.

Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.

Hier wären Details bzw. Programmcode sinnvoll.

Cheatah

--
X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
X-Will-Answer-Email: No
X-Please-Search-Archive-First: Absolutely Yes
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. merkwürdige Zeichen zwischen HTTP-Header und Content
  
  Buddelflinktier 06.01.2012 15:41
  
  https
  – Informationen zu den Bewertungsregeln
  Hi
  
  Hi,
  
  wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.
  
  auf welche Weise - exakt! - erfolgt dieser Aufruf?
  
  telnet www.heise.de 80
  Trying 193.99.144.85...
  Connected to www.heise.de.
  Escape character is '^]'.
  GET / HTTP/1.1
  Host: www.heise.de
  
  HTTP/1.1 200 OK
  Date: Fri, 06 Jan 2012 15:29:37 GMT
  Server: Apache
  Expires: Fri, 06 Jan 2012 16:04:37 GMT
  Etag: W/"87e2e7af1764565f4248758f728e703e"
  Cache-control: max-age=300
  Vary: Accept-Encoding,User-Agent
  X-Powered-By: Perl http://www.perl.org/
  Connection: close
  Transfer-Encoding: chunked
  Content-Type: text/html; charset=utf-8
  
  11dc0
  <!DOCTYPE ...
  
  Auf mehreren Linux-Servern (Debian) erhalte ich identische Ergebnisse mit beschriebenem Problem.
  
  Was bedeutet dabei "11f42" und am Ende "0"?
  
  Zunächst einmal, dass Deine Ausgabe um "11f42" und "0" angereichert wird. Ich beispielsweise habe das nicht.
  
  Erscheint auch nur, wenn der exakte Response betrachtet wird. Gängige Browser "optimieren" das raus. Das Problem betrifft auch nicht alle Websites. Dieser Sniffer http://www.rexswain.com/httpview.html reproduziert das Problem.
  
  Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.
  
  Hier wären Details bzw. Programmcode sinnvoll.
  
  C++, ist aber eigenlich nicht relevant. Dort ist mir das erst aufgefallen, dachte erst es liegt an meinem Quellcode, aber den Fehler konnte ich anderweitig reproduzieren.
  
  Cheatah
  
  Andreas
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. merkwürdige Zeichen zwischen HTTP-Header und Content
    
    Jens Holzkämper 06.01.2012 16:10
    
    https
    
    – Informationen zu den Bewertungsregeln
    Tach,
    
    GET / HTTP/1.1
    
    das ist wie Vinzenz verlinkt der Auslöser, ein HTTP-1.0-Client ist einfach zu implementieren oder per telnet nachgespielt, bei HTTP 1.1 sieht das schon anders aus.
    
    mfg
    Woodfighter
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
vorgeschriebene Zeichen zwischen HTTP-Header und Content
Vinzenz Mai 06.01.2012 15:45

https
+3 Informationen zu den Bewertungsregeln
Hallo,

wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.

[...]

Transfer-Encoding: chunked

aha!

Content-Type: text/html; charset=utf-8

11f42

ist doch klar: chunk-size.
gefolgt vom chunk-body

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

[...]

0

last-chunk

[/code]

Was bedeutet dabei "11f42" und am Ende "0"?
Schaue ich mir den Quellcode in div. Browsern an, fehlen diese Parts, ebenso bei curl und wget. Bei einigen Sniffern sind sie vorhanden. In der RFC 2616 und auch beim W3C finde ich keine Infos.

http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.6.1

Freundliche Grüße

Vinzenz
Beitrag melden

+3
Informationen zu den Bewertungsregeln
merkwürdige Zeichen zwischen HTTP-Header und Content
Fred Furunkelstein 2012 08.01.2012 02:17

https
+1 Informationen zu den Bewertungsregeln
Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.

use wget

Das gibt es unter der GPL auch im Quelltext...
Beitrag melden

+1
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Buddelflinktier: merkwürdige Zeichen zwischen HTTP-Header und Content

merkwürdige Zeichen zwischen HTTP-Header und Content