merkwürdige Zeichen zwischen HTTP-Header und Content
Buddelflinktier
- https
Hallo,
wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.
Serverantwort:
HTTP/1.1 200 OK
Date: Fri, 06 Jan 2012 13:59:37 GMT
Server: Apache
Expires: Fri, 06 Jan 2012 14:04:37 GMT
Etag: W/"87e2e7af1764565f4248758f728e703e"
Cache-control: max-age=300
Vary: Accept-Encoding,User-Agent
X-Powered-By: Perl http://www.perl.org/
Connection: close
Transfer-Encoding: chunked
Content-Type: text/html; charset=utf-8
11f42
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:og="http://ogp.me/ns#" xml:lang="de">
...
Am Ende steht dann noch
...
</body>
</html>
<!-- Created with InterRed V12.0-x.x.x.x, http://www.interred.de/, by InterRed GmbH -->
<!-- BID: 16, iBID: 721625, CID: 20, iCID: 1357206 -->
<!-- Link: $(LB16:Linktext)$ $(LC20:Linktext)$ -->
<!-- Generiert: 2012-01-06 10:42:15 -->
0
Was bedeutet dabei "11f42" und am Ende "0"?
Schaue ich mir den Quellcode in div. Browsern an, fehlen diese Parts, ebenso bei curl und wget. Bei einigen Sniffern sind sie vorhanden. In der RFC 2616 und auch beim W3C finde ich keine Infos.
Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.
VG
Andreas
Hi,
wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.
auf welche Weise - exakt! - erfolgt dieser Aufruf?
Was bedeutet dabei "11f42" und am Ende "0"?
Zunächst einmal, dass Deine Ausgabe um "11f42" und "0" angereichert wird. Ich beispielsweise habe das nicht.
Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.
Hier wären Details bzw. Programmcode sinnvoll.
Cheatah
Hi
Hi,
wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.
auf welche Weise - exakt! - erfolgt dieser Aufruf?
telnet www.heise.de 80
Trying 193.99.144.85...
Connected to www.heise.de.
Escape character is '^]'.
GET / HTTP/1.1
Host: www.heise.de
HTTP/1.1 200 OK
Date: Fri, 06 Jan 2012 15:29:37 GMT
Server: Apache
Expires: Fri, 06 Jan 2012 16:04:37 GMT
Etag: W/"87e2e7af1764565f4248758f728e703e"
Cache-control: max-age=300
Vary: Accept-Encoding,User-Agent
X-Powered-By: Perl http://www.perl.org/
Connection: close
Transfer-Encoding: chunked
Content-Type: text/html; charset=utf-8
11dc0
<!DOCTYPE ...
Auf mehreren Linux-Servern (Debian) erhalte ich identische Ergebnisse mit beschriebenem Problem.
Was bedeutet dabei "11f42" und am Ende "0"?
Zunächst einmal, dass Deine Ausgabe um "11f42" und "0" angereichert wird. Ich beispielsweise habe das nicht.
Erscheint auch nur, wenn der exakte Response betrachtet wird. Gängige Browser "optimieren" das raus. Das Problem betrifft auch nicht alle Websites. Dieser Sniffer http://www.rexswain.com/httpview.html reproduziert das Problem.
Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.
Hier wären Details bzw. Programmcode sinnvoll.
C++, ist aber eigenlich nicht relevant. Dort ist mir das erst aufgefallen, dachte erst es liegt an meinem Quellcode, aber den Fehler konnte ich anderweitig reproduzieren.
Cheatah
Andreas
Tach,
GET / HTTP/1.1
das ist wie Vinzenz verlinkt der Auslöser, ein HTTP-1.0-Client ist einfach zu implementieren oder per telnet nachgespielt, bei HTTP 1.1 sieht das schon anders aus.
mfg
Woodfighter
Hallo,
wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.
[...]
Transfer-Encoding: chunked
aha!
Content-Type: text/html; charset=utf-8
11f42
ist doch klar: chunk-size.
gefolgt vom chunk-body
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">
[...]
0
last-chunk
[/code]
Was bedeutet dabei "11f42" und am Ende "0"?
Schaue ich mir den Quellcode in div. Browsern an, fehlen diese Parts, ebenso bei curl und wget. Bei einigen Sniffern sind sie vorhanden. In der RFC 2616 und auch beim W3C finde ich keine Infos.
http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.6.1
Freundliche Grüße
Vinzenz
Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.
use wget
Das gibt es unter der GPL auch im Quelltext...