Ein Torrent mit Facebook-Daten

by Linus Neumann on Juli 27, 2010

UPDATE 23:31h: Da es offensichtlich Missverständnisse gibt: ICH habe den Crawler nicht selber geschrieben! Ich verlinke Ron Bowes von Skull Security. Bitte auch an IHN wenden, wenn ihr ihm helfen wollt!

Da ich ja selber nicht bei Facebook bin, muss ich mir ja überlegen, wie ich trotzdem an die ganzen Daten komme. Ron Bowes hat ein bisschen gecrawlt und das Ergebnis als Torrent bereitgestellt.

Die 2.8GB enthalten:

  • die URL jedes suchbaren Facebook Benutzerprofils
  • den Namen jedes suchbaren Facebook-Nutzers (unique und nummeriert, perfect  zur Datenaufbereitung)
  • verarbeitete Listen, darunter Vorname mit count, Nachname mit count, potentielle Nutzernamen mit count… (leider weiß ich nicht genau, was „count“ im Facebook-Universum bedeutet. Dazu müsste ich mir die Daten erst einmal ansehen. Zum Beispiel mit R. Ich vermute aber, dass es die Anzahl der Freunde bezeichnet. UPDATE: Es bezeichnet die Häufigkeit des jeweiligen Namens)
  • das Script zum Crawlen

Als nächstes sollen dann auch die Freunde der suchbaren Nutzer indiziert werden, damit man auch wirklich alle Personen hat. Dazu wird natürlich exponentiell mehr Bandbreite benötigt. Wer solche hat, und einen ssh-Zugang bereitstellen will, kann beim crawlen helfen. Wer nur mal gucken möchte, findet hier den Torrent.

PS: Die Daten sind nicht wirklich soooo besonders privacy-relevant. Ihr habt das ja alles so eingestellt…? Sie helfen nur der kleinen ideologisch verblendeten Minderheit ohne Facebook-Account ein bisschen an der „XXX ist jetzt bei Facebook. Melde dich bei Facebook an, um dich mit XXX zu vernetzen…“-Seite vorbei.

UPDATE 28.07.10 – 12:30h: Ich habe jetzt ein bisschen mit den Daten herumgespielt. Mein erster Eindruck hat sich bestätigt: Besonders privacy-relevant sind sie nicht. Entgegen meiner ersten Vermutung kommt man auch nicht den Startseiten vorbei, man kommt nur schneller dorthin. Ron hat im Prinzip die ‚interessantesten‘ Analysen schon gemacht: Wie häufig sind welche Vor-/Nachnamen? Interessant würde es erst, wenn sich die Netzwerk-Daten mit erfassen ließen. Da wäre auch eine teilweise Erfassung schon aufschlussreich.

Was seine Methode ausmacht, ist eher die Effizienz, mit der sie die Daten gesichert hat, denn die numerischen IDs sind nicht fortlaufend.

Der nächste naheliegende Weg, den Infopool zu vergrößern, wäre nun mit den numerischen IDs der URLs (http://www.facebook.com/people/-Aab-Abby-Abswift/100000682157768) über http://graph.facebook.com/100000682157768 noch das Geschlecht und das locale-Setting abzugreifen. Die werden da sehr parser-freundlich dargestellt, ich denke aber, dass Facebook nach nicht allzu vielen Zugriffen darauf von einer IP selbstverständlich blocken wird – hat es schon jemand probiert?

PPS: Zum Thema noch Alexander Lehmanns aktueller Facebook-Film für Extra3.

9 comments

[…] und ggf. weiteren preisgegebenen Daten in einem 2,8 GB großen Torrent-File aufzutauchen. Da hat jemand einen Crawler gebastelt, der diese Daten gesammelt haben will. Und im nächsten Schritt sollen […]

by 2,8 GB Facebook-Datensätze als Torrent : netzpolitik.org on 27. Juli 2010 at 20:53. #

Ich könnt helfen hab ne 1 und 1 20mbit leitug reicht das ?

by Sonderzeichen on 27. Juli 2010 at 22:31. #

Hey Sonderzeichen,
ich denke das ist eine gute Ausstattung. Wende dich aber bitte direkt an Rob über http://www.skullsecurity.org/blog/?p=887

by Linus on 27. Juli 2010 at 23:55. #

[…] ihr helfen wollt oder Interesse an dem Torrent habt -> http://www.linus-neumann.de/2010/07/27/ein-torrent-mit-facebook-daten/ […]

by 2,8 GB Facebook Daten “gecrawlt” « PHP-Friends on 28. Juli 2010 at 00:05. #

das wäre ein verstoß gegen die Robots.txt von Facebook, lasst euch nicht erwischen. Facebook hat bereits crawler verklagen lassen.

by Bertrahm Bertibert on 28. Juli 2010 at 12:14. #

[…] GB Facebook Daten gesammelt. http://www.linus-neumann.de/2010/07/27/ein-torrent-mit-facebook-daten/ #facebook #datenschutz […]

by Tweets von 2010-07-28 « PHP-Friends on 28. Juli 2010 at 13:24. #

nicht so schlau, das in die ganze Welt hinaus zu posaunen…

Was IMHO interessanter wäre, als die Seite selbst zu crwln, ist sich Daten anzusehen die man als FakeBooce Connect Partner bekommt.

Das wäre mal richtig spannend zu wissen.

Zum Glück gibt es mutige Nerds und FakeBooce OffLiner 😉

by freeFLOW on 29. Juli 2010 at 01:28. #

wie kann man nur so langeweile haben und sich an die daten anderer menschen aufgeilen?
anstatt seine inteligenz für sinnvolle sachen zu nutzen oder einfach mal an die frische luft zu gehen und das hirn zu lüfften, gibt es individuen die es für interessanthalten fremde daten im netz zu verbreiten und irgentwelche seiten zu „crawlen“.
lässt es intelligenz nicht eher dumm erscheinen, wenn man sie für so nutzloses zeug verwendet?
mal ein gewagter vergleich, was ist sinnvoller?:
situation 1(intelligenz): Ich stehe morgens um 14uhr auf, schnappe mir die kallte pizza vom vortag die verkertrum auf dem boden liegt und mir den teppich versaut hatt und esse sie zum frühstück. Starte meinen rechner, crawle eine internet seite und stelle 2,8gb daten als torrent ins netz und freu mich wie intelligent ich doch bin
oder
Situation 2(leben):
da mien nachber die idee hatte um 7uhr wäsche zuwaschen fall ich aus dem bett.beim duschen bemerkst du schreckhaft das das es scheiße ist wenn an einem sonnabend früh das warme wasser nicht funktioniert,egal jetzt bist du wach. mit leichten erfrierungs erscheinungen entschließt du dich dir mal was besonderes zu gönnen, da die geldböre fast genauso lehr ist wie dein konnte werdens nur brötchen. wärend er fahrt zum bäcker stellst du fest das dein kurzzeit gedächnis schon mal besser funktioniert hatt, schlüssel vergessen.
nach dem du entlich deine brötchen hast ist dein auto der meinung nähe zu einem anderen fahrzeug zu suchen, krach.
du willst den autofahre den du gerammt ast anscheien und dir mal richtig luft machen, leider meldet das auge ams hirn das es sich um eine autofahrerin handelt deren aussehen dein sprachzentru beeinträchtigt und nur noch die worte „lust auf nen kaffee?“ rauslassen.
unerwarted olgt ein „ja gern“ und zufuß gehts weiter richtung zu dir.
leicht verwundert warum du deine tür mit einer ec-karte öffnet frückstückt ihr zu zweit und tauscht eure daten persönlich (und das nicht nur wegen dem unfall)

2 unterschiedliche versionen. wie schon geagt ein gewagter vergleich, aber was ist davon sinnvoller? Intelligenz oder leben?
kann ja sein das man mich als trottel beschimpft oder mich sinnlos auf meine rechtschreibfehler hinweist, aber lieber leben als intelligenz für nutzlose sachen im netz zu verschwenden….

by keinanstandswauwau on 31. Juli 2010 at 16:36. #

@keinanstandswauwau: Kannst du das vielleicht noch etwas genauer erklären, ich verstehe den Zusammenhang leider nicht, aber es klingt sehr interessant.

Aber vorher nochmals der Hinweis: Ich habe die Daten nicht gecrawlt. Ich habe Sie auch nicht ins Netz gestellt, und auch keine kalte Pizza gegessen oder ein Auto gerammt.

@freeFLOW: Zustimmung!

by Linus Neumann on 31. Juli 2010 at 16:59. #

Leave your comment

Required.

Required. Not published.

If you have one.