Meta fa de les seves i 'scrapeja' molts nodes

Doncs, com no es podia saber, Meta (aka Facebook) porta molt de temps “scrapejant” les moltes webs conegudes i no tant per a entrenar la seva IA, saltant-se totes les convencions que hi ha (com per exemple el robots.txt). Ara s’ha filtrat una llista d’aquestes webs, aquí la notícia que ho explica (perdó pel Substack):

En aquesta llista s’hi troben moltes instàncies del fedivers (masto.es, mastodont.cat, etc.). Per sort no hi he trobat bcn.fedi.cat, però per la natura del fedivers, és molt probable que hagin obtingut les nostres publicacions des d’una instància que hi federi. Malauradament, poc podem fer per a evitar això.

Ara bé, per poc que això no és més que un joc del gat i el ratolí i qualsevol mesura que implementem per a bloquejar-los quedarà inutilitzada quan trobin com saltar-s’ho, crec que seria bo intentar aplicar alguna mesura extra a banda del robots.txt (que ara mateix bloca tota mena de bots). L’ @spla comentava que ha canviat la configuració del Nginx segons aquest model, que els hi retorna un error 444. Potser seria quelcom que podríem mirar de configurar aquí.

Bona tarda,

PS: no he sabut trobar un terme en català per a ‘scraping’, la Viquipèdia ho posa tal qual

2 'M'agrada'

Alsa, Manela! He descarregat el pdf i té 1659 pàgines. És molt poc ecolobits però aquí el deixo, per la posteritat…

Meta_Leaked_List.pdf (2.6 MB)

Deu ser que som un node massa petit… però sí, tal com dius, alguna cosa s’ha colat segur… Quin pal…

Per mi, endavant amb els experiments.

Amb en @marcelcosta ens vam inventar “raspat d’informació”. Acord número 7:

No es permet fer SPAM, publicacions creuades (crossposting) ni raspat d’informació (scraping).

Està prou bé, no? El de “publicacions creuades” pel crossposting també m’agrada. La traducció, és clar, no que es faci :slight_smile:

3 'M'agrada'

No m’estranya que Meta no tingui cap mena d’ètica, ni que ho demostri contínuament. I no deixa de fer-me ràbia cada cop que veig una instància d’aquesta actitud (en absolut exclusiva de Meta, és clar).

No sé on arribarem amb això de la mal anomenada (per ara) IA, perquè cada cop hi ha mès soroll “generat per ‘IA’” (el que també anomenen _AI slop), i imagino que aquest comença a contaminar l’alimentació de noves “IA”. Serà un càncer dins d’un càncer?

En fi, sobre les mesures:

Em sembla súper, plena confiança, moltes gràcies! :folded_hands:

2 'M'agrada'