scraping dati e url aggiuntivi
Moderatore: Moderatore ADB
- Gothrek
- Moderatore
- Messaggi: 4866
- Iscritto il: 13/07/2017, 13:30
- Città: Roma
- Grazie Inviati: 17 volte
- Grazie Ricevuti: 272 volte
scraping dati e url aggiuntivi
ciao @motoschifo
mi ricordo quando ne parlammo che diversi software di scraping hanno delle api dedicate, io mi appoggio ancora su quelle "ufficiali" che mi avevi dato.
Volevo capire come recuperare tutta una serie di info che nel json "base" non ho, faccio alcuni esempi, ma in generale vale per tutte le info:
la prima cosa (sicurametne colpa mia), non ho capito i numeri tra parentesi nel titolo cosa rappresentano. NOn nascondo che mi creano non pochi prob, perchè quando faccio scraping di una rom cerco di capire se è già presente nel mio db locale e laddove non matcha md5 prova a cercare se esiste un titolo uguale (che chiaramente non trova) e di fatto crea un nuovo gioco nel db. La morale era capire se ci fosse esposto anche il titolo "pulito".
Poi mi mancano tante info nel json, dall''url della scritta (ultile per fare la composizione dello screenshot finale), cosi come tante immagini/video in cui non c'è esposto l'url.
Poi mancano tante info che non saprei come recuperare.
Non so se hai delle api che lo fanno già e che posso usare oppure no.
Grazie come sempre.
mi ricordo quando ne parlammo che diversi software di scraping hanno delle api dedicate, io mi appoggio ancora su quelle "ufficiali" che mi avevi dato.
Volevo capire come recuperare tutta una serie di info che nel json "base" non ho, faccio alcuni esempi, ma in generale vale per tutte le info:
la prima cosa (sicurametne colpa mia), non ho capito i numeri tra parentesi nel titolo cosa rappresentano. NOn nascondo che mi creano non pochi prob, perchè quando faccio scraping di una rom cerco di capire se è già presente nel mio db locale e laddove non matcha md5 prova a cercare se esiste un titolo uguale (che chiaramente non trova) e di fatto crea un nuovo gioco nel db. La morale era capire se ci fosse esposto anche il titolo "pulito".
Poi mi mancano tante info nel json, dall''url della scritta (ultile per fare la composizione dello screenshot finale), cosi come tante immagini/video in cui non c'è esposto l'url.
Poi mancano tante info che non saprei come recuperare.
Non so se hai delle api che lo fanno già e che posso usare oppure no.
Grazie come sempre.
-
motoschifo
- Progetto Arcade Database
- Messaggi: 3272
- Iscritto il: 12/07/2013, 20:29
- Medaglie: 2
- Città: Parma
- Località: Parma
- Grazie Inviati: 32 volte
- Grazie Ricevuti: 32 volte
- Contatta:
Re: scraping dati e url aggiuntivi
Le info che trovi sono quelle pubblicate per tutti, a parte altre pagine dedicate (ma poco utili se non ai diretti interessati). Direi che se non trovi qualcosa occorre inserirla/gestirla.
Tra le cose che hai elencato il titolo pulito di un gioco l'ho rimosso tempo fa perchè lo facevo io manualmente, quindi non avevo il tempo di seguirlo con attenzione.
L'url della scritta si può aggiungere ma ho evitato di metterle tutte per non intasare il server.
Non vorrei metterci troppo perchè già le info gestite servono al 99% per il recupero di un paio di immagini e della history.
Devi però dirmi quali cose non trovi e quali vorresti... poi sui tempi non saprei dirti ancora, sono mesi che non faccio pause se non qualche domenica ogni tanto e ferie non ne vedo da un anno o più... ed oggi è uscito pure un altro Mame
Tra le cose che hai elencato il titolo pulito di un gioco l'ho rimosso tempo fa perchè lo facevo io manualmente, quindi non avevo il tempo di seguirlo con attenzione.
L'url della scritta si può aggiungere ma ho evitato di metterle tutte per non intasare il server.
Non vorrei metterci troppo perchè già le info gestite servono al 99% per il recupero di un paio di immagini e della history.
Devi però dirmi quali cose non trovi e quali vorresti... poi sui tempi non saprei dirti ancora, sono mesi che non faccio pause se non qualche domenica ogni tanto e ferie non ne vedo da un anno o più... ed oggi è uscito pure un altro Mame
Motoschifo
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
- Gothrek
- Moderatore
- Messaggi: 4866
- Iscritto il: 13/07/2017, 13:30
- Città: Roma
- Grazie Inviati: 17 volte
- Grazie Ricevuti: 272 volte
Re: scraping dati e url aggiuntivi
ciao, no ferie, troppo lavoro? devi far crescere un discepolo hahahahmotoschifo ha scritto: ↑19/05/2020, 20:56 Le info che trovi sono quelle pubblicate per tutti, a parte altre pagine dedicate (ma poco utili se non ai diretti interessati). Direi che se non trovi qualcosa occorre inserirla/gestirla.
Tra le cose che hai elencato il titolo pulito di un gioco l'ho rimosso tempo fa perchè lo facevo io manualmente, quindi non avevo il tempo di seguirlo con attenzione.
L'url della scritta si può aggiungere ma ho evitato di metterle tutte per non intasare il server.
Non vorrei metterci troppo perchè già le info gestite servono al 99% per il recupero di un paio di immagini e della history.
Devi però dirmi quali cose non trovi e quali vorresti... poi sui tempi non saprei dirti ancora, sono mesi che non faccio pause se non qualche domenica ogni tanto e ferie non ne vedo da un anno o più... ed oggi è uscito pure un altro Mame
se la scritta non la stai piu' gestendo inutile metterla concordo
ti elenco i dati di cui avrei bisogno, per i tempi vedi tu
-
motoschifo
- Progetto Arcade Database
- Messaggi: 3272
- Iscritto il: 12/07/2013, 20:29
- Medaglie: 2
- Città: Parma
- Località: Parma
- Grazie Inviati: 32 volte
- Grazie Ricevuti: 32 volte
- Contatta:
Re: scraping dati e url aggiuntivi
In realtà non sarebbe male come idea... tempo fa volevo rendere il sito open source su github ma poi il tempo è sempre pochissimo...
Motoschifo
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
- Gothrek
- Moderatore
- Messaggi: 4866
- Iscritto il: 13/07/2017, 13:30
- Città: Roma
- Grazie Inviati: 17 volte
- Grazie Ricevuti: 272 volte
Re: scraping dati e url aggiuntivi
fai un sondaggio su arcadeitalia primamotoschifo ha scritto: ↑20/05/2020, 15:21In realtà non sarebbe male come idea... tempo fa volevo rendere il sito open source su github ma poi il tempo è sempre pochissimo...
a questo punto io partirei con la richiesta più semplice (se mi confermi che la scritta non è piu' manutenuta).
la più necessaria per me è avere il titolo "ufficiale" in un altro campo nel risultato del json (original_title?)
questa esigenza come ti dicevo è molto importante per me, perchè quando faccio lo scraping di una rom, laddove non la trova, prova a cercarla per titolo.
-
motoschifo
- Progetto Arcade Database
- Messaggi: 3272
- Iscritto il: 12/07/2013, 20:29
- Medaglie: 2
- Città: Parma
- Località: Parma
- Grazie Inviati: 32 volte
- Grazie Ricevuti: 32 volte
- Contatta:
Re: scraping dati e url aggiuntivi
Il campo l'ho rimosso circa 6 mesi fa, era un titolo semplificato ma come scritto inserito manualmente per avere qualcosa di affidabile.
Ma tu mi parli di "original title", mi fai un esempio?
E come dovrei ottenerlo visto che io ho solo il nome del gioco che mi da il mame?
Con "scritta" io intendo l'immagine del logo del gioco, che è ancora mantenuto ovviamente, ma ce ne sono poche rispetto alle normali immagini in quanto non gestito da AntoPisa.
Ma tu mi parli di "original title", mi fai un esempio?
E come dovrei ottenerlo visto che io ho solo il nome del gioco che mi da il mame?
Con "scritta" io intendo l'immagine del logo del gioco, che è ancora mantenuto ovviamente, ma ce ne sono poche rispetto alle normali immagini in quanto non gestito da AntoPisa.
Motoschifo
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
- Gothrek
- Moderatore
- Messaggi: 4866
- Iscritto il: 13/07/2017, 13:30
- Città: Roma
- Grazie Inviati: 17 volte
- Grazie Ricevuti: 272 volte
Re: scraping dati e url aggiuntivi
dunque per titolo originale intendo per esempio:motoschifo ha scritto: ↑21/05/2020, 22:29 Il campo l'ho rimosso circa 6 mesi fa, era un titolo semplificato ma come scritto inserito manualmente per avere qualcosa di affidabile.
Ma tu mi parli di "original title", mi fai un esempio?
E come dovrei ottenerlo visto che io ho solo il nome del gioco che mi da il mame?
Con "scritta" io intendo l'immagine del logo del gioco, che è ancora mantenuto ovviamente, ma ce ne sono poche rispetto alle normali immagini in quanto non gestito da AntoPisa.
4D-Warriors rispetto a 4-D Warriors (315-5162)
in teoria potrebbe essere banale dire elimina tutto quello da prima della paraentesi aperta, ma in generale non so se questo varrebbe per tutti ora e per sempre.
non so se questa info tu la hai.
Per la scritta si ho capito, effettivametne se non è manutenuta concordo che sia meglio non mostrarla.
-
motoschifo
- Progetto Arcade Database
- Messaggi: 3272
- Iscritto il: 12/07/2013, 20:29
- Medaglie: 2
- Città: Parma
- Località: Parma
- Grazie Inviati: 32 volte
- Grazie Ricevuti: 32 volte
- Contatta:
Re: scraping dati e url aggiuntivi
Il nome semplificato si può gestire, ma è un dato che non esiste ne sul Mame ne in nessun altro sito.
Io lo avevo aggiunto solo perchè serviva a me per avere la lista del mio front-end di casa, integrato con il sito (all'epoca locale) e quindi ero io che mettevo a posto i nomi manualmente.
Farlo come attributo della scheda gioco vorrebbe dire autorizzare quei nomi e controllarli in caso di cambiamento.
La regola che avevo usato era molto complessa perchè la parentesi da sola non basta, ma si può trovare qualcosa insieme per capire come fare.
Se ha senso lo aggiungo comunque, alla fine forse potrebbe tornare utile anche ad altri.
Io lo avevo aggiunto solo perchè serviva a me per avere la lista del mio front-end di casa, integrato con il sito (all'epoca locale) e quindi ero io che mettevo a posto i nomi manualmente.
Farlo come attributo della scheda gioco vorrebbe dire autorizzare quei nomi e controllarli in caso di cambiamento.
La regola che avevo usato era molto complessa perchè la parentesi da sola non basta, ma si può trovare qualcosa insieme per capire come fare.
Se ha senso lo aggiungo comunque, alla fine forse potrebbe tornare utile anche ad altri.
Motoschifo
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
-
motoschifo
- Progetto Arcade Database
- Messaggi: 3272
- Iscritto il: 12/07/2013, 20:29
- Medaglie: 2
- Città: Parma
- Località: Parma
- Grazie Inviati: 32 volte
- Grazie Ricevuti: 32 volte
- Contatta:
Re: scraping dati e url aggiuntivi
Intanto ho ripristinato la vecchia gestione, che era già bella completa a dire il vero:
- nuovo campo in tabella
- nuova info nella scheda mame
- gestione di proposta da web, con accettazione/rifiuto o modifica da parte mia ed invio notifica via mail in automatico (se indicata)
- gestione della ricerca anche per quella parte di titolo
- gestione se valorizzata oppure no, in quel caso viene preso di default il titolo normale
Ora mancano due pezzi:
- proposta automatica con regole per scremare il titolo (numeri, parentesi, ecc)
- verifica all'import per poter rivalidare quel campo
- nuovo campo in tabella
- nuova info nella scheda mame
- gestione di proposta da web, con accettazione/rifiuto o modifica da parte mia ed invio notifica via mail in automatico (se indicata)
- gestione della ricerca anche per quella parte di titolo
- gestione se valorizzata oppure no, in quel caso viene preso di default il titolo normale
Ora mancano due pezzi:
- proposta automatica con regole per scremare il titolo (numeri, parentesi, ecc)
- verifica all'import per poter rivalidare quel campo
Motoschifo
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
CAB ›MameOriz ›MameVert ›PCB ›NeoGeo ›TopDrive ›Tekken3 Wishlist ›PacMan ›Arkanoid
Flipper ›HighSpeed Wishlist ›MedievalMadness ›MonsterBash ›HighSpeed2 Web ›ArcadeDatabase
- Gothrek
- Moderatore
- Messaggi: 4866
- Iscritto il: 13/07/2017, 13:30
- Città: Roma
- Grazie Inviati: 17 volte
- Grazie Ricevuti: 272 volte
Re: scraping dati e url aggiuntivi
ottimo,
la mia idea, vediamo se ti piace è incrociarlo col le info cpu, forse ne sai più tu di come compongono il nome ma prendendo esempio dal 4d-warriors trovo:
CPU:
Sega 315-5162, Zilog Z80
anche io volevo evitare di cercare la parentesi e tagliare il nome che potrebbe portare a cassare caratteri "veri"
la mia idea, vediamo se ti piace è incrociarlo col le info cpu, forse ne sai più tu di come compongono il nome ma prendendo esempio dal 4d-warriors trovo:
CPU:
Sega 315-5162, Zilog Z80
anche io volevo evitare di cercare la parentesi e tagliare il nome che potrebbe portare a cassare caratteri "veri"