motoschifo ha scritto: ↑20/10/2019, 14:16
Gothrek ha scritto: ↑20/10/2019, 11:08
2681 rom tutti i dati sono stati recuperati in 219 sec, piu' di 12 al secondo.
download media (tutti quelli di cui passi i dati in result) - 2580 secondi, meno di 1 al secondo (inclusi i video per ul totale di quasi 20G di materiale).
Considera che la velocità è relativa, nel senso che la banda a disposizione è finita (tanta o poca comunque limitata).
Anzi ad un certo punto scattano limiti che ho imposto io sul totale file (numero o dimensione) per stesso ip, giornata, settimana o mese. Quindi magari oggi scarico 40GB, ma concorre al totale settimanale, il quale concorre al totale mensile... in questo modo, bene o male ottengo un bilanciamento per chi scarica troppo dato che poi peggiora la navigazione o i download di altri utenti.
La cosa secondo me importante è poter riprendere il processo senza sbattimenti e senza dover ripartire da capo.
Oppure che è in grado di scaricare solo le differenze rispetto all'ultima volta, evitando quindi di impegnare banda e perdere tempo.
Potrebbe essere il caso di aggiungere un campo per ciascuna risorsa (crc) o cose simili, come fa ADB-Tools, ma quel metodo di download deve prevedere poi la gestione lato client in caso di problemi (es. calcolo il crc sul file locale, poi lo confronto con quello che ho memorizzato prima ed infine con quello che arriva dal sito).
Si può fare di tutto, magari lo teniamo come miglioria finale.
tutte ottime considerazioni, forse più che limiti generali potrebbero essere legati al traffico corrente oppure come fa screenscraper potrebbe essere un modo per legarlo ad eventuali donazioni al sito.
il crc lato client lo calcolo già anche se nella tua query non viene usato queindi è già presente.
un aspetto molto importante come dici tu, lo ho dato all'update, piuttosto che riscaricare sempre tutto, valutare solo le differenze,
per altro ho implementato una repository locale come scraper di livello 0 (per chi la vuole usare), cosicchè se uno ha già scaricato il materiale lo cerca prima localmente e poi nell'ordine dei siti di scraper che ha deciso, questo dovrebbe migliorare parecchio non solo le poerfomrances ma anche le richieste verso i siti.
riprendere il processo potrei legarlo a quanto detto sopra ovvero se ho già il materiale in locale, oppure creare una entry che registri il punto preciso per poi riprendere da li senza nessun controllo.
ti chiederei (tempo permettendo), la possibilità con una query di interrogare il proprio stato pià da un ip, cosi chi usa il servizio di sraper abbia ben chiari i limiti che in quel momento ha, che ne pensi?