Iesācēja ceļvedis no semalt tīmekļa lappusēs

Dati un informācija tīmeklī katru dienu pieaug. Mūsdienās lielākā daļa cilvēku izmanto Google kā pirmo zināšanu avotu neatkarīgi no tā, vai viņi meklē atsauksmes par uzņēmumu vai mēģina izprast jaunu terminu.

Tā kā tīmeklī ir pieejams daudz datu, tas datu zinātniekiem paver daudz iespēju. Diemžēl lielākā daļa datu tīmeklī nav viegli pieejami. Tas tiek uzrādīts nestrukturētā formātā, ko dēvē par HTML formātu, kuru nevar lejupielādēt. Tādējādi, lai to izmantotu, ir vajadzīgas datu zinātnieka zināšanas un kompetence.

Tīmekļa nokasīšana ir process, kurā HTML formātā esošie dati tiek pārveidoti strukturētā formātā, kam var viegli piekļūt un ko var izmantot. Gandrīz visas programmēšanas valodas var izmantot pareizai tīmekļa nogriešanai. Tomēr šajā rakstā mēs izmantosim R valodu.

Ir vairāki veidi, kā datus var nokopēt no tīmekļa. Daži no populārākajiem ir šādi:

1. Cilvēka kopēšana-ielīmēšana

Šī ir lēna, bet ļoti efektīva metode datu nokasīšanai no tīmekļa. Šajā paņēmienā cilvēks pats analizē datus un pēc tam tos kopē vietējā krātuvē.

2. Teksta modeļa saskaņošana

Šī ir vēl viena vienkārša, bet jaudīga pieeja informācijas iegūšanai no tīmekļa. Tas prasa izmantot regulāras izteiksmes saskaņošanas iespējas programmēšanas valodās.

3. API saskarne

Daudzas vietnes, piemēram, Twitter, Facebook, LinkedIn uc, nodrošina jūs ar publiskām vai privātām API, kuras var izsaukt, izmantojot standarta kodus, lai iegūtu datus noteiktā formātā.

4. DOM parsēšana

Ņemiet vērā, ka dažas programmas var izgūt dinamisku saturu, ko izveido klienta puses skripti. Ir iespējams parsēt lapas DOM kokā, kura pamatā ir programmas, kuras varat izmantot, lai izgūtu dažas šo lapu daļas.

Lai sāktu darbu ar Web nokasīšanu R, jums ir jābūt pamatzināšanām par R. Ja esat iesācējs, ir daudz lielisku avotu, kas var palīdzēt. Turklāt jums ir jāzina HTML un CSS. Tomēr, tā kā lielākā daļa datu zinātnieku nav pietiekami pamatoti ar HTML un CSS zināšanām, varat izmantot atvērtu programmatūru, piemēram, Selector Gadget.

Piemēram, ja jūs nokasāt datus IMDB vietnē par 100 populārākajām filmām, kas izlaistas noteiktā laika posmā, no vietnes jums ir jānokaso šādi dati: apraksts, izpildlaiks, žanrs, vērtējums, balsis, bruto ienākumi, režisors un cast. Kad esat iznīcinājis datus, varat tos analizēt dažādos veidos. Piemēram, jūs varat izveidot vairākas interesantas vizualizācijas. Tagad, kad jums ir vispārējs priekšstats par datu nodošanu metāllūžņos, varat to mainīt!