„CEZAR“   Individualu. Stabilu. Funkcionalu.    E-komercijos vystymo įmonė (t.y. elektroninės parduotuvės, verslas internete)

Duomenų šaltiniai (oficialūs, neoficialūs, duomenų rinkimas be sutikimo)

Paskelbta 2024 liepos 12 d.   —   „Cezar“ technologinių įžvalgų žurnalas   —   Cezar Pagalba

Tam tikriems projektams atlikti tam tikras funkcijas yra reikalingi duomenų tiekėjai ar paruošti duomenų rinkiniai. Duomenys apie kuriuos yra rašomas šis įrašas gali būti įvairūs:

  • Centrinių bankų valiutų kursai, kripto valiutų kursai, tauriųjų metalų kursai
  • Automobilių ar siunkiosios technikos atitinkamumų lentelės
  • Detalių schemos, diagramos, techninės specifikacijos, atvaizdai, tekstai
  • Aprašymai, išmatavimai, svoriai, gamintojai apie tam tikras prekes
  • Prieiga prie apskaitos programos funkcijų (duomenų apsikeitimas) - sandėlio likučiai, klientai, produktų informacija, kt.

... ar betkokio kito tipo duomenys kurie yra atsinaujinantys ir/arba priklauso kitiems žmonėms ar įmonėms.

Minėtuosius duomenų tipus galima gauti įvairiais būdais:

  1. Gauti tiesioginę prieigą iš duomenų tiekėjo (su atsinaujinančia informacija arba paruošta informacija parsisiuntimui)
  2. Gauti informaciją iš netiesioginių tiekėjo (neoficialių tiekėjū) su netiesioginių tiekėjų leidimu
  3. Gauti informacija be tiekėjų sutikimo (ar tai legalu, ar tai nelegalu priklauso nuo šalies kurioje yra ta informacija talpinama)
  4. Rinkti duomenis "scraping"/"crawling" metodu iš viešai pasiekiamų internetinių puslapių (taip veikia visos paieškos sistemos)
  5. Rinkti duomenis "scraping"/"crawling" metodu iš viešai neprieinamų internetinių puslapių (prieiga su slaptažodžiu)
  6. Rinkti duomenis iš atsisiunčiamo programos esančios ne internetiniame puslapyje

 

Įspėjimas - kadangi kiekviena situacija yra skirtinga, nėra universalaus atsakymo kuris tiktų visiems atvejams. Tačiau informacija pateikta šiame įraše tinka didžiąjai daugumai atvejų.

 

Teisingas duomenų tiekėjo pasirinkimas

Vienintelis teisingas duomenų gavimo būdas yra tik su duomenų tiekėjo sutikimu, ar oficialaus tarpininko sutikimu. Tai yra (dažniausiais atvejais) yra vienintelis patikimas ir stabilus būdas gauti atsinaujinančią informaciją. Dažniausiai tai yra mokamas sprendimas su mėnesiniais ar metiniais planais. Taip pat, tam tikrais duomenis tiekėjai atvejais leidžia naudoti viešai be sutikimo/

 

Priežastys kodėl neverta naudoti neoficialių duomenų šaltinių

  • Neoficialių duomenų galima tam tikrais atvejais rasti internete (pvz.: torrent'uose) - šie duomenys dažnais būna pasenę, juos reikia atnaujinti reguliariai. Priklausomai nuo duomenų formato reikia įvertinti ar tai patogu reguliariai atlikti. Reikia įvertinti ar naudoti tokius duomenis ilgalaikėje perspektyvoje verta.
  • Yra alternatyvūs būdai kaip "web scraping" (t.y. duomenų rinkimas iš internetinių puslapių). Principas paprastas - sukuriamas automatizuotas sprendimas kurio dėka programa surenka aktualius duomenis į naują duomenų bazę. Priklausomau nuo duomenų šaltinio apsaugos ir duomenų kiekio, reikia įvertinti ar verta naudoti tokį duomenų šaltinį. Dažnais atvejais, jei duomenys yra daugumai naudingi, svetainės yra apsaugotos nuo tokių metodų (atakų).
  • Galima rasti ir tiekėjų kurie pardavinėja tai ko negali pardavinėti oficialiai - t.y. dažnai sovietų sajungos (ru) svetainėse yra siūlomos tokios paslaugos. Ar verta naudoti tokias paslaugas būtų retorinis klausimas.