Rubriky
Blog o Internetovém marketingu

Nová služba RefinePro aneb OpenRefine hosting

Co to je RefinePro?

Prakticky jde o hosting programu OpenRefine na výkonných serverech a malé úpravy aby takový OpenRefine šel vzdáleně spravovat. Nápad to je dobrý některým lidem to jistě pomůže. Sám jsem již něco podobného měl na osobní serveru, kde mohl být OpenRefine zapnutý 24/7, to oceníte zvláště, pokud taháte velká data z internetu, zaklapnete notebook a přeruší se stahování. A to se serveru rozhodně nestane.

RefinePro

Co říkají že to přinese?

  • Jednoduchý přístup, není nutná instalace.
  • Možnost pracovat více uživatelů z více zařízení na jednom projektu
  • Bezpečné úložiště a zálohy

Jednotlivé „výhody“:

Jednoduchý přístup, není nutná instalace.

Samotná instalace klasického OpenRefine je jednoduchá, je potřeba rozbalit balíček nebo instalovat., to bych jako chyby nenazval. Umožňuje to mít věci u sebe. možnost upravit „hacknout“ nastavení například doplnit data pro existující projekt (ano, je to kostrbaté, ale je to možné 😉 ). Jelikož se jedná o open-source tak to je scela v pořádku. Pokud uživatel pracuje s OpenRefine, předpokládá je že je dostatečně počítačově gramotný a aby byl schopen program nainstalovat.

Možnost pracovat více uživatelů z více zařízení na jednom projektu

Nevím jestli se budou úpravy výrazné, ale  zatím si nedovedu se představit jak více lidí najednou pracuje s jedním datasetem. Každý uživatel musím dokonale znát data a nemohou se mu pod rukami měnit, podle toho jako kolega zrovna pracuje.  Pro firmy to může být zajímavé, ale musím tam být lepší správa projektů, než je teď.

Bezpečné úložiště a zálohy

Dělat zálohy projektů, proti tomu nemůžu říci křivého slova. Vypadá to pěkně. Ale přestane to být pěkné ve chvíli, kdy si uvědomíte, že máte důvěrná data klientů a ty posíláte strýčkovi Samovi do Ameriky. Ano je to ochrana přes ztrátou dat při ztráně notebooku nebo jeho zničením, ale od toho jsou i zálohy na firemní cloud či síťové disky. Osobně mi přijde bezpečnější nedávat data třetím osobám za mořem, zvláště pokud existují věci jako podepsaná  hustokrutopřísná NDA .

Pokud máte přesto zájem o mít data online, je to možnost nainstalovat openrefine na vlastní server, přistup k programu dostatečně zabezpečit a provozovat vlastní službu podobnou RefinePro.

 

Další úvahy a možné problémy:

Ztráta konsole, aneb zjistit aktuální stav výpočtu a skriptu

Možná nevyužíváte, ale osobně jsem ji mám velmi rád, aktuálně hodně vytvářím skripty pro OpenRefine v Jythonu . Pokud v něm programujte umožňuje vám to posílat informace o aktuální stavu do konsole. K evergreenum v konsoli patří u kolikátého řádku výpočtu  je skript, mezivýpočty, stavy serveru, ze kterých stahujete data.

Jen doufám, že bude alespoň možnost resetovat celý program OpenRefine. Typicky když se kousne nebo se dostane do stavu kdy by výpočet trval velmi dlouhou dobu.

Problémy při scrapování dat z internetu

Jedná se hlavně o problémy redirectů. Hlavně u webu co mají nastavený automatický redirect na jinou stránku či jiné data nebo jazyky pro uživatel ze zahraničí než které chce z webu získat. Další problém může nastat u omezení počtu stažení z jedné IP (poskytovatel hostingu) .

Nejistota

A když vám to vypnou tak máte po žížalkách. Pokud zrovna nebude fungovat internet a právě jste skončili, což může nemile překvapit na cestách za klientech nebo po světě.

Výkonný server

Ne každý má v práci počítač s dostatečným výpočetním výkonem a velkým množstvím RAM, proto silný server má velký potenciál zrychlit program. Každá sekunda se počítá, pokud klasifikujete velké množství dat a samotná práce zabere desítky hodin a tak je velmi lákavá možnost ušetřit 40% času načítají tím že to vypočítá server za vás. Bohužel od získané úspory času si pak musíte odečíst čas pro načtení stránky z Ameriky, což může tuhle výhodu anulovat.

Právě startuje beta RefinePro, takže se můžete přesvědči, jestli to bude stát za to.

Aktuálně se v dávkách přidávají noví uživatelé do bety RefinePro.

Zdroje:

http://googlerefine.blogspot.cz/2014/09/announcing-refinepro.html – Novinka v angličtině.

http://refinepro.com/ – Hlavní stránky projektu

Jaký názor máte Vy? Napište to komentářů …

.

Napsat komentář