A janë Shkenca e të Dhënave dhe Hadoop i të Dhënave të Mëdha? A ka ndonjë ndryshim mes tyre apo të dy nënkuptojnë të njëjtën gjë?


përgjigje 1:

Jo, definitivisht jo.

Le ta ndajmë këtë problem në tre pjesë:

Shkenca e të Dhënave është një specializim për zgjidhjen e problemeve të ndryshme me metoda të ndryshme nga statistikat, kombinatorët, matematika dhe shkenca kompjuterike etj.)

Big Data: Big Data në kuptimin më të gjerë është një koncept për trajtimin e sasive të mëdha të të dhënave (termi "i madh është relativ") jashtë metodave tradicionale.

Hadoop: Hadoop është një kornizë ose një mjedis në të cilin sasi të mëdha të të dhënave mund të menaxhohen dhe analizohen me mjete të ndryshme (PIG, HIVE, Scoop, Fume, etj.).

referencat:

Udhëzues Hadoop

Shkenca e të dhënave

Të dhëna të mëdha


përgjigje 2:

Unë mendoj se keni menduar se "Science Science" dhe "Big Data Hadoop" ishin dy gjëra të ndryshme, por në të vërtetë ka tre. Shkenca e të dhënave, të dhënat e mëdha dhe Hadoop kanë kuptime të ndryshme.

Le të themi se jeni një nxënës i klasës së 10-të. Ju është dhënë detyra të mesatarizoni notat e fituara nga shokët tuaj të klasës në secilën lëndë. Ju keni 50 studentë në klasën tuaj, secili studion 5 lëndë. Gjetja e mesatares nuk është shkencë raketash, kështu që bëni gjithçka në një fletë Excel. Tani mësuesi juaj do t'ju kërkojë të bëni të njëjtën llogaritje për të gjitha seksionet A, B dhe C me afërsisht 150 studentë. Tabela e Excel-it është përsëri e mjaftueshme. Tani ju doni të dini se cilat janë notat mesatare të shkencës për studentët e klasës së 10 në të gjithë vendin. Kjo është rreth 14,31,861 studentë në 2016. Ju mund të mos jeni në gjendje të ruani aq shumë të dhëna në një fletë Excel, kështu që ju do t'i ruani ato në një bazë të dhënash si MySQL ose Oracle. Ju drejtoni një pyetje SQL për të gjetur mesataren. Tani jeni kurioz të shihni se si mesataret në shkencë për klasën 10 kanë lëvizur për 20 vjet, që korrespondon me afërsisht 3000000 regjistrime. Nëse do të gjenit mesataren e të 5 lëndëve dhe jo vetëm shkencën, do të përpunonit rekorde 30,000,000 x 5. Të dhënat tani janë të mëdha, e cila njihet edhe si "të dhëna të mëdha".

Big Data - sasi jashtëzakonisht të mëdha të të dhënave që mund të analizohen në mënyrë matematikore për të zbuluar modele, tendenca dhe shoqata, veçanërisht në lidhje me sjelljen dhe ndërveprimet njerëzore. - Nga Wikipedia

Ju ndoshta nuk duhet të ruani aq shumë të dhëna në MySQL ose Oracle dhe të drejtoni kërkesën tuaj SQL në miliona rekorde. Unë kurrë nuk kam përpunuar aq shumë të dhëna në një bazë të dhënash SQL, kështu që nuk do të komentoj për performancën e saj, por kam përdorur Hadoop për të përpunuar një sasi të madhe të regjistrave që janë shumë më të mëdha se sa baza e të dhënave studentore për të cilën po flasim. Hadoop është një kornizë që shpërndan të dhënat në disa sisteme, në mënyrë që të gjitha sistemet të mund të llogaritin paralelisht, gjë që rrit shpejtësinë e përgjithshme të llogaritjes, e quajtur edhe informatikë e shpërndarë. Hadoop ka sistemin e vet të skedarëve, i cili është një sistem i ruajtjes së të dhënave për të dhëna të mëdha.

Shkenca e të dhënave në terma laik është një shkencë e të kuptuarit se çfarë të bëjmë me të dhënat, të mëdha apo të vogla. Deri më tani, ne kemi provuar vetëm të bëjmë mesataren e pikëve, por një shkencëtar i të dhënave ka shikuar edhe mënyrat për të zbuluar se çfarë mund të arrihet me mesataren. Për një organizatë, ai i ndihmon ata të marrin vendime biznesi dhe të gjejnë modele që ndihmojnë menaxherët të marrin vendime më të mira dhe të shpërndajnë burime për të rritur fitimet. Shumica e shkencëtarëve të të dhënave mund të mos përdorin as Hadoop nëse nuk merren me të dhëna të mëdha. Ata zakonisht përdorin R lang ose Python për llogaritjet e tyre.

Të dhënat e mëdha janë një koncept. Hadoop është një mjet. Shkenca e të dhënave është një fushë e shkencës kompjuterike.


përgjigje 3:

Unë mendoj se keni menduar se "Science Science" dhe "Big Data Hadoop" ishin dy gjëra të ndryshme, por në të vërtetë ka tre. Shkenca e të dhënave, të dhënat e mëdha dhe Hadoop kanë kuptime të ndryshme.

Le të themi se jeni një nxënës i klasës së 10-të. Ju është dhënë detyra të mesatarizoni notat e fituara nga shokët tuaj të klasës në secilën lëndë. Ju keni 50 studentë në klasën tuaj, secili studion 5 lëndë. Gjetja e mesatares nuk është shkencë raketash, kështu që bëni gjithçka në një fletë Excel. Tani mësuesi juaj do t'ju kërkojë të bëni të njëjtën llogaritje për të gjitha seksionet A, B dhe C me afërsisht 150 studentë. Tabela e Excel-it është përsëri e mjaftueshme. Tani ju doni të dini se cilat janë notat mesatare të shkencës për studentët e klasës së 10 në të gjithë vendin. Kjo është rreth 14,31,861 studentë në 2016. Ju mund të mos jeni në gjendje të ruani aq shumë të dhëna në një fletë Excel, kështu që ju do t'i ruani ato në një bazë të dhënash si MySQL ose Oracle. Ju drejtoni një pyetje SQL për të gjetur mesataren. Tani jeni kurioz të shihni se si mesataret në shkencë për klasën 10 kanë lëvizur për 20 vjet, që korrespondon me afërsisht 3000000 regjistrime. Nëse do të gjenit mesataren e të 5 lëndëve dhe jo vetëm shkencën, do të përpunonit rekorde 30,000,000 x 5. Të dhënat tani janë të mëdha, e cila njihet edhe si "të dhëna të mëdha".

Big Data - sasi jashtëzakonisht të mëdha të të dhënave që mund të analizohen në mënyrë matematikore për të zbuluar modele, tendenca dhe shoqata, veçanërisht në lidhje me sjelljen dhe ndërveprimet njerëzore. - Nga Wikipedia

Ju ndoshta nuk duhet të ruani aq shumë të dhëna në MySQL ose Oracle dhe të drejtoni kërkesën tuaj SQL në miliona rekorde. Unë kurrë nuk kam përpunuar aq shumë të dhëna në një bazë të dhënash SQL, kështu që nuk do të komentoj për performancën e saj, por kam përdorur Hadoop për të përpunuar një sasi të madhe të regjistrave që janë shumë më të mëdha se sa baza e të dhënave studentore për të cilën po flasim. Hadoop është një kornizë që shpërndan të dhënat në disa sisteme, në mënyrë që të gjitha sistemet të mund të llogaritin paralelisht, gjë që rrit shpejtësinë e përgjithshme të llogaritjes, e quajtur edhe informatikë e shpërndarë. Hadoop ka sistemin e vet të skedarëve, i cili është një sistem i ruajtjes së të dhënave për të dhëna të mëdha.

Shkenca e të dhënave në terma laik është një shkencë e të kuptuarit se çfarë të bëjmë me të dhënat, të mëdha apo të vogla. Deri më tani, ne kemi provuar vetëm të bëjmë mesataren e pikëve, por një shkencëtar i të dhënave ka shikuar edhe mënyrat për të zbuluar se çfarë mund të arrihet me mesataren. Për një organizatë, ai i ndihmon ata të marrin vendime biznesi dhe të gjejnë modele që ndihmojnë menaxherët të marrin vendime më të mira dhe të shpërndajnë burime për të rritur fitimet. Shumica e shkencëtarëve të të dhënave mund të mos përdorin as Hadoop nëse nuk merren me të dhëna të mëdha. Ata zakonisht përdorin R lang ose Python për llogaritjet e tyre.

Të dhënat e mëdha janë një koncept. Hadoop është një mjet. Shkenca e të dhënave është një fushë e shkencës kompjuterike.