Big Data: Markt- und Entwicklungsperspektive aus der Sicht des Silicon Valley

ich möchte so ein bisschen den kontext haben und die sichtweisen aus dem silicon valley in sachen big data mit ihnen diskutieren und in den letzten sechs jahren habe ich also mit mehr als 200 firmen zusammengearbeitet in dem thema bevor wir die firma gegründet haben wie gesagt erst die plattform gebaut hat und es freut mich sehr also ich hab die kinos natürlich gesehen zu sehen das hat natürlich auch in deutschland mittlerweile ankommt kurze frage wer kennen gordon moore nicht persönlich aber okay so schon partner gordon moore gründer von intel hat natürlich das moos gesetz aufgestellt dass circa alle 18 monate die die speicherdichte die die verarbeitungs dichte sich verdoppelt haben wir alles schon gehört ja alle 18 monate kriegen war sozusagen zweimal soviel computerbauer wer kennt den drei kurzweil paar weniger hände frei kurz verhalten ganz fantastischen titel der arbeitet bei google und ist senior vice president of the future wenn ich dann irgendwann mal hinkommen würde ich mich sehr freuen drei kurzweil ist phänomenal akkurat die zukunft in der digitalen welt hervor zu sagen und was sie eigentlich nur gemacht hat ist hat des moors la genommen und hat das einfach mal zurück kalkuliert und hat also dann herausgefunden dass nummer eins wenn du nach vorne gucken 2025 werde noch rechnerkapazität haben um schneller als das gehirn zu arbeiten aber wenn wir zurückschauen die innovation dir gemessen hat nicht nur in den cpu sondern eben auch grundsätzlich in der technologie kann man also zurückverfolgen sogar bis zur steinzeit also im endeffekt jedes jahr haben wir die innovationsgeschwindigkeit verdoppelt das ist sehr schwierig wirklich ich sag mal zu verstehen weil wir menschen denken natürlich nur linear mir ein lineares leben aber die doppelte beschleunigung im wesentlichen alle 18 monate in technologie ist also doch ganz spannend und das kann man auch im big data bereich sehen ja also wir haben wie gesagt 2006 irgendwann mal aus latsch heraus hat abgebaut ja dann gab’s age basin zu keeper und haben wir häufig hinzugefügt und so weiter und so fort und wie sie sehen ob es wie gesagt ja zu lange am computer schnell die tasten gedrückt wie sie sehen ist also auch eine beschleunigung der innovationen big data da und ich würde argumentieren ist es nicht nur eine beschleunigung der innovations- auch eine beschleunigung der komplexität erkennt in alle projekte ok also also wenn wir mittlerweile über hadoop sprechen sprechen wir nicht mehr über das file system oder mapreduce sondern wir sprechen auch mittlerweile über projekte wie storm kafka etc und arrow ist erst letzte woche hinzu gekommen und es ist sehr schwierig zu beherrschen und ganz viele unternehmen haben natürlich die großen probleme erstens die leute zu finden die mit der komplexität umgehen können diese technologien kennen und natürlich zweitens daraus auch wirklich business value zu generieren und ich würde argumentieren dass da werden wir noch ein bisschen darüber reden das ganz ganz viele firmen viel zu sehr auf diese technologie fokussiert sind und wie gesagt ich bin ingenieur ich bin sehr verliebt in diese ganze technologie aber am ende ist es egal am ende ist wirklich egal was der wert ist in unternehmen daraus extrahieren können und leider viel zu häufig geht das thema um das eint ist performance in memory usw eine kurze eine kurze zwischen sache als wir damals herr dutt gebaut haben gab es sql-datenbanken deswegen haben wir uns bewusst entschieden einer sql system zu bauen das ist geht in den letzten jahren manchmal ein bisschen verloren also wenn ich mir die vorträge anhören sql und hat da nur um das mal kurz zu skizzieren ja historisch gesehen also vor 40 jahren also mittlerweile wirklich vor 40 jahren haben wir unsere klassische daten architektur gebaut wir haben eine tl prozess und wenn man also über daten als sag mal das neue rohmaterial vielleicht öl nachdenken da haben als erstes die daten gesäubert ja und vielleicht transformiert also wirklich eine struktur hinzugefügt sozusagen plastik hausgemacht und dann schmelzen wir das in einen daten schema ein das problem mit dem daten schema was alle unternehmen die mit denen wir zusammenarbeiten die ich gesehen habe ist dass sie ein schema heute definieren mit dem wissen von gestern und dann hoffen dass alle fragen der zukunft mit dem thema beantwortet werden kann das aber nicht möglich also es sei da kann jemand die zukunft voraussagen

drei kurzweil so und dann packen wir natürlich reporting obendrauf ja und das problem wir haben das er gerade gehört bei daimler ja wir wissen gar nicht was die autos der zukunft alles können ja mittlerweile 500 sensor alle zehn millisekunden versuchen wir daten auf zu dem was sind denn die fragen der zukunft und da möchte ich also einfach auch noch mal ganz kurz darauf hinweisen dass wir an dem punkt sind dass alle 18 monate wir zweimal so viel verarbeitungskapazität haben und der grund warum wir was technisch ums klima und ried genannt wird vor 40 jahren erfunden haben war dass maschinen millionen von dollar gekostet haben und wir die daten vor verarbeiten mussten in stars klima oder so fleximer sprechen mussten um indizes zu gerne denn es war schneller die verarbeitung der daten hinbekommen haben das ist vorbei wir haben den punkt erreicht das human capital einfach teurer ist als maschinen gott sei dank also als mensch sage ich gott sei dank ja und jetzt können wir das umstellen und das ist ganz wichtig wenn sie also über ihrer big data strategie nachdenken ist ganz wichtig dass sie nicht das rezept der letzten 40 jahre benutzen sondern gerade im heckbereich 1 1 1 ein prozess anwenders klima und ritus an stefan reiter also ich verändere die daten drücke die in ein schema rein sondern was wir jetzt machen können ist wir können die rohdaten in hadoop laden das haben wir vorhin gehört ja so wie sie kommen jason xml files vielleicht gibt es da schema vielleicht gibt es da keinen schimmer und hatte bis wirklich unser phänomenaler supercomputer leider water du zu oft als data warehouse verstanden ich würde aber hat er verstehen als das gegenteil von bmw wer kennt wen wir wirklich so villiger oder war der kaffee nicht stark genug wer kennt wm-ok also wm wir haben wir wissen sie alle wir haben eine physikalische maschine und dividieren die und haben dann mehrere virtuelle maschinen obendrauf gmbh und virtualisierung grundsätzlich hat ja in den letzten zehn jahren total unser datencenter revolutioniert weil wir jetzt ganz ganz schnell sag mal services und kapazitäten hoch starten können hat du bist genau umgekehrt hadoop clustered physikalische maschinen zusammen zu einem supercomputer und es ist wie gesagt nicht nur ein data warehouse sollen wir können da viel viel viel mehr machen und leider war das immer so ein bisschen missverstanden also wir laden unsere daten in hadoop und was wir jetzt machen können ist was sich historisch finanziell nicht gelohnt hat nämlich ansichten auf den daten zu stellen nämlich zum beispiel eine ansicht die die frage beantwortet kann ich denn meine logistik optimieren vielleicht eine andere ansicht die beantwortet kann man pro activ maintenance am auto machen nutzen das auto beispiel kamen ja heute mehrfach vor frauen ansicht marketing ansichten verkaufs ansichten man muss also nicht mehr nur das ist eine schema schaffen sondern man kann sich jetzt auf die gleichen daten so viele ansichten wie möglich schaffen wie gesagt ich glaube das ist ein grundlegendes missverständnis über hat ob und wie hadoop verwendet wird versuchen sie nicht sag mal das alter die alte herangehensweise mit sql und vor strukturierten daten zu nutzen sondern benutzen sie würde ich vorschlagen vor allem wenn sie zu verwenden die neue herangehensweise wie gesagt die beschleunigung der innovation hilft ihm dass sich das auch finanziell lohnt aber vor allem die beschleunigung der innovation wird ihnen vielleicht ein bein stellen wenn sie das so machen wie wir das letzten 40 jahre gemacht haben hat war bahnbrechend ja als wir das in den markt gebracht haben als ich sag mal schön gebrandet das open source projekt war es natürlich fallen in bestimmten sorting benchmarks nicht nur 50 mal billiger also wenn sie das zu orakel vergleichen oder teradata oder eine teaser oder ms sql oder ich hoffe ich habe jetzt niemanden ausgelassen den 2 war hat also nicht nur 50 mal billiger au pair terabyte bis sondern eben auch massiv schneller vor allem wenn es darum geht fuld ebel scans zu machen wenn wir uns aber heute angucken viele leute sprechen über spark muss ich fragen wer kennt spark super paar hände spark jeder redet über spark ist parkt in so beantragt in kamelle also schon ein bisschen schneller aber wie gesagt ja jetzt redet lieber

über spark wer kennt den flink ein deutsches ein deutsches projekt das mal wieder zusagen aus berlin der hauptstadt das klingt es schon wieder schneller und interessanterweise wie gesagt was ich ihr tagtäglich erleben ist dass die leute sich so darauf konzentrieren den letzten technologie hinterherzurennen dass bestimmte grundlegende architektonische entscheidung des klima und ried eben verpasst werden bedenken sie wenn sie über ihre big data technologie steckt nachdenken dass der unterste layer die hardware etwas ist was sie am schlechtesten verändern können deswegen sollten sie heute darüber nachdenken schaffe ich mir habt ihr in meinem unternehmen oder geklaut wenn ein preisargument hier die entscheidende rolle spielen spielt ob ich hardware wie rim im eigenen datencenter anleger oder die cloud gehe machen sie was falsch weil wie gesagt in 18 monaten ist die hardware die sie gerade gekauft haben wieder eilt das schöne ist wenn man liest ja kann man das natürlich kontinuierlich ausbauen also nicht nur gucken wie viel bezahle ich heute sondern wie viel bezahle ich auch in der zukunft und wie sehr zementiere ich mein unternehmen in einen technologie steckt den ich vielleicht morgen nicht verwenden kann denken sie an die doppelte an die beschleunigung jedes jahr die nicht nur die technologie die sie verwenden verändert sondern die vor allem die technologischen herausforderungen in ihrem produkt und ihnen dienstleistungen verändern wird dann kommt natürlich das datencenter es ganz häufig ein thema was überhaupt nicht gesprochen wird ja wie gesagt hat douglas dort maschinen zusammen mittlerweile sind wir an dem punkt dass die daten das datenwachstum deutlich schneller ist als noch mosler wir müssen also darüber nachdenken wie orchestrieren wir alle maschinen und da gibt es ja er kennt ja super wer kennt messe übrigens auch in deutscher gründer hochtechnologie aus deutschland auch im silicon valley erfolgreich millionen dollar venture funding da tut mir das herz weh wir hatten vorhin haben uns von unterhalten harald mp3 mp4 mpeg fax alles deutsche innovationen die im ausland dann kommerzialisiert werden das schöne ist dass wir in deutschland wirklich die die ingenieurin die das intellektuelle kapazität kapital haben aber manchmal also ich freue mich ja das wird so eine tolle konferenz haben aber manchmal wir sind einfach zu langsam die auch wieder in unsere unternehmen zu bringen ich hoffe dass die großen firmen die im raum sitzen vielleicht doch mal ein bisschen nachdenken innovative kleine firmen voranzubringen also datencenter ist ganz ganz wichtig dann kommt natürlich der speicher dann kommt die verarbeitung also wenn sie immer nur darüber diskutieren in ihrem unternehmen soll es sein soll ist es sein soll es mag sein machen sie was falsch weil das ist nicht die entscheidendste entscheidet die die wichtigste entscheidung die sie nächsten monaten treffen müssen sondern eher wie organisieren sie ihre maschinen cloud und prämissen großes messer meadows könnte durchaus ein hat jupiter sein wenn wir das uns angeschaut sehr sehr interessante technologie anstatt von einem unix prozess der sehr hart zu isolieren sehr hart zu kontrollieren in sachen security ist ist märz ist ein linux container viel viel isolierter damit geht der multi tenancy viel viel leichter ganz andere herangehensweise dass eine jahren oft da sagt man ich hätte gern 1000 maschinen ja wenn ich nur 500 habe sagt die haben ja tut mir leid und lust darauf der prozess kommt und sagt na ja ich hab nur 500 maschinen willst du die haben oder willst du die nicht haben ja ein anderer an gehens weise viel flexibler vor allem wenn man gerade elastische environments aufbauen möchte auch die scheduling policies sehr unterschiedlich die scheduling polizistin jahren zu verändern das unglaublich schwierig beim asus gibt man einfach ein eigenes catering polisina und ist ganz klassisch auf user equals 500 maschinen f user equals ingenieur weiß ich nicht zehn vielleicht oder umgekehrt je nachdem wer die politik schreibt und dann natürlich jahren ist wirklich optimiert nur auf patch und -4 viel viel interessanter total flexibel airbnb twitter sie lassen auf den gleichen maschinen tagsüber die web server laufen und nachts die analyse die zukunft ist einfach eher lästig das ganz ganz wichtig so bei meinen kollegen bin ich bekannt dass ich immer gerne mal so herausfordernde fragen in den raum werfen das versuche ich auch mal hier ich wurde argumentieren wenn sie sich nur darauf konzentrieren moment data scientist

einzustellen wie gesagt dann haben sie vergessen dann müssen sie er das konzept der beschleunigten innovation bedenken wenn sich ein date of sound ist heute anschauen 80 prozent der arbeit ist daten vorzubereiten attribute zu selektieren und dann 20 prozent ist der maschinenring algorithmus herumzudoktern sag ich jetzt mal haben wir das ein test im raum 12 ja aber wenn wir über die planung denken was da ja ganz ganz spannend ist an zu beweist learning auf features algorithmen die heute auch schon im markt sind finden ja selber raus welche attribute relevant sind für das spezifische probleme ja das sind ja schon mal 80 prozent der arbeitslos gar herausforderung eines data center ist und ich über spitze natürlich hier wie gesagt wir werden ganz so schnell nicht von den the scientist wegkommen aber lassen sie uns auch ganz ehrlich sein wenn ein kind heute als traumjob taxifahrer an gibt müssen wir eine ehrliche unterhaltung haben weil er in den nächsten zehn jahren werden wir selbst fahrende autos haben und ich glaube dass wir das im maschinenring bereich auch haben werden selbst tuning angesagt und support und neue features also wie gesagt ich will ja ein bisschen auch anreizen herausforderung er was wir auch feststellen ist dass es mehr und mehr darum geht dass diese klassischen best-of-three solutions ja ich habe also eine lösung daten vorzubereiten eine spezielle lösung um daten zu analysieren eine spezielle lösung daten zu visualisieren das das wir mal schwieriger wird und das end-to-end wirklich ich sag mal nun sicherlich nicht die die goldene lösung für alles ist aber dass zeit zeit das wertvollste im unternehmen ist und dass lösungen die komplexer zu betreuen sind lösungen die komplexe zu lernen sind lösungen die schwieriger zu sichern sind security data governance einfach immer mehr im weg stehen das unternehmen schnell genug handeln können weil wie gesagt in einer in einer welt wo alles auf einer plane neben ist wo mittlerweile firmen wie google oder apple autos bauen wo es billiger ist denn jemals zuvor technologiefirmen aufzubauen ist derzeit wirklich das einzige was man nicht für geld kaufen kann und daher ist es also ganz ganz wichtig auch technische lösungen zu finden die vielleicht ein wenig mehr cpu brauchen die vielleicht heute noch ein bisschen teurer sind aber morgen vor allem innovationszyklen verkürzen was wir ganz viel sehen in slitan valley ist dass die cloud natürlich ontram ersetzt und wie gesagt leider zu häufig in europa wird immer noch diskutiert ja aber wenn ich da an teamarbeit auf etablierte oder also packe gezeigt so und so viel und wenn ich sind mein eigenes daten center parcs bezeichnete und zu viel was wir halt sehen ist dass ich gerade schon gesagt habe die innovationszyklen deutlich verkürzt sind mit flexiblen plattform und das mittlerweile firmen wie microsoft deutlich sichere daten center bauen können denn sie auch ganz wichtig im streams wird es in memory ganz häufig reden leute übers park und realtime und so weiter was ist real time das können wir uns gerne unterhalten in herzschrittmachers realtime der muss tatsächlich auf die nano sekunde genau science park es nicht will tanja wir haben lediglich mal ein bisschen was in amerika aber was ganz ganz spannend ist das immer wieder verwechselt wird stream processing event processing zum beispiel von software ag super technologie eben was ganz anderes ist und ganz andere probleme löst als zum beispiel spark das ist also auch ganz ganz wichtig und das gerade in sachen streaming viel viel kritischer ist als in memory computing wird memory aber auch günstiger und dann um das ganze hier vielleicht abzuschließen mit wirklich noch mal eine herausforderung was wir sehen sie häufig ist das große unternehmen ein schiff data office erneuern wir hatten chief sales officer nicht wer ist da muss ich auch nochmal schuldigen ja also wir sehen ganz häufig das ganz große firmen ja was was ich tesla fort und so weiter mit denen wir ja auch arbeiten wirklich probleme haben in ihrer big data strategie weil sie bringen ein tief data office on board und chief legal officer denkt über technologie nach der guckt nach

metadaten der guckt nach der big data technologie steckt dies und jenes ich würde argumentieren wir brauchen einen chief growth officer was ich damit meine ist wir sollten wenn wir big data machen zuerst den use case in den mittelpunkt stellen weil wenn wir über technologie reden und wie gesagt ich liebe technologie das ist mein leben und da wir können uns nachher gerne über alle details unterhalten dann verpassen wir die konkurrenz technologie kann ein wettbewerbsvorteil sein technologie kann auch ein wettbewerbs nachteil sein und was ganz ganz kritisch ist ist wirklich sich auf den news und das value zu konzentrieren und als ein kleines beispiel in seinem facebook denken da muss ich mir immer am kopf kratzen die firma was 100 milliarden dollar ist in die gesamte technologie ist in php geschrieben worden also es geht gar nicht um technologie sondern es geht um den new skies und an das value also insofern würde ich sie einladen darüber nachzudenken dem chief data office data wegzunehmen und ihm anstelle den use case den groß- oder den notschirm oder den high efficiency operation titel zu geben und wirklich die herausforderung sie herauszufordern über den use case mehr nachzudenken als über die technologie vielen dank