Wat zijn hashtabellen?

Key-value paren

Hashtabellen spelen een belangrijke rol bij het efficiënt opslaan en ophalen van gegevens. Deze geavanceerde datastructuren bieden een gestroomlijnde manier om informatie op te slaan en te benaderen, waardoor er snelle en doeltreffende operaties in gang kunnen worden gezet. Deze datastructuren worden gebruikt om data op te slaan in de vorm van zogenaamde ‘Key-value paren’. Key-value paren zijn twee elementen die bij elkaar horen, zoals een ‘sleutel’ (key) en een bijbehorende ‘waarde’. De sleutel fungeert als een unieke identificator en de waarde vertegenwoordigt de feitelijke informatie die aan deze sleutel gekoppeld is.

Index genereren

Hoe werken hashtabellen?

Chaining

Open adressing

Wat zijn de voordelen van hashtabellen?

Waar worden hashtabellen gebruikt?

Hoe worden hashtabellen gebruikt binnen blockchainnetwerken?

Conclusie

Index genereren

Het idee achter hashtabellen is het gebruik van een hashfunctie om een unieke ‘index’ te genereren, op basis van de sleutel van de desbetreffende data. Hierdoor kunnen gegevens snel worden opgeslagen en worden opgevraagd, zonder de noodzaak van een lineaire zoekactie. Bij lineaire zoekacties moet één voor één door een lijst of verzameling worden gegaan, iets dat zeer tijdrovend is. Hashtabellen (die ook wel ‘hashmaps’ of ‘dictionairies’ worden genoemd) bieden hier een efficiënte oplossing voor. Hashtabellen bestaan uit een array van zogenaamde ‘buckets’ (emmers) en een hashfunctie die de sleutelwaarden omzet in indexen binnen deze array. Buckets zijn opslageenheden of compartimenten waarin gegevens worden opgeslagen. Iedere bucket heeft een unieke index en kan één of meer waarden bevatten. Hashtabellen gebruiken deze buckets om snel toegang te bieden tot gegevens, door middel van de hashfunctie die de sleutelwaarde omzet in een indexnummer, waarmee de juiste bucket kan worden geïdentificeerd.

Hoe werken hashtabellen?

De hashfunctie is de kern van een hashtabel. Deze functie neemt de sleutel als invoer en converteert deze vervolgens naar een numerieke waarde, die de index van de gegevens in de tabel bepaalt. Het gebruik van een goede hashfunctie is essentieel om de kans op ‘hashbotsingen’ te minimaliseren. Hashbotsingen zijn situaties waarin twee verschillende sleutels dezelfde ‘hashwaarde’ opleveren. Moderne hashtabel-implementaties omvatten vaak methoden om met hashbotsingen om te gaan, zoals bijvoorbeeld ‘chaining’ (het koppelen van meerdere elementen met dezelfde hashwaarde), of ‘open adressing’ (het zoeken naar de volgende beschikbare locatie).

Chaining

Chaining bij hashtabellen is een methode om effectief om te gaan met situaties waarin meerdere items dezelfde hashwaarde opleveren. In plaats van te proberen om ieder item op dezelfde locatie in de tabel op te slaan, worden items met dezelfde hashwaarde aan elkaar gekoppeld als een keten (chain) of lijst. Stel je voor dat je een hashtabel hebt en twee verschillende sleutels dezelfde hashwaarde opleveren. In plaats van te proberen ze op dezelfde locatie in de tabel te plaatsen (een situatie die hashbotsingen zou veroorzaken), maakt chaining het mogelijk om de eerste sleutel op die locatie op te slaan, en de tweede sleutel eraan te koppelen als een gekoppelde lijst. Dit betekent dat ieder element in de tabel naar een lijst van items kan wijzen, in plaats van naar één enkele waarde.

Extra geheugen

Als je een item wilt vinden, dan gebruik je de hashfunctie om de locatie te bepalen en zoek je vervolgens in de bijbehorende gekoppelde lijst, naar het specifieke item dat je nodig hebt. Chaining kan effectief zijn voor het verminderen van hashbotsingen, maar vereist extra geheugen en kan langzamer worden naarmate de lijsten groeien. In principe kun je chaining vergelijken met het hebben van verschillende kleine opbergdozen (gekoppelde lijsten) binnenin de grotere hashtabel, waardoor items met dezelfde hashwaarde samen kunnen worden opgeslagen en gemakkelijker kunnen worden teruggevonden.

Open adressing

Open adressing is een andere strategie die wordt gebruikt bij hashtabellen, om op een praktische manier om te gaan met hashbotsingen. In tegenstelling tot chaining (waarbij items met dezelfde hashwaarde worden gekoppeld als een lijst), probeert open adressing alle elementen direct in de tabel op te slaan, zelfs als er al een ander item op die locatie staat. Bij open adressing wordt geprobeerd om een vrije of lege locatie in de tabel te vinden, door een reeks stappen te zetten vanaf de oorspronkelijke hashlocatie. Dit proces wordt herhaald totdat een vrije locatie wordt gevonden. Er zijn verschillende methoden voor open adressing, zoals ‘lineair proberen’, ‘kwadratisch proberen’ of ‘dubbele hashing’. Deze methoden hanteren ieder een andere manier om te bepalen hoe verder te gaan vanaf de oorspronkelijke locatie, om een vrije plek te vinden.

Lineair proberen

‘Lineair proberen’ is een methode binnen open adressing en een strategie om hashbotsingen op te lossen in hashtabellen. Bij lineair proberen wordt (wanneer een er een botsing optreedt en een bepaalde locatie in de hashtabel al bezet is) simpelweg de volgende opeenvolgende locatie gecontroleerd, om te zien of die nog beschikbaar is. Als die locatie ook bezet is, dan wordt de volgende gecontroleerd, en zo gaat het door totdat er een lege locatie wordt gevonden. Met andere woorden: als je probeert om een item op een bepaalde hashlocatie op te slaan en die locatie is al bezet, dan ga je een stap verder en controleer je de daaropvolgende locatie, totdat je een lege locatie vindt waar je het item kunt opslaan.

Clustering

Bij het ophalen van de items die zijn opgeslagen met lineair proberen, gebruik je dezelfde strategie. Je begint op de verwachte hashlocatie, en als het item daar niet wordt gevonden, dan ga je één stap tegelijk vooruit totdat je het item vindt of een lege locatie bereikt. Lineair proberen is eenvoudig te implementeren, maar kan leiden tot clustering van elementen als er veel hashbotsingen zijn. Clustering houdt in dat elementen zich ophopen in aangrenzende locaties, waardoor toekomstige zoek- en invoegoperaties mogelijk vertraging oplopen.

Kwadratisch proberen

Ook ‘kwadratisch proberen’ is een methode binnen open adressing om hashbotsingen op te lossen in hashtabellen. Hierbij wordt (wanneer een locatie al bezet is) niet één stap vooruit gekeken zoals bij lineair proberen het geval is, maar wordt een steeds groter wordende ‘kwadraatstap’ genomen. Dit betekent dat als de oorspronkelijke hashlocatie al bezet is, je eerst één stap vooruit kijkt, dan vier stappen terug, en dan weer negen stappen vooruit, enz, totdat er een lege locatie wordt gevonden. Dit kan helpen om clustering van elementen te verminderen, omdat items verspreid worden over de tabel, in plaats van zich op te hopen op aangrenzende locaties (zoals bij lineair proberen). Echter kent kwadratisch proberen ook een aantal nadelen, zoals het mogelijk overslaan van beschikbare locaties of het creëren van een patroon in de manier waarop items worden opgeslagen.

Dubbele hashing

Net zoals lineair proberen en kwadratisch proberen is ook ‘dubbele hashing’ een methode binnen open adressing om hashbotsingen op te lossen in hashtabellen. In plaats van een vaste ‘stapgrootte’ te gebruiken (zoals bij het eerdergenoemde kwadratisch proberen), wordt bij dubbele hashing een tweede hashfunctie gebruikt om de grootte van de stappen te bepalen. Bij het opslaan van items kijkt het systeem eerst naar de oorspronkelijke hashlocatie. Als die al bezet is, dan gebruikt het de tweede hashfunctie om te bepalen hoeveel stappen vooruit moet worden gekeken, om een lege locatie te vinden. Voor het ophalen wordt dezelfde tweede hashfunctie gebruikt om te bepalen welke locaties moeten worden onderzocht, mocht het item niet direct op de verwachte locatie worden gevonden. Dubbele hashing kan helpen om hashbotsingen effectief op te lossen, zonder een vast patroon te volgen. Dit kan clustering verminderen en een meer willekeurige verdeling van items in de hashtabel creëren.

Nauwkeurig hantering van hashbotsingen

Wanneer je een item wilt ophalen dat is opgeslagen met open adressing, gebruik je dezelfde hashfunctie om de locatie te bepalen, en als het item niet op die locatie wordt gevonden, dan ga je verder met de stappen volgens de open adressing-methode, totdat je het item vindt of een lege locatie bereikt. Open adressing kan efficiënt zijn omdat het géén extra geheugen nodig heeft voor gekoppelde lijsten, maar het vereist een nauwkeurige hantering van hashbotsingen en het kiezen van geschikte stappen, bij het vinden van een vrije locatie. Als dit niet zorgvuldig wordt gedaan, dan kan dit leiden tot ‘clustering’ van elementen en een verminderde prestatie.

Wat zijn de voordelen van hashtabellen?

Hashtabellen bieden verschillende voordelen op het gebied van snelheid en toegankelijkheid. Omdat de index direct wordt berekend via de hashfunctie, kunnen gegevens in constante tijd worden opgevraagd. Dit maakt hashtabellen ideaal voor taken waarbij snelle zoek- en invoegoperaties essentieel zijn, zoals bij databasetoepassingen en taalinterpreters. Taalinterpreters zijn programma’s die geschreven code begrijpen en direct vertalen naar acties die een computer kan uitvoeren. Ze werken als het ware als ‘tolken’ tussen de menselijke taal van de code en de machinetaal van de computer. Hierdoor kunnen ontwikkelaars hun instructies in een begrijpelijke programmeertaal schrijven, en de interpreter zorgt ervoor dat deze instructies worden uitgevoerd door de computer. Dit maakt het mogelijk om software te maken en uit te voeren, zonder handmatig iedere machinetaalopdracht te moeten schrijven.

Pointers

Daarnaast besparen hashtabellen veel geheugenruimte. In vergelijking met andere datastructuren (zoals binaire bomen), hebben hashtabellen minder overhead, omdat ze géén extra ‘pointers’ of hiërarchische structuren vereisen. Pointers zijn variabelen in programmeertalen die verwijzen naar (aangegeven) geheugenadressen waar andere gegevens zich bevinden. Ze worden vaak gebruikt om de locatie van een ander gegevensobject (zoals een variabele, een object of een functie) aan te duiden. In principe vertellen pointers de computer waar hij specifieke gegevens in het geheugen kan vinden. Pointers zijn vooral handig voor complexe taken zoals het beheren van geheugen, het doorgeven van gegevens aan functies, en het creëren van gegevensstructuren (zoals lijsten en binaire bomen). Pointers zijn een krachtig instrument in programmeren, maar vereisen ook nauwkeurige hantering om geheugenlekken en andere problemen te voorkomen.

Waar worden hashtabellen gebruikt?

Hashtabellen worden gebruikt in verschillende domeinen, waaronder:

Databases
Besturingssystemen
Programmeer en softwareontwikkeling
Omzetten van IP-adressen
Caching en geheugenoptimalisatie
Compileren
Optimalisatietechnieken
Taalkundige verwerking en woordenboeken
Netwerk- en systeembeheer
Cryptografie
Grafische toepassingen
Compileren van reguliere expressies
Webontwikkeling
Cryptocurrency- en blockchainnetwerken

Databases

Hashtabellen worden vaak gebruikt in databases om gegevens op te slaan en snel te kunnen opzoeken op basis van een sleutelwaarde. Dit verbetert de zoekprestaties in vergelijking met lineaire zoekmethoden.

Besturingssystemen

Besturingssystemen gebruiken hashtabellen voor het beheer van processen, bestanden, gebruikers en bronnen. Dit versnelt het opzoeken van deze entiteiten en verbetert de systeemprestaties.

Programmeer en softwareontwikkeling

De tabellen worden ook gebruikt in programmeertalen om variabelen, functies en modulen op te slaan, waardoor snelle toegang tot deze elementen tijdens het uitvoeren mogelijk is.

Omzetten van IP-adressen

In netwerken worden hashtabellen gebruikt om IP-adressen om te zetten naar fysieke MAC-adressen, wat essentieel is voor het routeren van gegevenspakketten. MAC-adressen (Media Acces Control-adressen) zijn unieke identificatienummers, die aan netwerkapparaten worden toegewezen. Ieder netwerkapparaat (zoals bijvoorbeeld pc’s, smartphones, routers en netwerkkaarten) heeft een eigen, onveranderlijk MAC-adres.

Caching en geheugenoptimalisatie

De hashtabellen worden ook gebruikt in zogenaamde ‘cachingmechanismen’, om veelgebruikte gegevens tijdelijk op te slaan en de toegangstijd te versnellen. Hierdoor hoeven gegevens niet opnieuw te worden berekend of opgehaald van trage opslagmedia. In plaats daarvan worden kopieën van veelgebruikte gegevens of resultaten opgeslagen in een tijdelijke opslagplaats (de cache).

Compileren

Compilers gebruiken hashtabellen om symbolen (zoals variabelen en functies) bij te houden en om snel toegang te krijgen tot bijbehorende informatie, tijdens het vertalen van broncode (die geschreven is in een programmeertaal) naar machinecode (die begrijpelijk is voor computers). Het voornaamste doel van een compiler is om menselijk leesbare code om te zetten in uitvoerbare instructies, die een computer kan snappen en vervolgens kan uitvoeren.

Optimalisatietechnieken

Compilers gebruiken de tabellen ook voor het toepassen van optimalisatietechnieken, zoals bijvoorbeeld ‘dead code elimination’ en ‘constant folding’. Bij dead code elimination worden ongebruikte code of delen van de code geïdentificeerd en verwijderd uit het broncodebestand. Hierdoor kan de omvang van het gecompileerde programma worden verkleind, en daardoor ook de uitvoeringstijd en het geheugengebruik worden verminderd. Constant folding is een optimalisatietechniek die wordt gebruikt in compilers en softwareontwikkeling, om constante expressies in de broncode te vereenvoudigen en te evalueren tijdens het compilatieproces. Met behulp van constant folding kan de uitvoeringstijd van programma’s aanzienlijk worden verminderd en de efficiëntie van de gegenereerde machinecode worden verbeterd.

Taalkundige verwerking en woordenboeken

Hashtabellen kunnen ook worden toegepast om woordenboeken en taalkundige structuren op te bouwen, om zo snelle zoekopdrachten en vertalingen mogelijk te maken. Bovendien kunnen de tabellen worden gebruikt bij het controleren van spelling en autocorrectie, om snel te checken of een bepaald woord juist is gespeld of om mogelijke correcties voor een verkeerd woord te suggereren.

Netwerk- en systeembeheer

Tevens worden de tabellen vaak ingezet voor het beheren van netwerkverbindingen, het bijhouden van sessies en het toewijzen van bronnen in routers, switches en servers.

Cryptografie

In cryptografische toepassingen worden hashtabellen gebruikt om wachtwoorden en berichten te ‘hashen’, om de beveiliging te versterken en om digitale handtekeningen te genereren. In die functie spelen hashtabellen een belangrijke rol binnen blockchain-ecosystemen.

Grafische toepassingen

In grafische toepassingen kunnen hashtabellen worden gebruikt om snelle toegang te bieden tot gecachte beeld- of geluidsbronnen.

Compileren van reguliere expressies

Ook worden de tabellen gebruikt om reguliere expressies te compileren en op te slaan, voor snellere zoekopdrachten in tekstverwerking en tekstanalyse.

Webontwikkeling

Daarnaast zijn hashtabellen toepasbaar in webtoepassingen om URL-routing te implementeren. Daarbij worden de URL’s ‘gemapt’ naar specifieke acties of pagina’s.

Bovenstaande toepassingen zijn maar enkele voorbeelden van het gebruik van hashtabellen. Er zijn echter nog veel meer domeinen waarin ze kunnen worden gebruikt. De veelzijdigheid en efficiëntie van deze vorm van dataopslag en benadering, maken de tabellen tot een zeer waardevolle datastructuur voor allerlei verschillende doeleinden.

Bitcoin, bits en bytes, hashtabellen

Hoe worden hashtabellen gebruikt binnen blockchainnetwerken?

Blockchainnetwerken vormen de ruggengraat voor cryptocurrency’s, zoals Bitcoin (BTC), Ethereum (ETH), ZCash (ZEC), Binance Coin (BNB), XRP (XRP), Monero (XMR) Dogecoin (DOGE), Dash (DASH), Cardano (ADA), Decred (DCR), Solana (SOL) en Beldex (BDX). Blockchain-ecosystemen vertrouwen op verschillende complexe innovaties, om veilige en gedecentraliseerde transacties te waarborgen.

Merkle trees

Eén van die cruciale innovaties is het gebruik van zogenaamde ‘Merkle trees’, die zorgen voor snelle gegevensverificatie en -opslag. Merkle trees zijn een specifieke implementatie van hashtabellen, die zijn ontworpen om gegevensintegriteit te waarborgen en snelle verificatie mogelijk te maken, zonder de noodzaak om de volledige gegevensset te controleren. Merkle trees bestaan uit een boomachtige structuur waarbij iedere ‘niet-bladknop’ een hashwaarde van zijn ‘kinderen’ bevat, en iedere ‘bladknop’ een hashwaarde van een specifieke gegevenscomponent. Met behulp van Merkle trees kan snel worden gecontroleerd of een bepaalde transactie is opgenomen in een bepaald blok in de blockchain.

Block-header

Binnen een blockchainnetwerk zou je een hashtabel als het ware kunnen beschouwen als een digitale notaris, die gegevens snel en veilig controleert. In een blockchain-ecosysteem wordt dit bereikt door gegevens in ‘blokken’ te organiseren. Ieder blok bevat transacties en een unieke ‘block-header’ die fungeert als een digitale vingerafdruk. Deze vingerafdruk is gemaakt met behulp van een hashtabel. Deze hashtabel (of Merkle tree) stapelt de hashwaarden van transacties in een boomachtige structuur. Iedere tak van de boom combineert twee hashwaarden tot één enkele hashwaarde, en dit proces gaat door totdat alle hashwaarden zijn samengevoegd in de block-header. Dit betekent dat zelfs de allerkleinste wijziging in transactiegegevens, een kettingreactie van hashwijzigingen veroorzaakt. Door deze methode is het in principe onmogelijk om gegevens stiekem te veranderen, zonder dat dit wordt opgemerkt.

Naadloos verificatieproces

Dankzij het gebruik van Merkle trees kunnen deelnemers binnen het blockchainnetwerk snel en efficiënt de integriteit van transacties verifiëren, zonder alle details te kennen. De deelnemers hoeven alleen maar de block-header te controleren en kunnen er dan op vertrouwen dat als die overeenkomt met de hashwaarde van de transacties, alles prima in orde is. Dit versnelt niet alleen het verificatieproces van transacties, maar maakt ook het volgen van de transactiegeschiedenis binnen een blockchainnetwerk eenvoudiger. Hashtabellen besparen veel opslagruimte binnen de blockchain, omdat alleen de hashwaarde hoeft te worden opgeslagen, in plaats van iedere transactie. Dit maakt de blokketen aanzienlijk compacter en efficiënter. De hashtabellen laten het verificatieproces binnen de blockchain naadloos verlopen.

Conclusie

Hashtabellen vormen de ruggengraat van efficiënt datamanagement. Ze hebben het vermogen om gegevens snel op te slaan en op te vragen, waardoor ze een waardevol instrument bieden voor ontwikkelaars en ingenieurs. Door gebruik te maken van krachtige hashfuncties en slimme ‘hashbotsings-resolutiemethoden’, maken hashtabellen complexe operaties mogelijk met een opvallende snelheid. Of het nu gaat om het organiseren van bibliotheken, het versnellen van zoekalgoritmes of het routeren van netwerkverkeer, de hashtabellen zijn een onmisbare schakel binnen de informatietechnologie.

Terug naar boven ↑

Wat zijn hashtabellen?

Key-value paren

Index genereren

Hoe werken hashtabellen?

Chaining

Extra geheugen

Open adressing

Lineair proberen

Clustering

Kwadratisch proberen

Dubbele hashing

Nauwkeurig hantering van hashbotsingen

Wat zijn de voordelen van hashtabellen?

Pointers

Waar worden hashtabellen gebruikt?

Databases

Besturingssystemen

Programmeer en softwareontwikkeling

Omzetten van IP-adressen

Caching en geheugenoptimalisatie

Compileren

Optimalisatietechnieken

Taalkundige verwerking en woordenboeken

Netwerk- en systeembeheer

Cryptografie

Grafische toepassingen

Compileren van reguliere expressies

Webontwikkeling

Hoe worden hashtabellen gebruikt binnen blockchainnetwerken?

Merkle trees

Block-header

Naadloos verificatieproces

Conclusie

Op de hoogte blijven van de ontwikkelingen op het gebied van blockchaintechnologie? Meld je dan nu aan voor de blogpost!

Dit delen: