Gebruiker:Eddjj/Kladblok
Informatie-extractie (IE)
[bewerken | brontekst bewerken]informatie-extractie (IE) is een methode op het gebied van informatiekunde om ongesctructureerde teksten (automatisch) om te zetten naar gestructureerde informatie. Hierbij wordt natuurlijke taal omgezet in de vorm: relational triples. Dit houd in: (object1; relatie; object2).[1] Als de informatie gestructureerd is kan de informatie gebruikt worden voor andere doeleneinden. Vaak gaat informatie-extractie samen met Natural Language Processing (NLP). NLP moet er namelijk voor zorgen dat computers onze taal kunnen manipuleren en aanpassen. Vaak worden de basistaken van Natural Language Processing (NLP) gezien als vormen van informatie-extractie. De term informatie-extractie wordt daarom ook wel gezien als de toepassing van Natural Language Processing (NLP).[2]
Technieken
[bewerken | brontekst bewerken]Informatie-extractie heeft twee vormen:
- Closed Information Extraction (CIE)
- Open Information Extraction (OIE)
Voorbeelden van een aantal technieken die onder informatie-extractie vallen:
- Named Entity Recognition (NER); Ook wel naamherkenning genoemd, hierbij wordt de informatie uit teksen gegroepeerd of gecategoriseerd in verschillende klassen.[3]
- Het bepalen van Keywords.
- Relation Extraction; het vinden van relaties tussen verschillende soorten data.
- etc.
Toepassing
[bewerken | brontekst bewerken]Sinds de komst van internet is de hoeveelheid beschikbare informatie enorm toegenomen. Zo'n 80 procent van al deze data is ongesctructureerd, dit betekent dat slechts de andere 20 procent dus bestaat uit gesctructureerde data. Deze data wordt vaak gestructureerd in databases. Informatie-extractie is bezig met het structureren van de ongestructureerde data die we hebben. Uiteindelijk wordt deze gestructureerde informatie door de database community omgezet in SQL.[1] Hierdoor kan de gestructureerde informatie door middel van query's uit de databases worden gehaald om op deze manier de data te kunnen hergebruiken.
Zie ook
[bewerken | brontekst bewerken]- Informatica
- Computationele taalkunde
- Ontsluiting (informatiewetenschap)
- Informatietechnologie
- Informatioin retrieval
Referenties
[bewerken | brontekst bewerken]- ↑ a b Ellery Smith; Dimitris Papadopoulos Martin Braschler Kurt Stockinger, LILLIE: Information extraction and database integration using linguistics and learning-based algorithms (2022). Geraadpleegd op 2023/10/23.
- ↑ Tekstuele informatie-extractie: een overzicht - PDF Free Download. docplayer.nl. Geraadpleegd op 13 oktober 2023.
- ↑ (en) Sihem Sahnoun; Samir Elloumi Sadok Ben Yahia, Event detection based on open information extraction andontology. Taylor & Francis (2020). Geraadpleegd op 23 oktober 2023.