Warning: this is a beta environment for demonstration purposes

dataset

Vraag-en-antwoord dataset Rijksportaal Personeel

In de dataset zijn vragen, antwoorden en documenten opgeslagen. Elke vraag heeft een antwoord en het antwoord komt van een pagina van Rijksportaal Personeel (intranet Rijksoverheid) . Met deze dataset kan een vraag-en-antwoordmodel getrained worden. De computer leert zo om vragen te beantwoorden in de context van P-Direkt.

In totaal zijn er 322 vragen gebruikt die ooit per e-mail zijn gesteld aan het contact center van P-Direkt. De vragen zijn zeer algemeen en vragen nooit naar persoonlijke omstandigheden.

Doel van de dataset was om uit te proberen of vraag-en-antwoordmodellen eventueel in een P-Direkt omgeving gebruikt kunnen worden.

De structuur van de dataset komt overeen met de [Squad 2.0 dataset](https://rajpurkar.github.io/SQuAD-explorer/ "Squad 2.0 dataset").

### Voorbeeld:
#### Vraag:
Klopt dat mijn IKB uren van 2020 vervallen als ik ze niet opneem?

#### Antwoord:
U kunt uw IKB-uren opsparen in uw IKB-spaarverlof. IKB-uren die u niet heeft opgenomen als verlof en niet heeft laten uitbetalen, worden eind december toegevoegd aan uw IKB-spaarverlof. Uw IKB-spaarverlof kan niet vervallen

#### Bron*:
*U kunt uw IKB-uren opsparen in uw IKB-spaarverlof. IKB-uren die u niet heeft opgenomen als verlof en niet heeft laten uitbetalen, worden eind december toegevoegd aan uw IKB-spaarverlof. Uw IKB-spaarverlof kan niet vervallen.* U kunt uw IKB-spaarverlof niet laten uitbetalen. Uitbetaling vindt alleen plaats bij uitdiensttreding of overlijden. U kunt maximaal 1800 uur sparen. Werkt u in deeltijd of meer dan gemiddeld 36 uur per week? Dan wordt het maximaal aantal te sparen uren naar verhouding berekend en naar beneden afgerond op hele uren. Uw eventuele restant vakantie-uren 2015 en bovenwettelijke vakantie-uren die u over had uit 2016 tot en met 2019 worden op 1 januari 2020 omgezet in IKB-uren en deze zijn toegevoegd aan uw IKB-spaarverlof.

\* Let op, bron is een momentopname van Rijksportaal Personeel van april 2021. Ga naar Rijksportaal Personeel op het intranet voor actuele informatie over personeelszaken.

Distributions (2)

Vraag-en-antwoord dataset

Dataset is gecreƫerd om te onderzoeken of de structuur van Squad 2.0 ook bruikbaar kan zijn voor de vragen die binnenkomen bij het Contact Center van P-Direkt. Daarbij is gebruik gemaakt van exact dezelfde json structuur zoals bij de [Squad 2.0 dataset](https://rajpurkar.github.io/SQuAD-explorer/ "Squad 2.0 dataset").

Het is aan te raden om de dataset bij gebruik te splitsen op onderwerp. In onze onderzoeken is de data opgesplitst met k-fold en is er zo een cross-validatie gedaan op het trainen van het vraag-en-antwoordmodel. Voor meer informatie over deze taak, is [Huggingface](https://huggingface.co/docs/transformers/tasks/question_answering "huggingface") een goede bron.

### Informatie:
- Aantal documenten: 6
- Aantal paragrafen: 63
- Gemiddeld aantal woorden per paragraaf: 65,11
- Aantal vragen: 322
- Beantwoordbare vragen: 214
- Onbeantwoordbare vragen: 108
- Unieke antwoorden: 157
- Gemiddeld aantal woorden per antwoord: 24,36


#### Structuur
Dataset:
- version: versienummer van de dataset
- readme_nl: beschrijving dataset in het Nederlands
- readme_en: beschrijving dataset in het Engels
- data: reeks van meerdere documenten
- title: titel van het document
- paragraphs: reeks van meerdere paragrafen
- context: paragraaf met tekstuele informatie
- qas: reeks van meerdere vragen over de context
- id: uniek id
- question: de vraag over de paragraaf
- is_impossible: is de vraag te beantwoorden aan de hand van de context (boolean: true/false)
- answers: reeks van antwoorden (in dit geval maar 1 antwoord)
- text: het antwoord uitgeschreven (komt altijd gedeeltelijk overeen met de context)
- answer_start: geheel getal, getal geeft aan op welke karakter het antwoord gevonden kan worden

#### Gestelde vragen over de databron:
- Wat is de herkomst van de databron:
- De documenten en parafen komen van Rijksportaal Personeel, informatie over personeelszaken voor de Rijksoverheid. Gedownload rond april 2021.
- De vragen komen van het Contact Center van P-Direkt en dan met name de e-mails. Uit deze e-mails zijn vragen gehaald en de rest van de e-mail is niet gebruikt.
- De antwoorden die zijn teruggestuurd door medewerkers zijn geanalyseerd en vergeleken met Rijksportaal Personeel.
- Zitten er privacy gevoelige details in de vragen?
- Nee. Alle vragen zijn handmatig gecontroleerd op eventuele herkenningsentiteiten. Zo zitten er geen persoonsnamen, organisatienamen en datums kleiner dan een heel jaar in en andere entiteiten die herleid kunnen worden naar de vraagsteller.
- Wanneer zijn de vragen gesteld?
- Tussen 2018 en 2020.

JSON http://creativecommons.org/publicdomain/zero/1.0/deed.nl CC-0 (1.0)
Vraag-en-antwoord dataset Rijksportaal Personeel

De pdf bevat een visualisatie van de datastructuur van de dataset.

PDF http://creativecommons.org/publicdomain/zero/1.0/deed.nl CC-0 (1.0)