‘Nederlandse bronnen voor trainen van chatbots staan ​​bol van privégegevens’ – IT Pro – Nieuws

De Nederlandse sites die het vaakst worden gebruikt voor het trainen van chatbots, staan ​​bol van auteursrechtschendingen, privégegevens en nepnieuws. Dat concludeerde De Groene Amsterdammer na eigen onderzoek. Docplayer.nl zou de belangrijkste bron voor chatbots zijn.

Voor het onderzoek keek De Groene Amsterdammer naar de tweeënhalf miljoen unieke Nederlandse en Belgische websites waar Google teksten uit verzameld heeft voor de mC4-dataseteen ‘opgeschoonde versie’ van de Common Crawl-webcrawldataset, schrijft de site. Onder andere bevindt zich elke tekst van het internet.

Omdat veel niet prijsgeven welke bronnen ze gebruiken bedrijven voor het trainen van hun chatbots, valt niet te zeggen of ze de mC4-database gebruiken. DGA schrijft dat voor GPT-3 in ieder geval dat de Common Crawl-dataset als basis wordt gebruikt, maar dat OpenAI daar nog een eigen ‘sterker’ filter over legt. Dat kwaliteitsfilter werd vergeleken met het filter dat Google gebruikte voor het opstellen van de mC4-dataset ‘en we zagen geen biologische verschillen’. De Groene Amsterdammer schrijft in zijn verantwoording daarom dat de verklaringe Nederlandse websites ‘een zeer waarschijnlijke kans hebben’ om in de ChatGPT-trainingsdata te zitten.

Naast de websites zelf is voor elke site ook berekend hoe groot het aandeel was in de collectie. “Dat doen we op basis van het aantal woorden in de collectie, dat we, vanwege de omvang van de dataset, relatief eenvoudig berekenden door de teksten te splitsen op basis van ruimte.”

Hieruit kwam naar voren dat docplayer.nl met een aandeel van 3,6 procent de belangrijkste Nederlandse bron voor chatbots is. Deze hostingsite heeft meerdere documenten verzameld, bestanden met persoonsgegevens verzameld, zoals evaluaties van sollicitanten, en kwam in 2017 in opspraak omdat het die verkrijgt door andere sites te schrapen. Er werd door de Nederlandse overheid definitief besloten om geen stappen te ondernemen tegen die site.


De top 10 Nederlandse sites met het grootste aandeel in de mC4-dataset

Daarnaast valt De Groene Amsterdammer op dat veel websites over games en technologie hoog in de lijst staan. Zo staat Tweakers op nummer vijf. De site bevat dat door het feit dat vergelijkbare sites veel Engelse termen gebruiken. Omdat het filter vooral is ingesteld op Engelstalige teksten, kunnen dergelijke sites daarom de voorkeur krijgen van het filter.

Verder zou er ook een ‘neonazistische complotwebsite’ in de top 200 staan, namelijk Stormfront. Omdat deze site slechts een plek lager staat dan RTL Nieuws, concluderen de onderzoekers dat chatbots van beide sites ongeveer ongeveer leren. Daarnaast noemt DGA het ook zorgelijk dat sites als Marktplaats in de lijst staan, omdat gebruikers daar bijvoorbeeld hun telefoonnummer op achterlaten. “Die informatie is of was grotendeels publiekelijk beschikbaar, maar nooit eerder werden zoveel gegevens op deze manier aan elkaar gekoppeld – door een systeem dat er ook nog eens van wil leren en er nieuwe teksten van maakt.”

De Groene Amsterdammer zegt dat Nederlandse sites slechter worden gefilterd dan Engelse sites omdat ze vooral dienen als ‘bijvangst’ voor de Amerikaanse chatbots. Slechte kwaliteit in Nederlandse teksten zou door het kwaliteitsfilter nauwelijks worden herkend.

Eerdere akte The Washington Post een vergelijkbaar onderzoek naar Engelstalige websites. Ook bij dit onderzoek werd gebruikgemaakt van de mC4-dataset. Hieruit bleek dat patents.google.com de grootste site was, gevolgd door de Engelse Wikipedia en scribd.com. Ook zaten er sites in de top 100 die een database met kiezersgegevens hosten, geregistreerde propagandawebsites als de Russische RT.com en de extreemrechtse vdare.com.

credit :Source link

We will be happy to hear your thoughts

Leave a reply

12game.shop
Logo