I den jättelika partikelacceleratorn LHC under Genève accelereras protoner till nära ljusets hastighet. Upp till 40 miljoner gånger per sekund möts buntar med miljarder protoner. Några av dem träffar varandra och kolliderar med enorm energi, och de kvarkar som protonerna består av slits ifrån varandra och ger upphov till skurar av nya partiklar. De här nybildade partiklarna spåras genom att fångas upp i ett system av detektorer.

Läs också: Bytte CERN mot startupvärlden – här är expertens fyra bästa datatips

Varje mätning ger ungefär 500 kilobyte av rådata, eller mer. Om allt skulle sparas skulle det bli 1 petabyte per sekund, och det blir snabbt ohanterligt. Dessutom är det mesta inte av värde – det är kanske kollisioner där protonerna bara strök mot varandra utan att riktigt kollidera rakt på.

Det här löser fysikerna genom att låta dataströmmen gå genom ett enkelt urvalssystem, "trigger" som det kallas. Efter den första snabba sorteringen går någon bråkdels procent av mätningarna vidare till ett mer avancerat urval. Där görs snabba rekonstruktioner av partiklarnas banor för att se vilka typer av reaktioner som ägt rum, och bara de mest intressanta skrivs sedan till disk. Det kan inte göras för detaljerat, begränsningen sätts av hur mycket beräkningar som hinner göras jämfört med den mängd data som kan hållas i minnet medan sorteringen görs. Hela processen ska vara klar på 10 mikrosekunder.

Läs också: 9 000 gamla kablar måste bytas när Cern ska uppdateras

Det är på den här nivån fysikerna numera tillämpar sitt trick: data scouting. Det går ut på att vissa av de kriterier som högnivåtriggern jämför också registreras och sparas, även för händelser som kastas bort. Det blir en förenklad dataström där inte all information om alla partikelspår sparas, utan bara några beräknade egenskaper – som hur mycket energi från kollisionen som absorberats i vissa riktningar.

Jämfört med en fullständig analys är data scouting en ganska grovhuggen teknik, men den gör det möjligt att sålla ut information som annars skulle ha gått förlorad.