Python är ett nytt och modernt programmeringsspråk. Fel, men det är lätt att få det intrycket dels med tanke på språkets popularitet, dels med tanke på att Python används flitigt inom hajpade tekniker som AI, avancerad webbteknik och till och med kvantdatorutveckling. Men faktum är att Python började sin bana redan 1989 och den första officiella versionen släpptes 1991.

På senare år har Python formligen exploderat i popularitet bland utvecklarna, vilket inte är så konstigt eftersom språket på samma gång är ett utmärkt nybörjarspråk med enkel syntax och logik för dem som vill lära sig programmera, och ett språk som tillsammans med en rik flora av kodbibliotek kan användas till nästan vad som helst som inte kräver hårdvarunära prestanda. Idag pekar alla pilar mot att Python inom det nästa året eller två kommer att passera Javascript som världens mest använda programmeringsspråk. Kodbasen ute i produktion är enorm och efterfrågan på utvecklare som kan Pyhton växer för varje dag. Men det finns ett problem.

Den nuvarande version 3 av Python släpptes för över 10 år sedan, och istället för att göra som utvecklarna av många andra programmeringsspråk, som i princip lovar att bevara språkets bakåtkompatibilitet för evigt, fanns känslan hos Python Software Foundation, PSF, som förvaltar Python, att det var hög tid att reda ut inkonsekvenser och designval som man kommit att ångra. Därför gjorde man flera förändringar, utan att bekymra sig om bakåtkompatibiliteten med Python 2. Det var inte helt okontroversiellt, och utmaningarna har varit en följetong sedan dess.

Har underhållits parallellt

Utvecklingen av Python 2 fortsatte med Python 2.6, och senare Python 2.7, som bestämdes vara den sista versionen av Python 2. Den har patchats flera gånger, och vissa nyheter i Python 3 har portats till Python 2 (med nödvändiga modifikationer) för att underlätta konverteringen till Python 3. Så Python 2 och Python 3 har underhållits parallellt under ett decennium, där nya funktioner mestadels har kommit till Python 3 medan den äldre versionen har fått bugg- och säkerhetsfixar.

Från och med den 1 januari 2020 släpper PSF det officiella stödet för Python 2, vilket är början på slutet för den gamla trotjänaren. Den sista versionen av Python 2 kommer att bli 2.7.28 och släpps i april 2020. Sedan finns det versioner av Python 2 som kommer underhållas av tredje part under längre tid, till exempel via Red Hat för företagskunder. Det finns också andra Python-tolkar från tredje part, exempelvis PyPy, som kommer fortsätta underhålla sin Python 2-tolk under överskådlig tid. Men att gå över från den officiella tolken, CPython, till PyPy, kan vara ett projekt i sig.

Liksom med all gammal kod som inte underhålls kommer det uppstå problem för dem som använder koden vartefter säkerhetsbrister och sårbarheter upptäcks eftersom det inte släpps uppdateringar som åtgärdar bristerna. Det här kommer att ställa till problem för dem som kör Python 2-kod, vilket är väldigt många, då det kommer att upptäckas sårbarheter och cyberkriminella kommer att utnyttja dem. Den brittiska myndigheten NCSC gick så långt som att i slutet av sommaren varna Python 2-användare som fortsätter efter att utvecklingen upphört för att bidra till en ny Wannacry-situation.

Om liknande varningar ska tas på allvar eller inte är omöjligt att svara på, men med tanke på kodbasen för Python 2 är det inte omöjligt att riktigt tråkiga incidenter kan inträffa i framtiden. Det enda företag och organisationer kan göra åt sin egen situation är att migrera sin Python 2-kod till Python 3 – det är ett surt äpple att bita i, men omöjligt att komma runt på grund av bristen på bakåtkompabilitet.

Stora företag har migrerat sin kod

Många företag har gått igen processen att migrera sin kod, till exempel Dropbox som brottades med 4 miljoner rader Python, men även Instagram och Facebook har migrerat stora mängder kod. Frågan är dock om inte storbanken JP Morgan utgör något slags rekord med sina 35 miljoner rader Pythonkod i sin handelsplattform Athena. JP Morgan började dessutom sent, i slutet av 2018, och är fortfarande inte färdiga.

Ett svenskt företag som kanske inte når upp i samma nivå som storföretagen ovan, men som genomförde en migrering till Python 3 förra sommaren, är Klarna. Klarna var tvungna att migrera koden för de projekt som använder AWS Glue, en molnbaserad dataprocessningstjänst från Amazon. Marcus Näslund är senior Pythonutvecklare på Klarna och var med under migreringsprocessen.

Vad exakt är det som inte kommer att uppdateras efter nyår?

– Det är Python 2-tolken och tillhörande standardbibliotek som inte kommer att uppdateras, och allt som har med Python 2 att göra från officiellt håll, säger Marcus Näslund.

Vilka lärdomar har du personligen dragit av att migrera från Python 2 till 3, och vad är dina råd till dem står inför en migrering?

– När jag skrev Pythonkod under mitten av 2010-talet var jag alltid uppmärksam på att skriva kod som fungerar i båda versioner, med hjälp av __future__-importer. När man sedan är bekväm med att skippa Py2-support så blir det en trevlig uppstädning och en milstolpe man kan fira med teamet! Jag tror mycket handlar om utbildning och förberedelse: Alla språk och ramverk som används utvecklas, oavsett om det är stora hopp eller små steg. Jag tror starkt på att ha bra analysverktyg och goda tester, att försöka göra någon slags refaktorering eller migrering utan verktyg och tester är läskigt.

Vad är det som gör en migrering svår?

– Det är flera syntaktiska grejer som är synliga. Det klassiska är print-funktionen som ändrades från print ”Hello world!” till print(”Hello world!”), eller att division alltid resulterar i flyttal. I Python 2 är 1/3 = 0, men 1/3 = 0.333… i Python 3. Dessa saker är relativt enkla att hitta och automatiskt justera med verktyg.

Marcus Näslund, Klarna.

– Men det som är svårt är de mer subtila förändringarna, till exempel avrundning av flyttal. I Python 2 är round(16.5) = 17 men i Python 3 är round(16.5) = 16. Strängar är nu också unicode per default, istället för en separat unicode-typ. Dessa saker är svårare eller omöjligt för ett automatiskt verktyg att hjälpa till att justera, om det behövs, vilket inte alltid är fallet.

– Beroenden är också svåra. Det kan finnas en modern version av biblioteken, men det kan ha gått så lång tid sedan Python 2-versionen du använder att api:er har förändrats, och som du måste anpassa koden till, säger Marcus Näslund.

På vilket sätt blir beroenden ett problem? Om man är beroende av ett gammalt bibliotek, hur kan man lösa det?

– Det här har definitivt varit ett stort problem. Stora populära bibliotek som till exempel Django, NumPy, Pandas, et cetera hade från början endast stöd för Python 2, och andra större projekt som berodde på dem var därför tvungna att hålla sig kvar i Python 2. Så de flesta använde Python 2, och det blev en hönan och ägget-situation av det hela, säger Marcus Näslund.

Säkerhetshål upptäcktes tidigare i år

– Men det finns så klart beroenden som inte portats ännu. Om du lider av bibliotek som inte uppdateras, antingen för att de inte vill eller att de helt enkelt är övergivna, finns en guide till hjälp. I korthet är det samma problem som med alla tredjepartsberoendent: Få någon att fixa det, fixa det själva, eller hitta alternativa bibliotek. Det var bara tidigare i år som ett säkerhetshål upptäcktes i biblioteket NumPy som tillät godtycklig exekvering av kod genom att bara ladda in dataset.

Sidan Py3readiness (ej https) har haft koll på de 360 mest nedladdade Python-biblioteken och huruvida de haft stöd för Python 3. Numera visar den att alla de mest nedladdade biblioteken stödjer Python 3, så situation är mycket bättre än för några år sedan.

Vad finns det för verktyg att använda vid en migrering? Går det till viss del att automatisera processen?

– Det finns verktyg som 2to3 och Modernize för att automatiskt hjälpa till att konvertera kod. Men lika viktigt är att – inför alla sorters refaktorering – se till att ha bra tester innan du börjar. Och använd alltid, alltid, analysverktyg som till exempel Pylint eller Mypy.

– Men det finns nya funktioner som dykt upp i nyare versioner av Python 3 som aldrig har kommit, och aldrig kommer, till Python 2. Så även om automatisering kanske kan transformera ett projekt till Python 3, hela vägen, eller nästan hela vägen, är det inte nödvändigtvis så att den ”nya” kodbasen är ”bra Python 3-kod”, så att säga, och den kan behöva justeras på en högre nivå. Det finns det ingen automation för, säger Marcus Näslund.

Den officiella Python-dokumentationen har en guide för automatiserad migrering.

Om man kör Python 2.7 så verkar det vara lättare att migrera, vad beror det på?

– Python 2.7 var tänkt att vara den sista versionen av Python 2, så vissa nyheter i Python 3 har portats till 2.7, och till viss del 2.6, för att underlätta migrering. Python 2.6 har inte uppdaterats sedan 2013, så om du kör så gammal kod och är orolig bör du egentligen ha fått panik för länge sedan. Populära analysverktyg som till exempel Pylint stöder inte längre så gamla versioner.

Om man kör 2.6 eller äldre kan man migrera till ett slags mellanläge, som en Python 3-tolk kan tolka. Kan man göra partiella migrationer?

– Delvis. Det går inte att markera vissa filer och säga ”kör den som Python 2 och den som Python 3”. Men det är mestadels möjligt, och var rekommenderat i många år, att skriva python-kod som skulle vara kompatibel med både Python 2 och 3. Detta med hjälp av future-paketet, som gör att man i flera projekt ser saker som from __future__ import print_function för att kunna skriva en print(”Hello world!”) à la Python 3 och som också fungerar i en Python 2-tolk. Ett annat exempel är from __future__ import unicode_literals för att få strängar med unicode-stöd på samma sätt som i Python 3.

– Men generellt, se till att uppgradera till Python 2.7 – det är ett mycket lättare steg – och sedan därifrån till Python 3, säger Marcus Näslund.

Vad skulle kunna hända om man upptäcker en sårbarhet till exempel i ett bibliotek, och sårbarheten inte åtgärdas?

– All kod är en möjlig attackvektor. Du löper samma risker som med ett opatchat operativsystem eller en gammal Javaversion. Att sårbarheterna ligger i ett bibliotek istället för din egen kod gör dem inte mindre farliga, snarare tvärtom, i avseendet att du förmodligen inte har lika bra koll på den koden. Personer skulle kunna få tillgång till systemet, stjäla data, eller i värsta fall exekvera godtycklig kod.

– Det finns ju säkerhet i system som driftats länge och är välbeprövade. Och är det interna system eller lokala script som inte kan nås utifrån är det kanske en annan situation. Att supporten för Python 2 upphör vid årsskiftet är ingen Y2K-liknande händelse med risk att allt löper amok vid midnatt. Men säkerhetsrisken är en verklig risk när saker inte uppdateras. Servrar som kör Python 2 som backend, till exempel, löper stor risk över tid.

När man väl klarat av migreringen, hur ska man underhålla sin kod så man inte hamnar i samma situation igen så småningom?

– Teknisk skuld är alltid ett problem inom mjukvaruutveckling och inget som är unikt för Python. Det handlar om att avsätta tid och att väga den kortsiktiga kostnaden att uppdatera mot den långsiktiga kostnaden att inte uppdatera.

– Däremot är löftet från PSF att den här situationen inte kommer uppstå igen – och med den enorma användarbas som Python har idag vore det nog både omöjligt och opraktiskt. Python 3.8 släpptes i år, nästa år kommer 3.9, och därefter 4.0, men det kommer bara vara en mjuk bakåtkompatibel övergång, inte alls samma hopp eller parallella utveckling som mellan Python 2 och 3.

