Hva kan arkitekter bruke kunstig intelligens til? Spørsmålet er feil formulert, men før jeg går nærmere inn på hvorfor, vil jeg si litt om hvordan IT-bransjen fungerer.
Det er dyrt å bygge programvare. Store prosjekter er avhengig av hundrevis eller tusenvis av arbeidere som skiller seg fra bygningsarbeidere ved at de er mye bedre betalt og at du aldri blir kvitt dem. Det er som om snekkerne skulle fortsette å vandre rundt i gangene på skolen de har bygget, mange år etter at elevene har tatt den i bruk. Stillasene står der fremdeles og lyden av hamring og boring pågår konstant. Og godt er det, for med en gang arbeidet stopper opp, begynner bygningen å forfalle.
Programvareprosjekter skiller seg også fra byggeprosjekter ved at de mislykkes i et større omfang. De går langt over på tid og budsjett og blir også levert med mange små feil, store feil eller katastrofale feil. Ofte viser det seg at selve grunnideen programvaren bygget på var feilslått.
For å tjene penger i en slik bransje, må man finne en god gangefaktor. Det vil si å lage noe som har potensial for å bli tatt i bruk av millioner eller hundrevis av millioner av mennesker. Noe revolusjonerende. Noe som, hvis det lykkes, «alle» vil måtte ha. Det er slike prosjekter risikokapitalister ønsker å sette penger på, for tenk å få være en av de tidlige investorene i det neste Apple, Microsoft, Google eller Facebook!
De etablerte IT-selskapene følger nervøst med. De vet at IT-historien er full av tidligere giganter som ikke omfavnet en ny trend i tide. Hvis de ser noen som kan ha snublet over noe stort, følger de etter og enten kjøper opp utfordreren eller skviser dem ut ved å etterligne dem.
Dette gjør IT til en motepreget industri hvor både investorer og etablerte selskaper jevnlig omfavner spekulative trender og blåser dem opp med enorme pengesummer. Hvorvidt trenden faktisk står for noe varig, kan man ikke vite sikkert før etterpå, og da er det jo for sent. Det gjelder derfor å legge de kritiske spørsmålene til side, gasse på og plukke frem de største ordene i ordboka. «Nå er den store nye tingen endelig her! Den vil revolusjonere, automatisere og demokratisere livene våre og føre menneskeheten inn i en ny æra!»
Denne blestmaskinen spytter markedsføringsbrosjyrene sine ut i et økosystem av videreformidlere. Dette er mennesker som kan være både oppvakte og naive på samme tid. De tenker på IT-bransjen som en kilde til viktige nye oppfinnelser som endrer verden, og venter spent på neste forsmak på fremtiden. Den neste PC'en, internett, sosiale medier eller smarttelefonen. Håpet om å fange en slik trend tidlig mates av frykten for å bli akterutseilt. Heller ikke videreformidlerne har interesse av å stille kritiske spørsmål.
I dette økosystemet er det vanskelig å skille de som oppriktig tror på en ny trend og vet hva de snakker om fra de som tror, men ikke vet hva de snakker om, og kynikerne som ikke tror og håper på å selge seg ut før bobla sprekker.
For å navigere i et slikt tåkefarvann må man søke det konkrete. Hvilken håndfast teknologi er det som ligger til grunn for alt dette? Hvem lager den og hvordan er det tenkt at den skal brukes?
KI og arkitektur
Med dette som bakgrunn, kan vi se nærmere på hvorfor spørsmålet «hva kan arkitekter bruke kunstig intelligens til» er feil formulert. Det er ikke konkret nok. KI er et blestord uten håndfast betydning. Det nærmeste du kommer en presis definisjon er at artificial intelligence er et fagfelt med et misvisende navn som siden 1950-tallet har levert ulike ideer til IT-miljøet. Noen av disse ideene var gode og har nå vært i bruk i flere tiår. Andre ble det ingenting av.
Også nevrale nettverk, byggeklossen i løsningene dagens blest dreier seg om, er en gammel idé. Jeg lærte om dem da jeg studerte informatikk for mer enn tjue år siden og de var ikke nye da heller. Siden har teknikkene blitt forbedret og maskinene blitt kraftigere. Det betyr ikke at noen nå har laget kunstig intelligens. KI er ikke et produkt.
Det misvisende navnet KI har vært en velsignelse for fagfeltet, fordi det inspirerer stadig nye generasjoner med disipler og investorer, men også en forbannelse, fordi det antyder et løfte ingen har vært i nærheten av å innfri. Blestperiodene i KI etterfølges jevnlig av skuffelse og pengetørke, såkalte KI-vintre.
Også de mer konkrete KI-begrepene er misvisende. «Nevrale nettverk» har lite til felles med biologiens nerveceller. «Dyp læring» og «maskinlæring» er ikke læring i den vanlige betydningen av ordet. «Generativ KI» antyder kreativitet, men driver med noe langt enklere, som jeg skal komme tilbake til.
Tross de misvisende begrepene, finnes det konkrete bruksområder for de nye KI-baserte løsningene. Jeg vet om flere som bruker ChatGPT til å generere kjedelige dokumenter med tomme standardformuleringer. Andre bruker bildegeneratorer som Midjourney til å lage artige bilder de ikke kunne tegnet selv. Selv bruker jeg GitHub Copilot når jeg programmerer. Den gjør det iblant litt raskere å skrive kode, fordi den gjetter seg fram til neste kodelinje. Man må bare være på vakt, for noen av gjetningene inneholder subtile og farlige feil.
Hva er det så, konkret, man ser for seg at arkitekter skal bruke KI-baserte løsninger til? Jeg er ikke arkitekt, så jeg skal nøye meg med å tilby verktøy leserne selv kan bruke for å navigere i ordtåken og skille det verdifulle fra det tøvete.
Jeg tar utgangspunkt i hva arkitekter sier om KI. Det jeg har funnet, faller grovt sett i tre kategorier: 1) Løsninger som kan automatisere arbeidsoppgaver og utforske mulighetsrommet i prosjekter på en måte som er vanskelig og tidkrevende for mennesker. 2) Bruk av bildegeneratorer som MidJourney til inspirasjon for designforslag. 3) Luftige spekulasjoner om spørsmål så som hvorvidt maskiner kan tenke, om kunstig intelligens vil overta jobben din og om de vil redde eller ødelegge verden.
La oss gå gjennom disse i omvendt rekkefølge.
Luftige spekulasjoner
KI har nå i mer enn ett år vært alle sosiale sammenkomsters forbannelse. Spekulasjonene flyter fritt. Ord som intelligens, tenkning og kunnskap fylles med hva man vil uten å knytte det til hva psykologer og filosofer har å si om dem. Stemmer ikke ordene overens med det som skjer her og nå, er det bare å utvide tidshorisonten med femti eller hundre år. På lang sikt er alt sant.
Det er gøy å bable om hvordan superintelligente programmer i framtiden kan forme livene våre. Noen fornuftige ting er det også mulig å si. Slike samtaler må imidlertid ses i lys av det jeg forklarte i starten om motejaget i IT-bransjen. De enorme pengesummene som står på spill legger opp til en todeling av verden hvor den lille innsidegruppen som har investert i en trend, er avhengig av å verve støttespillere utenfra som kan tilføre troverdighet og en følelse av FOMO, fear of missing out.
Iblant viser det seg at trenden var en bløff. Da ender disse støttespillerne opp som det jeg i mangel på en bedre oversettelse vil kalle suckers: Naive publikummere som har ofret tid, troverdighet og penger til fordel for kyniske aktører. Det er selvfølgelig ikke mulig å vite om man har vært en sucker før etter at blesten er over. De som omfavnet internett i 1990-årene hadde rett. De som ga troverdighet til kryptovaluta for et par år siden uten selv å tjene på det, var suckers. Poenget mitt er at alle som i dag spekulerer om framtidens maskinintelligens i lys av løsninger som ChatGPT, tilfører troverdighet til produkter IT-giganter som Microsoft har investert store pengesummer i. Dine spekulasjoner er en del av deres markedsføringsplan. Når du snakker om dette, bør du ha muligheten for at du er en sucker i bakhodet.
Det er stor avstand mellom de store ordene mange nå bruker om KI og løsningene man faktisk er i stand til å bygge. Ingen har laget programmer som kan «tenke» i den vanlige betydningen av ordet. Ingen vet om dagens løsninger er et skritt på veien mot slike programmer. Det man har laget er løsninger som kan trenes opp med store datamengder, finne mønstre i disse og skape nye data som stemmer overens med mønstrene. Hva dette eventuelt har å gjøre med tenkning, kreativitet og intelligens er et komplekst tema.
Ta for eksempel sammenhengen mellom form og mening. ChatGPT og MidJourney er et stort framskritt innen analyse av form. De kan produsere tekst og bilder som ser ut som det ligger en menneskelig intensjon bak. Mange antar at det derfor også ligger en forståelse av mening i disse modellene, men det er ikke gitt at noe slikt er mulig, selv for en ekte superintelligens. Se for deg at du hadde all verdens tekster til rådighet og en evighet til å studere dem, men selv ikke hadde noen koblinger til konteksten de oppstod i. Du er en hjerne uten kropp som aldri har kysset, sparket foten i en dør, sett en skog eller spist mat. Hvor mye kan du egentlig utlede om meningen som ligger bak tekstlige beskrivelser av disse fenomenene? Og dagens løsninger er ikke superintelligenser, kun enkle nevrale nettverk i stor skala.
For brukeren virker det som om generativ KI «forstår» hva vi spør den om og gir gjennomtenkte svar tilbake. Dette kan sammenlignes med en optisk illusjon, hvor noe ser ut som noe annet enn det det er. Hjernen tar snarveier i prosesseringen av visuelle sanseinntrykk som iblant fører til feil. Den gjør det samme når den tolker menneskelige intensjoner inn i tilfeldig generert tekst og bilder. Så lenge resultatet har riktig form, «vet» vi at det ligger et tenkende vesen bak, like uunngåelig som vi «vet» at to like streker på et papir er av ulik lengde.
De luftigste KI-spekulasjonene dreier seg om hva framtidige superintelligenser kan gjøre av skade eller nytte i en fjern fremtid. Avstanden mellom optimistene og pessimistene i denne debatten er kortere enn den fremstår. I praksis gir begge leirer troverdighet til IT-selskapenes markedsføringsmateriell samtidig som de fører oppmerksomheten bort fra de mer nærliggende truslene fra KI.
Et eksempel på dette er forfattere som frykter at de vil bli utkonkurrert av generativ KI, fordi de ser hvordan Amazon nå flommer over av syntetiske bøker. Imidlertid er det ingen av dagens løsninger som kan skrive bøker folk ønsker å lese. Det er heller ikke gitt at de vil kunne gjøre det i fremtiden. Det de derimot kan gjøre, er å utnytte nettbutikker med svake kontrollrutiner til å svindle kunder. Dette er altså så langt et Amazon-problem, ikke et KI-problem.
Slik er det med mye av KI-debatten. De viktigste innsiktene kommer ikke fra å spekulere om hypotetiske muligheter og farer ved framtidens KI, men ved å se på hva faktiske løsninger brukes til av konkrete aktører her og nå.
MidJourney til inspirasjon
Én KI-teknikk som har fått mye oppmerksomhet blant arkitekter, er generativ KI. Bildegeneratorer som MidJourney kombinerer to motstridende funksjoner på en slående måte: De gir deg det bildet du ber om, men tilfører samtidig et element av tilfeldighet som gjør at ingen resultater blir like. Bildene du liker, kan du slå sammen og bygge videre på.
En del arkitekter ønsker å bruke MidJourney til inspirasjon og kreativ utforskning. Inspirasjonen er i så fall kun visuell. Arkitekter skiller seg fra billedkunstnere ved at det de tegner skal være fysisk og økonomisk mulig å bygge. Det skal følge byggestandarder, passe med omgivelsene og være hensiktsmessig for kundene og brukerne. Man kan ikke designe en bygning uten å forstå mulighetene og begrensningene som ligger i fysikkens lover, byggematerialer, sosial og juridisk kontekst, menneskelig psykologi og mye mer.
Det ligger mye mening bakt inn i noen enkle streker på en skjerm. Bildegeneratorer som MidJourney er derimot kun visuelle. Som jeg var inne på, forholder de seg til form alene og har ingen forståelse av mening. Modellen deres inneholder abstrakte representasjoner av hvordan høyfjellshotell og boligblokker i brutalismestil ser ut. Disse kan man bruke til å se for seg hvordan et brutalistisk høyfjellshotell i Jotunheimen kunne sett ut, men dette betyr ikke at en slik bygning er ønskelig eller praktisk mulig.
Bildet kan riktignok inspirere arkitekter til å tegne bygninger som er gjennomførbare, men her seiler man mellom Skylla og Kharybdis. På den ene siden tenderer bildene mot det generiske. De bygges ut fra en modell som inneholder et slags gjennomsnitt av dataene den er matet med. Kombinasjonen av tilfeldighet og gode prompter kan føre til artige og uventete resultater. Det er likevel det gjennomsnittlige som ligger til grunn.
Resultatet er ofte klisjéaktig. På sosiale medier snakker nå mange om hvor lei de er av KI-genererte bilder, fordi de ser like ut. Det er ikke lett å rive seg løs fra begrensningene som ligger i det å sette sammen det gjennomsnittlige på tilfeldige måter.
Klisjeene kan også ta form av fordommer. Dataene du får ut av en slik modell, defineres av dataene den er trent opp med. Trener du opp en bildegenerator med bilder av New York og ingenting annet, er det kun en kaleidoskopisk forvandling av New York som kan komme ut i den andre enden. På samme måte begrenses MidJourney av de skjulte skjevhetene i datagrunnlaget sitt.
I likhet med ChatGPT, domineres MidJourneys datagrunnlag av vestlig og engelskspråklig innhold. Hva betyr dette i praksis? Som et eksperiment ber jeg MidJourney om et bilde av en person på vei inn i en travel, primitiv landsby. Forslagene jeg får er av mørkhudete mennesker og afrikansk byggestil med regnskog i bakgrunnen. Jeg må spesifisere at den primitive landsbyen er norsk, for å få hvite mennesker, norsk byggestil og norsk natur. Ber jeg derimot om et bilde fra en travel moderne landsby, får jeg hvite mennesker. Presiserer jeg at den skal være afrikansk, blir menneskene mørkere, men også fattigere, og den moderne afrikanske landsbyen ser ganske lik ut som den primitive.
Jeg ber om byer i ulike arkitekturstiler. MidJourney gir meg lyshudete mennesker og et slags forsøk på å ta forespørselen på alvor. Når jeg tilføyer at byen skal være afrikansk, tones arkitekturstilen ned og vi er tilbake til den samme gamle fattige landsbyen. Ber jeg om afrofuturisme, fremstår byen fattig. Jeg må presisere at afrofuturismen skal være europeisk, hva nå enn det skulle bety, for å få se velstand.
Modellen har med andre ord en sterk knytning mellom det afrikanske, fattige og primitive. Å trekke resultatet bort fra denne fordomsfulle klisjeen, krever mye innsats fra brukeren. Det er også lite MidJourney kan gjøre for å rette opp i dette, annet enn å trene opp modellen på en langt mer kostnadskrevende måte.
Sjøuhyret på den andre siden av sundet er vel så skummel: Plagiat og åndsverkbrudd. Generativ KI er trent opp med enorme mengder tekst og bilder som selskapene ikke har rett til å bruke. Åndsverkaspektet av dette for brukerne er uavklart.
Den klareste illustrasjonen av problemet får du hvis du ber bildegeneratoren om å etterape stilen til en bestemt person. Da får du et resultat du bør være forsiktig med å la deg inspirere av. I dette tilfellet er du imidlertid bevisst på faren. Verre er det når generatoren plagierer uten at du er klar over det. Det er umulig å sikre seg mot dette, av samme grunn som det er umulig å sikre seg mot klisjeer og fordommer. Datamengden er for stor. Ingen vet nøyaktig hva som befinner seg inni modellene. En del av «lærdommene» som ligger der, kan være urovekkende spesifikke. Du kan ende opp med å plagiere designelementer uten å ønske det.
Det ligger en juridisk risiko i dette, men ikke minst også en omdømmerisiko, særlig hvis man skal bruke bildene offentlig.
Er det mulig å navigere trygt mellom klisjeer og fordommer på den ene siden og plagiat på den andre? Det vil jeg tro, men jeg ser ikke hvorfor man seiler inn i slikt farvann med entusiasme.
Spesifikke arkitektverktøy
Løsningen på en del av disse problemene kan være å trene opp mindre og mer fokuserte modeller, med mer gjennomtenkte treningsdata og mer bruk av ekspertkunnskap. Slike løsninger vil ikke prøve å gjøre alt for alle, slik MidJourney gjør, men løse mer spesifikke oppgaver for bestemte brukergrupper, så som arkitekter.
Kanskje kan KI-teknikker brukes til å automatisere kjedelige og tidkrevende arbeidsoppgaver eller å utforske mulighetsrommet i et designoppdrag. Her er jeg langt utenfor mitt eget kompetanseområde og jeg har også slitt med å finne gode, konkrete eksempler på slik bruk. Det kan virke som om arkitekter som snakker om KI, foreløpig er mest opptatt av å spekulere om KI-guder og å utforske MidJourney.
Jeg kan likevel si noen generelle ting om en slik bruk av KI. Den første er å minne om at KI ikke er en teknologi, men et fagfelt som allerede har levert ideer til IT i mange tiår. Nye KI-inspirerte løsninger vil neppe utgjøre et radikalt brudd med fortiden, men snarere en gradvis forbedring.
Noen av disse forsøkene på forbedring vil være nyttige, andre vil vise seg å ha liten nytteverdi. Det er ikke lett å skille nytte fra gimmick når vi befinner oss midt i en teknologiblest, hvor det å sette merkelappen «KI» på noe er å tilegne det nær magiske evner.
Det gjelder å være åpen, men også skeptisk. Ny teknologi forandrer iblant livene våre til det bedre, men det er også slik at forestillingen om den nye teknologien som forbedrer livene våre er et virkemiddel for å gi avkastning til IT-investorer. Tenk på dekningen av en kommende storfilm. Vi vet at nye filmer kan være gode, men vi er også bevisste på hvordan forestillingen om den store filmopplevelsen du ikke må gå glipp av, brukes av de som investerer i film. Slik er det også med KI.
Forestillingen om at teknologisk endring er uunngåelig, er en del av den samme markedsføringspakken. Noen tjener på at du tror at dette er sant. All teknologisk endring skjer imidlertid innenfor en sosial, politisk og økonomisk kontekst. Ingenting er uunngåelig.
Noen av de KI-baserte nyvinningene vil være nyttige, men selv ikke nyttige verktøy er magiske. En hammer er en hammer, ikke en tryllestav. Det samme gjelder for KI-teknikker som maskinlæring. Man kan for eksempel lett trene opp en modell til å trekke feil «lærdommer» fra treningsdataene, på samme måte som man kan bruke en hammer til å ødelegge en tommel.
Hvordan bør så arkitekter forholde seg til KI-blesten? Den heseblesende samtalen om tenkende superintelligenser er det best å ignorere, tror jeg. Ikke ha for mye respekt for de som snakker om dette.
Generativ KI som MidJourney kan være artig og nyttig, men jeg tror entusiasmen raskt vil gi plass for en kritisk erkjennelse av verktøyenes begrensninger. Jeg ville også vært forsiktig med å gjøre meg avhengig av løsninger hvor forretningsmodellen er uavklart. Generativ KI krever enorme mengder prosesseringskraft. Vil man lykkes med å finne betalende kunder som kan dekke kostnadene til dette før blesten er over og investorene går lei av å vente på avkastning?
Jeg forventer mest verdi i den spesifikke bruken av KI-baserte ideer, men det vil ta tid å sortere gode ideer fra dårlige. Det faglig mest verdifulle du kan gjøre er kanskje å sette deg inn i noen av detaljene i teknikkene som brukes. Bygg opp en grei forståelse av begrepene, bruksområdene og svakhetene.
Så er det litt mindre sjanse for at du blir lurt når en selger banker på døra, viser deg en hammer og sier «Ser du denne tryllestaven her? Den kan du bruke til å spikre, skru og lime. Du kan sage med den, legge gulv, mure, støpe, gipse og male, og den lager deg også kaffe på morgenen. Kollegene dine bruker den allerede og om få år tar den på seg slips og begynner å snakke, så kjøp den nå før den kjøper deg.»