|
illuminet.se from information to knowledge |
contact - crew -
login
- privacy & cookies
Open, User friendly, document oriented information software. |
Det sker en revolution inom informationshanteringen som kommer att minska IT kostnaderna, öka fördelarna och ge oss en ny nivå av informationsnätverk. Men det krävs kunskap för att nå lösningar och det behövs förståelse för sättet vi lagrar och arbetar med information.
Vi går mot:
· XML från SQL
· Nätverk från Mainframe
· Öppen datalagring
· Standardiserad säkerhet
Detta kapitel handlar om tekniska standarder, nästa handlar om dokumentstandarder och nästa därefter om kontexten och integrationen. Här följer en bakgrund till de nya standarder som behövs och stärker integration mellan nätverk och applikationer. Den största stjärnan bland dessa är XML som tar över efter en hel del programmering av databaser.
Vi befinner oss oftast fortfarande kvar i main-frame 80-talet
Övergången från databaser till det nya formatet XML skapar en brygga mellan specifika databaslösningar och öppen information på Internet. Det innebär att globalisering och integrering tar ny fart och Internet får en mycket starkare roll i företags verksamheter.
Idag är de flesta avancerade informationslösningar baser89ade på Standard Query Language (SQL) från 70-talet. SQL kom för att generalisera hanteringen av centrala databaser eller main frame information.
SQL-servrar levereras i olika varianter av de stora mjukvaruföretagen och står för datakonsultföretagens största intäkter.
E-handelslösningar bygger till största delen på plattformar från Microsoft med Microsoft SQL, från Oracle med sin SQL och webblösning eller från gratissystemet MySQL med den öppna webbservern Apache.
SQL skapar allt mer arbete genom små skillnader i programvaran och helt olika lösningar i valet av hur man hanterar databasernas tabeller De största och vanligaste kostnaderna för företagen är att koppla samman system eller vidareutveckla systemen. Det kräver kunskap om en komplex och ofta företagsunik lösning.
Ändå har SQL-tabeller och frågor vuxit som standard och etablerat sig. Det har ju varit den enda lösningen för att effektivt hantera datatabeller.
Men så kommer en ny standard från W3C (som rekommenderar standarder för Internets enorma informationsrymd). En standard för hur man kan beskriva information och göra den kompatibel mellan system. Den stora nyheten är att informationen inte länge behöver vara tabeller och att informationen inte heller måste integreras mot alla specifika lösningar.
Kommunikation tar nya former, och sammankopplas
Webben är motsatsen till tabellinformation. Webben har istället en trädstruktur genom namngivning av tjänst, server, katalog och dokument. Dessutom länkar, relaterar, dokumenten mellan varandra på ett helt decentraliserat och oberoende sätt. SQL har också relationer men de är mycket mer bundna till applikationen och den specifika databasens konstruktion.
I den öppna informationsmodellen begränsas inte kreativiteten av fyrkantiga tabeller. Syftet är att sprida och förmedla engagerande innehåll och funktion. Modellen är inte är teknikdriven i sig utan ger ett spelrum med mediet som osynlig förmedlare. Man kan lägga till ny information och beskriva nya begrepp utan att spräcka ramarna i någon given tabell. Internet innehåller just sådan information.
Problemet är att Internets information är betydligt diffusare och mer utseendeorienterad än vad en enkelt hanterbar tabellinformation är. XML löser detta genom att ge informationen betydelse, en författare blir beskriven som författare eller ett ärende markerat som ett ärende, oberoende av var informationen är lagrad.
Men XML har ännu inte någon självklar roll, eftersom sökmotorer och webbplatser inte stödjer XML eller de dokument som kan förena semantik och tjänster världen över.
XML kommer att bli en standard för databehandlig över webben och för protokoll och kommunikation mellan oberoende system. Faktum är att den redan är det, nämligen i Palm-datorn som hanterar visitkort eller kalender i nya standardprotokoll. Det sker inom Microsoft och på Oracle där enorma investeringar görs för att satsa på XML. Nya Microsoft Office XP kan exportera och importera XML.
Men vad gör den som ska bygga sin affärslogistik eller webbplats själv? Behöver man tänka på XML överhuvudtaget?
Ja - och det handlar inte bara om teknik. Det handlar också om att ha känsla för hur man kommunicerar. Dessutom lära sig hur man kan kommunicera sin kunskap för att bli en del av den globala ekonomin. Tänk på att:
· Skapa tydliga gränssnitt för omvärlden med beskrivningar och metadata
· Undersöka om det finns befintliga standarder som ni kan använda
· Planera struktur för åtkomst och lagring av information även utanför det egna systemet
Det sker även en konvergens från befintliga system genom att ny programvara blir XML-ifierad. Men det betyder inte alltid att lösningen är särskilt bra. Så tro generellt inte på att Microsoft eller Oracle genom nya versioner kan lyfta dig och din information till en global arena automatiskt.
[ bild värdegemenstamt en kram ]
XML beskriver information, det markerar informationsområden med taggar som exempelvis <author> Jan Stenberg </author> för att beskriva att Jan Sten är author. Sedan går det att använda flera vägar att visar eller söker efter författare, utan att förlora betydelsen.
Metadata är också taggad information men oftast kortare. Den används som beskrivning, likt ett bibliotekskort. Ett exempel är keywords (nyckelord) som finns för HTML-dokument och används av sökmotorer på Internet för att beskriva dokumentets mer relevanta sökord.
Metadata explicit information, information som är utmärkande attribut. Det kan vara attributet ett dokument som beskriver t ex en affär eller ett ärende.
Med metadata kan man bygga sökbara relationer, precis som i databaser. Men eftersom dokument på Internet inte behöver finnas centralt är man utan databasernas lokala begränsningar. Det betyder att metadata kan delas mellan tusentals organisationer över hela Internet. Resultatet blir en nära global affärslogistik som vi berättar om i kapitlet om metadata.
URL/URI (Universal Resource Locator) är beteckningen för den form man skriver webbadresser, men formen används även för andra nättjänster. Dessa är t ex protokollen FTP, LDAP eller HTTP.
[Protokoll]://datornamn:port/katalog/fil
Xpointer är formen man använder för att referera till en viss del av ett XML-dokument. Webbprotokollet, HTTP (HyperText Transfeer Protocol), har ingen funktion för att söka efter kataloger eller dokument, det stödjer däremot LDAP (Lightweight Directory Access Protocol).
[ bild på en organisationsstrukturer ]
LDAP är en förenklad variant av X500, som är en del av de ISO-standarder som man försökte införa tillsammans med till exempel memo. LDAP är ett snabbt och effektivt protokoll för att fråga efter personer, deras telefon eller epost. Katalogen över personer eller resurser kan struktureras i nivåer efter organisation eller funktioner.
Idag används LDAP i Microsoft Exchange, Netscape Center eller Novell som samlande plats för andvändarkonton och för att beskriva rättigheter till olika system.
Om LDAP användes lite flitigare, skulle det kunna vara ett sätt att dela rättigheter mellan system och på detta vis skapa en kollaborativ miljö mellan nätverk.
Http revolutionerade Internet genom att öppna en dörr till html-filer som innehöll hyperlänkar i till andra http-servrar med andra dokument. Nu blir även http till ett fildelningsredskap när webbmappar eller http-DAV gör att det även går att författa och redigera direkt över webben obehindrat av nätverksgränser.
Funktioner och filer kan kombineras genom att de servrar som hanterar dokumenten kan generera dynamiska sidor. Det ger oss program över Internet, men även kommunikation mellan applikationer som använder XML. När http för filhantering används är det enklare att implementera robust säkerhet.
[ bild på en dörrvakt ]
Standarder som LDAP, Kerberos och SSL/SLT gör informationsvärlden betydligt säkrare. Säkerhet är mycket viktigt för åtkomst eftersom det blir lättare att dela information som är skyddad. Det låter kanske som en paradox, men man delar först känslig information om man även kan hantera åtkomsten. Dessutom får du den personliga vy av information som just du har rättigheter till under förutsättning att sökfunktionen känner till rättigheter.
Sökmotorn Corpus sökningar har anpassats till LDAP tillsammans med Spectral AB för implementation på exempelvis Ericsson som har en central LDAP server för hela koncernen.
Tillsammans med Stockholms Universitet har vi utvecklat en LDAP-agent som indexerar information i LDAP katalogen för att snabbt hitta relationer mellan dokument och personer.
[ bild på rymden ]
Internet är en rymd av möjligheter: Faktum är att vi kan skapa nya namnrymder, kanske till och med en som konkurrerar ut .com, den vi använder för webbsidor. I URL:er börjar adresserna på http, personer eller roller i kataloger kan skrivas som en annan variant på är med protokollet ldap:// som startar URL:en.
XML gör det också möjlig att referera mycket direkt till och med in i en viss del av ett dokument. Den typen av referens heter X-Path.
Ju mer vi använder öppna namnrymder på nätet, detso mer ökar vi vår mobilitet dvs möjlighet att använda information och tjänster oberoende av plats och oberoende av specifik teknisk lösning.
Informationens mobilitet är grunden för att vi ska kunna vara mobila användare, och arbeta från flera olika medier som PDA:er eller mobiltelefoner från alla delar av nätet. Just här har till exempel WAP misslyckats genom sina begränsningar och Japanska I-Mode (motsvarigheten till WAP standarden) ett försprång med sin användning av standarder som HTTP. Dessutom är man alltid uppkopplad genom I-Mode, precis som för fast Internet.
[ bild 3d bild av information/data ]
Samarbeten mellan företag leder ofta till dyra integrationskostnader för att sammankoppla databaserna för till exempel lager eller kunder. Ännu större arbete är det att dela kunskap som ligger i kataloger. Kostnaderna ökar exponentiellt med antalet kopplingar, om man inte inför en standard.
Globala konsulter bygger ofta nätverk för att snabbt skapa sig globala fördelar, skapade av lokala framsteg. (Cap Gemeni etc)
Amazon.com bygger på möjligheten att länka till ett komplett sortiment av böcker.
Den delade nyttan av en gemensam plats för böcker och länkar från sökmotorer är grunden. Handel och affärer mellan företag bygger på gemensamma standarder för information.
Arbetet som W3C (se http://www.w3.org/) utför har lett till en hel del nya och bra standarder för informationshantering.
W3C har lett utvecklingen från HTML till XML. XML leder i sin tur fram till nya protokoll och standarder. För dokumenthantering ger W3C förslag på hur layout och bilder hanteras bortom och i webbläsare.
Samtidigt måste man hantera dagens format, även om de är under all kritik och innebär flera problem. Eller så får man konvertera dem, med risk för att man förlorar eller feltolkar delar av filernas innehåll.
De vanligaste dokumentformaten är utan tvivel Microsoft Word och HTML. På tredje plats följs dessa av ett utskriftsformat som inte alls kan återanvändas annat än att läsas av människor, nämligen PDF (Adobe Acrobat).
Word är som bekant versionsberoende och ägs av Microsoft. HTML är ofta allt för styrt av hur sidan ska presenteras på skärmen för att själva texten ska kunna återanvändas.
Därför har W3C separerat informationen från layout och styrning på pixel-nivå. Layoutinformationen finns istället i form av Stylesheets, som i sin tur är uppdelad på typografi (CSS) och layout (XSL/FO).
Men XML är mycket mer än bara ett format för layout eller medieoberoende presentation. XML med metadata och datastruktur gör att det går att använda informationen for att navigera med utgångspunkt i semantiken som blir den nya och globala relationsdatabasen.
Som logik eller protokoll tar även XML rollen som elektronsikt handelsprotokoll och standard för världens börser.
Även beskrivning av bilder kan beskrivas med XML, som t ex SVG (Scalable Vector Graphics).
Det gör att fler program kan prata med varandra och att konkurrensen mellan programvaror hårdnar. Microsoft byter till exempel strategi till att bli en nätverksportal för mjukvarulösningar istället för att sälja paketerade produkter i butik. Det gör att de kan försvara sin ställning genom att bli en del av alla sina kundes utveckling. De tar på detta vis den nya ekonomin ytterligare ett steg framåt samtidigt som de satsar stort på XML.
Semantik är både ett problem och en styrka med öppna informationsstandarder. Semantik krossade ISO-samarbetet med Memo och x500 i spetsen. Semantiken blev politik och det gick inte att enas kring mycket välbehövliga datastrukturer. Istället segrade e-post med mycket enkla standarder och med färre problem mellan olika kulturer. På Internet segrar minsta motståndets lag men även ibland Microsofts lag.
XML möjliggör de mer komplexa relationerna liksom i de tidigare x500-standarderna, men ställer inga krav på global konvergens. Vi kommer att se flera konkurrerande XML-förslag som är företagsspecifika, nationella eller globala. Det är bättre än strikta standarder eftersom de istället skulle begränsa utvecklingen. Huvudsaken är att vi har ett språk att utveckla semantiken genom XML.
När semantiken kolliderar, vilket den redan gör i databaslösningar när man integrerar till exempel lager eller personalregister, så krävs traditionellt tunga och kontinuerliga tekniska samarbeten. XML har en teknik för att transformera mellan olika XML-semantik, den kallas XSLT. Det är i sig ett XML-format för att beskriva överföringsmallen mellan två format. Det använder bland annat Corpus för att skapa bryggor mellan XML och metadatastandarder.
Att översätta semantik är alltid ett arbete för människor eftersom det behövs kompetens och kunskap om de kulturer man arbetar med.
Om en sökmotor ska kunna kombinera och förstå olika semantik själv behövs artificiell intelligens eller ett gränssnitt som är sig av användaren. Då visar datorn de semantiska skillnaderna så att användaren kan fatta egna beslut.
Corpus har ingen artificiell intelligens, utan använder istället skillnaderna som en fördel genom att integrera dem som ett navigationsverktyg i sökningen. Sökverktyg som försöker förstå text är t.ex. hapax eller autonomy.
Precis som TV, mobiltelefoni och CD-skivor är Internet helt och hållet en standard, eller en optimal kompromiss för att dela möjligheter mellan många. Det gäller att tänka på samma sätt när man använder och bygger egen information på Internet.
[TODO: infoga stand.doc ]
Bibliotek har hanterat information i årtusenden och boken har varit en väl beprövad metod för kunskaps- och informationsöverföring. Det finns en metadatastandard som tagit fasta på boken som grund, den kallas för DublinCore. DC, och den fungerar ungefär som bibliotekskort. Fast bibliotekskortet finns istället som metadata i början av HTML- eller XML-dokument. Standarden innehåller publicist, författare, datum, originalplats (URL), kategori och kortare sammanfattning. Man kan säga att ett sådant dokument är väl beskrivet eftersom man inte direkt saknar information om dokumentet.
Vanligen saknar man bra metadata på Internet.
Men de som agerar egen bibliotekarie och markerar sina dokument med motsvarade bibliotekskort genom metadata, ser även till att informationen blir lättare att hitta och hantera direkt och för all framtid.
Utöver en bra beskrivning av informationen måste informationen i sig vara hållbar, filformat och länkar på webben är exempelvis inte alltid så hållbara.
Referenser är svåra att hantera liksom de är mycket effektiva när de används eftersom information flyttas och görs om ofta på nätet. Samtidigt kan ofta informationen nås enklare genom återförsäljare eller entusiaster som länkar till informationen.
Genom att istället länka till metadata genom Corpus eller genom en direkt namnrymd (som ISBN t ex) får man en mer exakt referens till unik information som kan flyttas runt på nätet.
Standarder är nyckeln till att nå ut, men kan även vara en snäv kostym som inte passar det man vill beskriva. Och allt eftersom standarden utvecklas faller informationen utanför det egentliga fokus den avsåg. Men det är ganska svårt att förhindra. Däremot ska man akta sig för format men kort perspektiv.
Teknikutvecklingen har tagit fart men många system håller sig fast vid gamla vanor och metoder som är direkt skadliga i en allt mer integrerad värld. Tyvärr är det inte alltid så enkelt att undgå problemen när de utvecklas flera parallella närliggande lösningar.
Några standarder och råd är ändå grundläggande och bör användas av dina system genomgående för framtiden och att kommunicera med omvärlden. Dessa är använda:
· Webben som dokumentdatabas (HTTP-DAV)
· LDAP för användarinformation och kontaktinformation
· Säkerhet med Kerberos 5 eller SLT
· Gängse semantik i katalognamn och -struktur
· Metadata för åtkomst till styr-, kontroll- och stöddokument
· Lagringsformat oberoende som möjligt av specifik programvara
· Programvara som utvecklas och kritiseras öppet
Mer som strukturer i dokument i nästa kapitel.