illuminet.se
from information to knowledge
contact - crew - login - privacy & cookies
Open, User friendly, document oriented information software.
search
This page:
print-version
metadata
comment

Integration på arbetsplatsen och med omvärlden

Nu kommer vi till det riktigt praktiskt intressanta:

Hur du kan bygga en fungerande miljö för dokument som fungerar i organisationen och håller för framtida förändringar?

Genom att läsa detta kapitel och ta vara på de resurser som finns idag.  

Lösningen är att kombinera kunskap om organisation, dokumenthantering, vår omvärld och metadata med en fungerande plattform att arbeta på. Det föranledde konstruktionen av sökverktyget Corpus som idag används på en del företag och några organisationer. Vi upptäckte att semantisk åtkomst saknades för att bygga praktiskt och öppet med informationsstandarder. Men Corpus är inte den enda nyckeln, utan en pusselbit för att integrera informationshanteringen över systemgränserna. Grunden finns i informationen själv och dessutom i de applikationer vi använder dagligdags.

För att bygga plattformen summerar vi våra krav och tittar på befintliga lösningar och modeller för systemutveckling. De huvudsakliga applikationsområdena för dokument är:

· Lagring som vi hanterar med HTTP (Apache+mod_dav/IIS)

· Sökning och Sortering (Fri-text, find, metadata)

· Agenter för (Bevakning , Vyer och )

· Applikationer, informationsklienter (Office, Notes, Netscape, StarOffice)

Det påverkar givetvis affärssystemen som hanterar:

· ERP (Enterprise Resource Planning) som idag fokuserar på Internet för kommunikation och informationsutbyte men har tidigare varit databasorienterat. Se till att ERP paketen inte låser både din information och plånbok.

· CRM (Customer Relation Management) Relativt ny akronym för att bibehålla bra kundrelationer och hantera support, utveckling och uppdateringar med kunderna i centrum. Många kundrelationer görs enklare med både XML och metadata. Eftersom kommunikationen berör hela organisationen och även kunden är det till stor nytta att ha metadata i dokumentet så alla kan utnyttja metadata effektivt.

· PDM (Product Data Management) Hur man underhåller produktinformation, versionshantering och tekniska specifikationer (ofta SGML). Här har produktorienterade tekniker varit flitiga med metadata och struktur med har ofta krångliga gränssnitt.

· EDI (Electronic Data Interchange) Är en 20-årig datastandard som får konkurrens av XML format med bättre formbarhet och spridning. Det finns bryggor mellan EDI och XML men informationen omfattar sällan information utan mest data och är därför inte i behov av att bli dokumentorienterad.

· BPI (Business Process Integration) Organisera information efter affärsprocesser, mycket relevant för dokumenten och effektiviseras med metadata. Man organiserar det i tre steg: modellering, förhandling och management. Lite likt som de tre delarna i cirkeln för BSC (Ballanced Score Card) som beskrivs i kapitel 2.

Affärssystemen är egentligen huvudmålet för integration, eftersom de ofta bygger strukturer som är svåra att utveckla om de inte är mycket anpassade till standarder och del av infrastrukturen. Det kan både ge mycket struktur till dokumenthanteringen och automatiseras av strukturerade dokument.

Varför ska vi integrera standarder?

Allt annat än informationsstandard betyder problem för ditt eget oberoende och din förmåga att kommunicera med din digitala information.   Inte bara för att dokument ska kunna spridas och kopieras smidigt, utan också för att nästa generations datasystem ska kunna ta över informationen från det föregående.

Att bygga dokumentorienterat är en långsiktig ekonomisk lösning.

Samtidigt ska inte arbetet bli mer komplicerat med krav, utan applikationerna ska anpassas för att förenkla informationshanteringen.

Idag är webblösningar oftast designade som öar utan särskilt många kopplingar till omvärlden mer än avändargränssnittet.

Öar av databaser med webbgränssnitt

Med ett semantiskt tillvägagångssätt kan både kontoret och omvärlden integreras med din information.

 

  Information som kan hanteras av flera system och är oberoende av lagring.

Systemdesign på Internet

Systemdesign handlar mycket om att separera s.k. lager i de grundläggande områdena: Gränssitt, logik, lagring. Varje lager har gränssnitt mot andra lager där början är människa och slutet något lagringsmedia eller temporärt beräkningsminne. Separeringen sker för att det ska vara enkelt att byta ut eller utveckla ett lager utan att behöva skriva om de andra. På så vis spar med utvecklingstid och resurser.

Enklast är tre lager i en applikation:

· Användargränssnitt – funktioner för att kommunicera med människa

· Logik – funktioner för att beräkna, operera och sortera data

· Lagring – funktioner för att lagra och hämta data

Denna tre-lagers-modell fungerar bra för klassiska databasapplikationer, men där logiken kan finnas både på klient och server sidan delas systemet upp i fem lager:

· Användargränssnitt – Fristående eller integrerad Windows-applikation

· Klientlogik – för att förenkla kommunikationen och inte belasta servern för mycket.

· Kommunikationsprotokoll – säkerhet och flera samtidiga klienter

· Serverlogik – synkronisering och objektmodell med systemets logik

· Lagring – databasgränssnitt eller objektorienterad lagring

Uppdelningen av programmet gör att det är betydligt lättare att vidareutveckla och förså programmet genom att dess delar för informationshantering är separerade.

Webben är i sig baserad på fem-lagers-modellen med:

· Användargränssnitt: webbläsare och plug-ins

· Klientlogik: Java, plug-ins, skriptspråk, XSL-Transformer

· Protokoll: HTTP, med säkerhet och olika åtkomst- och kontrollmetoder

· Serverlogik: Scriptsrpåk (ASP, PHP, SHTML), XSL-Transformer, Java-servlets

· Lagring: filsystem, databaser eller vidarekopplingar till andra webbserverar

Men webben har gett oss nya former som fyller flera funktioner i ett språk inte bara för webbläsare utan även för t.ex:

· Publicering från ordbehandling till webb. Webb är ett utmärkt sätt att nå information och samtidigt vara oberoende lagringsteknik eller operativsystem. På webben hämtar du dokument på högre nivå än filsystem eller databaser, men samtidigt mycket enklare.

· Agenter som hämtar och tyder information som spindlar eller bevakningsagenter. För att tolka informationen ser vi till att den innehåller nycklar. Nycklarna består av metadata, naturligt språk eller strukturerat innehåll.

· Kommunikation mellan program (med SOAP/RPC eller XML)
En informations server kan göra beräkningar och urval precis som en applikation och därmed kommunicera på applikationsnivå.

· Säkerheten finns samtidigt med webbrättigheter och virtuella privata nätverk styr vem som får tillgång till information. Här finns t ex Kerberos eller SLL som standarder och LDAP som katalog över personer.

Faktum är att alla traditionella lager kan ta till ”webbmetoder” för att hämta, modifiera eller visa information med hjälp av protokollet och standarderna från w3c.   Webben tillsammans med XML, XSLT och HTML har skapat en ny utvecklingsmiljö. Miljön gör att alla transformer, lagringar och anrop kan utföras på alla nivåer, från användargränssnitt till logik och lagring.

Utvecklingen arbetar sakta mot en generalisering av flera av de programmeringssteg som tidigare varit bundna till produktspecifika lagringsmetoder och presentationsformer. Ett exempel är textredigering där HTML med CSS (Cascading StyleSheets) gör att helt separata program kan använda samma semantik och komponenter.

När informationen går att nå på ett enhetligt sätt behövs information som kan förstås på samma vis. XML formaterar information, metadata är beskrivningar av information. Beskrivande information (metadata) i vanliga dokument är överförbar. Det finns metadata i HTML dokument, men även i andra dokumentformer som Microsoft Word, e-post eller Adobe PDF dokument.

Så länge formatet är läsbart av en öppen programvara kan man överföra metadata mellan olika filformat. Målet med XML är att ersätta samtliga dokument eller överföringsformat och därmed slippa vara beroende av de olika programmens ovilja eller brister att dela information.

Information går före kommunikation

Vi har länge utvecklat kommunikation utan informationsstandard och det gör saker onödigt komplicerade.

”The network is the computer” – har varit Sun Microsystem’s slogan ett bra tag. På Webben är dessutom informationen ett nätverk i sig med hyperlänkar och nyckelord.

Den client-server-lösning för kommunikation mellan program som Sun och många andra tidiga nätverksbyggare syftade på har inte etablerats i form av tunna klienter, CORBA(se…) eller Java applets som de förutspådde. Istället har Java blivit en verktyg för att skriva serverprogram till webbservrar kopplade till relationsdatabaser.

Skälet är att man måste ha en etablerad informationsstandard innan man etablerar en bättre kommunikationsstandard. Hur ska man annars kunna kommunicera och visa information på ett enkelt vis? Lösningen med ”tunna klienter” och Java visade sig vara komplicerad att genomföra – framför allt på grund av att det är omständigt att programmera gränssnitt och ladda stora mängder program över nätet – inte minst för att man måste underhålla klienternas kopplingar till specialiserade datalösningar. Komplexiteten blev enorm och felkällorna allt för många och beroende av varandra.

Lösningen blev att bygga standarden för information först och istället bygga kommunikation på informationsstandarden. XML är informationsstandarden och HTTP kommunikationsprotokollet med flera möjliga utvecklingar. Nu kan även andra protokoll dra nytta av XML för sin kommunikation så även CORBA och UML.

Relationsdatabasen Internet

Webbåtkomst, säkerhet, metadata och XML är grunden som gör att vi kan bygga nya funktioner mellan organisationer och till kunder på en högre nivå d.v.s relationer. Det är informationsinfrastruktur som bygger B2B, B2C och inte minst C2C (för alla som gillar buzzwords). Först nu kan man börja utvecklingen av klienter med större effektivitet. Både Sun och Microsoft lanserar därför nya plattformar för XML och Internet, men de är fortfarande oftast knutna till traditionella relationsdatabaser istället för webbdatabaser.

För att bygga en webbdatabas krävs öppen semantik och öppna relationer som kanske kommer om några år med XML. Men redan nu kan man börja arbetet med relationsdata med hjälp av metadata.

Med metadata kan man bygga delar av den semantiska webb som är visionen bakom XML, PICS, RDF och i grunden hela Internet.

En skillnad mot databasen är att den semantiska informationen inte är hela den information man frågar efter, utan utspridd i delar och dessutom med varierande strukturer. Det betyder att man har mindre kontroll men större möjligheter att kommunicera över tids-, kultur- och systemgränser.

Konvertering av binära dokument

En viktig del av integration är att informationen kan tolkas av flera applikationer och för att tolkas måste programmet i första steget läsa det binära filformatet.

Redan idag börjar applikationer tappa sin bakåtkompatibilitet speciellt om de är binärt beroende till applikationerna. Det är t.ex. en del vanliga Microsoft™ Word-dokument med direkta relationer till specifika programversioner för att tolka information.

Man bör helt enkelt konvertera dessa dokument till HTML eller XML om man vill bevara informationen. Behåll en kopia på originalet i fall konverteringen inte är fullständigt kompatibel i sig. Adobe™ PDF™ eller PostScript™ gör att informationen sparas i ”utskrivet” format utan de strukturer som behövs för att enkelt organisera om texten för nya omständigheter.

Då vi utvecklar vår sökmotor har vi avsevärda problem att tolka dokument sparade på ett applikationsberoende vis. Det är även problem att tolka PDF formatet eftersom kolumner i utskriften bryter upp innehållet så man måste rita texten för att förstå hur utskriften bygger stycken av korta rader.

Att hålla informationen ren från binära beroenden är svårt, men viktigt om man är intresserad av att bevara den för framtiden. För inte ens om man sparar programvara och dator för att kunna ladda de äldre dokumenten vet vi ifall vi kan föra över dem till nya format. Den sista utvägen är att använda programmet till att skriva ut dokumentet och sedan OCR-tolka sidorna. (OCR=Optical Character Recognision)

[länkar till konverteringsinfo]

Dokumentmallar med metadata

Dokumentmallar för vanliga ordbehandlingsprogram är en nyckel bra dokumentstruktur med metadata. Tricket är att inte göra något besvär med metadata utan integrera egenskaperna i dokumentet eller automatisera de egenskaper som inte behöver synas.

Vi har byggt en uppsättning Word-mallar som kan hjälpa dig med ärenden och projekthantering med både Word och HTML dokument. Dessa är bara exempel på hur man kan konstruera dem och vi vill gärna få in nya förslag.

Vi arbetar för att bygga upp mallar för andra applikationer och spana efter nya program som är bra för dokumenthantering.

Corpus, metadata med översikt

[ bild telefon och altavista ]

Corpus implementerar en del av den semantiska webben genom metadata och översikter.

Exempelvis kan Corpus snabbt visa ordnade listor med begrepp för ”ärende: 10-200” eller ”dokuemt-typ: protokoll” och verkligen endast lista just precisa data som en databas.

För att hantera ärenden kan Corpus exempelvis lista de senaste olösta ärenden som riktar sig till ditt ansvarsområde. Det sker genom att söka med metadata som hör till ärendedokument.

Corpus funktion

Med indexerad metadata går det att ställa relationsdatafrågor precis som i SQL. Men det kräver en ny modell för datahanteringen, eftersom vi inte är begräsade av data i en databas, utan information och metadata kan finnas på hela Internet.

  Lösningen är en modell som liknar sökmotorernas. En sökmotor för metadata har nämligen inte begräsad i tabellbredd som SQL, och kan effektivare slå upp avancerade relationer likt SQL men över tabellgränser..

Det var så idén om Corpus föddes. Corpus är sökmotorn som förstår den strukturerade informationskroppen. Det ger Corpus egenskaper som liknar SQL, samtidigt som vi kan arbeta med översikt i stora datamängder genom att navigera istället för att bara lista resultat.

IllumiNet har tillsammans med NUTEK som stöd och Stockholms Universitet som kund byggt Corpus med egenskaper som liknar relationsdatabasens. Den används idag för hela webben på Stockholms Universitet och för ärenden inom teknisk service.