UVOD U PORTABILNE STRUKTURE PODATAKA
Još dalekih 60-tih godina, ljudi su se bavili idejom o strukturiranju dokumenata u standardizirani oblik da bi se olakšala razmjena i rukovanje podacima. Tada je IBM je kreirao
GML (Generalized Markup Language) za potrebe vlastitih izdavačkih sustava. Koristili su GML za izvještaje, knjige, i druge dokumente iz izvornih datoteka. I druge organizacije i tvrtke stvarale su vlastita rješenja strukturiranja informacija, ali ništa nije bilo napravljeno za opću upotrebu.
Prva značajna standardizirana tehnologija strukturiranja informacija bio je
SGML (Standard Generalized Markup Language), također iz IBM-a. SGML je dao način formatiranja i održavanja pravovaljanih dokumenata unutar IBM-a, a kasnije je proširen i prilagođen za upotrebu u raznim područjima industrije kao opći standard informatizacije. Ipak, tek 1986. g. SGML se prihvaća od ISO standarda. Iako velikih mogućnosti, SGML je vrlo složen, a obrada traži zahtjevnu programsku podršku. U ranim danima Interneta, zbog složenosti i zahtjevanosti, SGML sigurno nije mogao predstaviti hipertekst.
1989. g. Tim Berners-Lee i Andres Berglund, dva istražitelja iz CERN-a, kreirali su jezik oznaka (markup language) za obilježavanje tehničkih dokumenata koji su se prenosili putem Interneta. Ovaj jezik se razvio kao pojednostavljena primjena SGML-a, nazvan je
HTML (HyperText Markup Language), i postao standardni oblik prikaza informacija za Web
[I. Zeid: “Mastering the Internet and HTML”, Prentice
Hall, Upper Saddle River, New Jersey, 2000.].
Razvoj web aplikacija u zadnjih deset godina dosegao je takav nivo da problemi koje danas susrećemo tada se nisu mogli ni zamisliti. Sustavi koji su distribuirani tisućama kilometara moraju zadržati brzinu i besprijekornu funkcionalnost bez obzira na udaljenost. Svi se prijenosi moraju izvesti tako da niti najmanji dio pojedinog podatka iz baze podataka, heterogenog sustava, direktorija usluga i aplikacija ne bude izgubljen. Aplikacije moraju biti u stanju komunicirati, ne samo unutar poslovnih komponenti već sa svim poslovnim sustavima, često preko različitih proizvođača, pa čak i različitih tehnologija. Klijenti više nisu strogo definirani, nego mogu biti i mrežni pretraživači koji podržavaju HTML, mobilni telefoni koji podržavaju WAP (Wireless Application Protocol) ili osobni organizatori s potpuno drugačijim jezicima oznaka. Osnova razvoja svih današnjih aplikacija postali su podaci i informacije izvedene iz tih podataka.
[H.M. Deitel, P.J. Deitel, T.R. Nieto: “Internet and
World Wide Web - How to Program”, Prentice Hall, Upper
Saddle River, New Jersey, 2000.]
HTML nije nosio rješenje za sve ove probleme. Vjerojatno je najočitije ograničenje HTML-a njegov strogo definiran skup oznaka. 1996. g. članovi World Wide Web Consortiuma (W3C) uočili su tri značajne prednosti SGML-a u odnosu na HTML:
- proširivost,
- strukturiranost i
- pravovaljanost.
Okupili su tim SGML stručnjaka koji su kreirali novi jezik oznaka s jezgrom SGML-a i jednostavnošću HTML-a. Nastao je eXtensible Markup Language (XML)
[T. Bray, J. Paoli, C.M. Sperberg-McQueen, E. Maler:
“Extensible Markup Language (XML) 1.0 (Second Edition)
”, W3C Recommandation, October 2000.
http://www.w3.org/TR/REC-xml].
Kao i SGML, i XML se koristi za definiranje drugih jezika, pa se naziva meta - jezik. Međutim, XML je mnogo jednostavniji i nezamršeniji nego SGML. XML je jezik oznaka koji ne ograničava skup oznaka (markup tags) koje se mogu koristiti niti gramatiku tog jezika. Skup oznaka (tag set) za jezik oznaka točno definira oznake - tagove koje ćemo koristiti i kako. Dvije su osnovne zamisli XML dokumenta. Prvi pojam kaže da svaki XML dokument mora bit dobro strukturiran (well-formed) da bi bio iskoristiv i ispravno razložen. Dobro strukturiran dokument je onaj čiji su svi otvoreni tagovi i zatvoreni i to po istom redoslijedu, te korištena sintaksa slijedi specifikaciju. Definiranje specifikacije za dokumente ne ograničava proširivost XML-a, već je potrebna da bi dane principe mogle iskoristiti aplikacije i parseri XML dokumenta a da bi se tako uređeni podaci mogli ispravno upotrijebiti.
Drugi koncept XML dokumenta je pravovaljanost (valid) dokumenta. Pravovaljan dokument je onaj koji se pridržava svoje definicije tipa dokumenta (DTD
- Document Type Definition). DTD točno navodi oznake elemenata koje se mogu koristiti u XML dokumentu i raspored tih elemenata. Ako XML dokument ima DTD specifikaciju i ako se ravna prema tim DTD pravilima, kaže se da je XML dokument valjan.
DTD definira pravila za pojedini XML dokument ili skup dokumenata. Razvojni programer ili autor sadržaja dokumenta također kreira pripadajući DTD kao dodatni dokument na koji se upućuje u njegovim XML datotekama ili je već uključen u sam XML dokument. Tako, ne može se smatratiti da DTD na bilo koji način ograničava XML. U stvari, DTD je taj koji omogućava prenosivost XML podataka. Prema definiciji tipa dokumenta u aplikaciji se može odrediti da li je sadržaj XML dokumenta prihvatljiv i na taj način spriječiti greške.
|