XML -
Ngôn ngữ
Web thế hệ
kế tiếp

  |  

Lời đồn đại đằng sau các quảng cáo rùm beng về XML khiến người dùng không khỏi hoang mang. Bài báo này sẽ giúp bạn hiểu XML là gì cùng những lợi ích của nó, đồng thời giải thích tại sao các doanh nghiệp nên quan tâm tới XML.

Hãy dành chút thời gian (và quên đi những quảng cáo về XML) để tìm hiểu về ngôn ngữ này. Cho dù XML (Extensible Markup Language – ngôn ngữ đánh dấu mở rộng) đã trở thành thuật ngữ thông dụng trong lĩnh vực Internet, song có thể bạn còn chưa hiểu thấu đáo về nó cùng những lợi ích mà nó mang lại. Đừng cho rằng XML là công nghệ khó lĩnh hội vì đằng sau những lời khoa trương liên quan tới ngôn ngữ này là cả thuận lợi lớn cho quá trình cộng tác.

Quá trình phát triển của XML

XML là ngôn ngữ xây dựng cấu trúc tài liệu văn bản, dựa theo chuẩn SGML (Standard Generalized Markup Language: siêu ngôn ngữ có khả năng sinh ngôn ngữ khác). SGML được phát triển cho việc định cấu trúc và nội dung tài liệu điện tử, do tổ chức ISO (International Organization for Standards) chuẩn hoá năm 1986.

SGML là do IBM đưa ra, song không thể không kể đến những đóng góp của các công ty khác. XML được W3C (World Wide Web Consortium: tổ chức độc lập định ra tiêu chuẩn cho trình duyệt Web, máy chủ và ngôn ngữ) phát triển, nhưng đặc tả XML lại do Netscape, Microsoft và các thành viên của dự án Text Encoding Initiative (TEI) xây dựng. Tổ chức W3C XML Special Interest Group có đại diện từ hơn 100 công ty cùng nhiều chuyên gia được mời khác.

W3C chính thức thông qua chuẩn XML vào tháng Hai năm 1998. Thực chất, XML phát triển không phải với mục đích trang trí trang Web mà là trợ giúp cấu trúc cho tài liệu và dữ liệu để chúng có thể trao đổi giữa các phòng ban, khách hàng và nhà cung cấp. Cho dù XML vẫn chưa phổ biến, song đang được nhiều đối tượng quan tâm bởi nó cho phép chia sẻ và sử dụng thông tin phân tán trên các hệ thống khác nhau.

XML hỗ trợ người dùng thông qua khả năng tạo nội dung động, phát triển ứng dụng và tích hợp trên qui mô xí nghiệp. Khi việc hỗ trợ những hệ thống cũ gặp nhiều khó khăn và các doanh nghiệp đang cố gắng hợp nhất dữ liệu, XML có thể "giảm bớt gánh nặng" ở những nơi dữ liệu phân tán trên các hệ thống cũ.

XML là gì?

Để hiểu đúng về XML và phân biệt với HTML (Hypertext Markup Language – ngôn ngữ đánh dấu siêu văn bản), cách đơn giản nhất là bắt đầu bằng một ví dụ HTML. HTML sử dụng tập thẻ (tag) hữu hạn để định ra thông tin cơ bản về cấu trúc tài liệu. Do là ngôn ngữ đánh dấu nên HTML rất dễ sử dụng, bất kỳ ai cũng có thể xây dựng từ đầu trang Web cơ bản theo yêu cầu riêng.

XML khá giống HTML, hai ngôn ngữ này có cùng luật cú pháp. Tuy nhiên, tính linh hoạt của XML cho phép bạn tạo và sử dụng tập thẻ và thuộc tính riêng để nhận biết các phần tử cấu trúc và nội dung tài liệu. XML không chỉ đơn thuần là ngôn ngữ đánh dấu, nó có phương pháp định ra nội dung tài liệu, tương tự như HTML định hình thức tài liệu trên Web. Với HTML, người thiết kế đánh dấu văn bản, hình ảnh cùng các thành phần khác của trang Web bằng tập thẻ mà không liên quan gì tới nghĩa tài liệu; đoạn mã HTML chỉ nói lên cách hiển thị nội dung tài liệu qua trình duyệt. XML không chỉ định ra hình thức mà còn cả nội dung tài liệu.

XML được xem là công cụ mạnh hơn HTML do nó mang lại thông tin đầy đủ về dữ liệu. XML cung cấp "siêu dữ liệu" (meta-data) hay dữ liệu về dữ liệu, giúp việc tìm kiếm thông tin được dễ dàng hơn. Ví dụ, trong HTML, từ "apple" có thể được gán thẻ "bold" để mô tả hình dạng trái táo. Tuy nhiên, XML bao gồm các thẻ mô tả vật thể như "fruit" hay "apple" hay "red".

Một số tổ chức chuyên môn đã xây dựng ngôn ngữ XML riêng, bao gồm các thẻ nhận diện đặc tả công nghiệp. Ví dụ, ngành công nghiệp hoá đã phát triển ngôn ngữ Chemical Markup Language (CML)...

Tháng Hai năm 1998, hơn 40 nhà sản xuất cùng các công ty đã thông báo kế hoạch hoàn thành ngôn ngữ Commerce Extensible Markup Language (CXML) - tập con của XML. CXML định ra các tập dữ liệu chuẩn dùng cho thương mại điện tử trên Internet. Phiên bản thu nhỏ, đơn giản hơn của Electronic Data Interchange (EDI), tập thẻ dữ liệu CXML và bản thử nghiệm được công bố vào tháng Ba. Bản chính thức được hoàn thành trong vòng sáu tháng sau.

XML cho phép các nhà phát triển và quản trị công nghệ thông tin mô tả thông tin có liên hệ tới các nguồn thông tin khác. Đây là phương pháp khai thác thông tin nghiệp vụ lý tưởng trong môi trường trao đổi thông tin từ server đến server, từ server đến ứng dụng hay từ ứng dụng đến ứng dụng.

Cấu trúc mã chặt chẽ của XML (nội dung được đặt giữa các ký hiệu mã chuẩn hay còn gọi là thẻ) cho phép các ứng dụng khác dễ dàng tìm kiếm và sử dụng nội dung đã tạo. Mỗi tài liệu XML trở thành một kho dữ liệu hỏi đáp (query data repository) tương tự như cơ sở dữ liệu (CSDL).

Hiện tại, không có hệ thống quy tắc quản lý

XML giải quyết sự lộn xộn này bằng cách tổ chức tất cả các ngôn ngữ lập trình theo một cấu trúc thống nhất. Trước đây, dữ liệu được lưu trữ không theo thứ tự trong các trang HTML, nhưng giờ đây chúng được đặt trong các trang XML theo cấu trúc chặt chẽ. Cả hai trình duyệt của Netscape và Microsoft phiên bản 5.x đều thông hiểu XML và quản lý hiệu quả dữ liệu này.

Độc lập với server

XML giúp bạn tạo tài liệu sử dụng độc lập với server. Tài liệu nằm ngay trên máy khi người dùng tải về và tiếp tục được sử dụng không phụ thuộc server. Ví dụ, bạn tải tài liệu xuống máy tính xách tay, sau đó có thể sử dụng hiệu quả tài liệu này trong khi máy tính không nối mạng. Sở dĩ đạt được điều này là do tài liệu XML được lập trình thông minh trên chính nó: tài liệu tồn tại độc lập với server. Thậm chí, tài liệu có thể được gửi tới người dùng khác dùng ứng dụng có hỗ trợ XML. Những ứng dụng nhận biết được XML (không phải trình duyệt) cũng có thể quản lý dữ liệu gán thẻ XML.

Mặt khác, XML mang tính chặt chẽ của SGML, không ảnh hưởng tới cơ sở cài đặt khổng lồ của các trang HTML đã tồn tại trên Internet, nghĩa là chỉ cần điều chỉnh chút ít trang HTML để tương thích với XML.

Đây là một dòng mã HTML định ra nguồn hình ảnh: <img src = /img/fig1.jpg>, tương ứng trong XML là: <img src = "/img/ fig1.jpg/">. Rõ ràng, sự khác biệt giữa hai dòng mã là không lớn, những thay đổi như đặt thuộc tính ("/img/ fig1.jpg/" nhận biết tập tin fig1.jpg như một hình ảnh) trong cặp nháy kép và thêm dấu gạch chéo kết thúc câu lệnh đã chuyển câu lệnh HTML thành câu lệnh XML và được biên dịch bình thường. Một trang XML là một CSDL do các trường đều được nhận diện hay biên dịch, và chứa dữ liệu đặc tả để ứng dụng khác có thể truy cập.

Các ứng dụng XML

Nhiều nhà sản xuất đã công bố các chuẩn và ứng dụng XML, tiêu biểu là Document Object Model Level 2 cung cấp tập chuẩn gồm các đối tượng để trình bày tài liệu HTML và XML, đồng thời bổ sung các giao tiếp kiểu đối tượng Cascading Style Sheets (CSS), giao tiếp kiểu sự kiện và truy vấn.

Cũng là một trở ngại khi mãi tới năm 1998, các công cụ tạo XML, DTD (Document Type Definition – định nghĩa loại tài liệu: một kiểu tập tin kết hợp với tài liệu đánh dấu để định ra cách thông dịch tài liệu bằng ứng dụng thông qua thẻ đánh dấu) mới được đưa ra. Tuy nhiên đông đảo các nhà sản xuất đã và sẽ hỗ trợ XML trong những sản phẩm sắp tới. Ngoài ra, XML hứa hẹn mở rộng khả năng định dạng tài liệu Web thông qua việc bổ sung các DTD.

Trên cơ sở sự quan tâm và chấp nhận XML, trong năm nay, các nhà sản xuất sẽ đưa ra thị trường những sản phẩm hỗ trợ XML mang tính chất "chào hàng".

Interleaf Composer/Styler là công cụ đồ hoạ tạo XML sử dụng XSL (Extensible StyleSheet Language) (www.interleaf.com). XSL là đặc tả phân biệt mẫu tài liệu thông qua nội dung khi tạo trang HTML hay XML. Đặc tả có tác dụng tương tự mẫu định dạng (template), cho phép nhà thiết kế áp dụng cùng một mẫu cho nhiều trang. XSL là đặc tả kiểu thứ hai được W3C đưa ra sau CSS (Cascading Style Sheet – hệ thống qui định "kiểu dáng" trang Web). Interleaf Composer/Styler là một phần trong bộ sản phẩm BladeRunner được Interleaf công bố vào tháng Sáu. BladeRunner có thể định dạng cùng dữ liệu XML theo nhiều kiểu khác nhau, phụ thuộc mẫu trang được áp dụng.

RightDoc (http://www.rightdoc.com) đưa ra phiên bản RightDoc 2.0, đây là trình soạn thảo văn bản XML, sử dụng XML và CSS như các định dạng tập tin và cũng có thể xuất ra các định dạng HTML, PDF (Portable Document Format) và Postscript. Trình này sử dụng Query Designer để tích hợp dữ liệu thông minh vào tài liệu dùng ODBC (Open Database Connectivity), cho phép nhập trực tiếp dữ liệu mới vào tài liệu.

General Magic (http://www. generalmagic.com) sử dụng XML trong công nghệ xử lý.

Sqribe Technologies (http://www. sqribe.com) công bố sẽ sử dụng XML trong sản phẩm ReportMart Enterprise Information Portal để tích hợp các ứng dụng thứ ba (third-party applications) và các nguồn dữ liệu trên qui mô xí nghiệp. Sản phẩm đầu tiên sử dụng định dạng này là RM/QuickConnect của Sqribe cho PeopleSoft. RM/QuickConnect cung cấp một điểm truy nhập duy nhất cho các báo biểu PeopleSoft cùng những thông tin khác.

IPNet Solution (http://www.ipnetsolution.com) sử dụng XML trong các sản phẩm thương mại điện tử xí nghiệp IPNet.Suite 3.0. Bộ sản phẩm này có khả năng nhập, xuất dữ liệu XML, chuyển qua lại giữa định dạng XML và các định dạng khác, hỗ trợ DTD và dịch tự động XML thành HTML.

Cuối cùng là Blue World Communicarion (http://www. blueworld.com) đã hỗ trợ XML trong sản phẩm Lasso 3.5 Web Data Engine - sản phẩm xây dựng ứng dụng Web hướng cơ sở dữ liệu. Các thẻ Lasso sẽ được mã hoá theo cú pháp XML trong phiên bản sắp tới.

Tìm thông tin về XML trên Web

  • http://www.xml.com – Các bài báo và tin tức về XML
  • http://www.w3c.org – World Wide Web Consortium – tổ chức đi đầu trong tiến trình chuẩn hoá XML
  • http://www.microsoft .com/xml – Web site XML của Microsoft
  • http://developer.netscape .com/tech/metadata/index .html - trung tâm phát triển meta-data và XML của Netscape
  • http://www.software .ibm.com/xml – Web site XML của IBM
  • http://www.xmlrepository .com – Web site sưu tập công nghệ XML, trang thử nghiệm XML và có thể tải xuống miễn phí.

(theoVASC)

Close


Bạn tìm đến nhóm thiện nguyện VTT qua
www.tuoitre.org, tuoitre.org, www.tuoitre.de hoặc tuoitre.de.
Mọi ý kiến đóng góp xin bạn hãy liên lạc với chúng tôi qua lienlac@tuoitre.org.