Giới thiệu XML Extensible Markup Language

Giới thiệu XML Extensible Markup Language

Extensible Markup Language (XML) là một ngôn ngữ đánh dấu để định nghĩa một tập hợp các quy tắc cho các tài liệu mã hóa trong một định dạng mà là cả hai con người có thể đọc được và đọc được bằng máy. Nó được định nghĩa trong các kỹ thuật XML 1.0 của W3C, và một số chi tiết kỹ thuật khác có liên quan, tất cả các tiêu chuẩn mở miễn phí.

Mục đích thiết kế của XML nhấn mạnh sự đơn giản, tổng quát và khả năng sử dụng trên Internet. Nó là một định dạng dữ liệu văn bản với sự hỗ trợ mạnh mẽ qua Unicode cho các ngôn ngữ trên thế giới. Mặc dù thiết kế của XML tập trung vào các tài liệu, nó được sử dụng rộng rãi cho các đại diện của các cấu trúc dữ liệu tùy ý, ví dụ như trong các dịch vụ web.

Nhiều giao diện lập trình ứng dụng (API) đã được phát triển cho các nhà phát triển phần mềm sử dụng để xử lý dữ liệu XML, và một số hệ thống sơ đồ tồn tại để hỗ trợ trong việc định nghĩa của ngôn ngữ dựa trên XML.

Tính đến năm 2009, hàng trăm ngôn ngữ dựa trên XML đã được phát triển, trong đó có RSS, Atom, SOAP, và XHTML. định dạng dựa trên XML đã trở thành mặc định cho nhiều công cụ hiệu quả kinh doanh, bao gồm cả Microsoft Office (Office Open XML), OpenOffice.org và LibreOffice (OpenDocument), và iWork của Apple. XML cũng đã được sử dụng như là ngôn ngữ cơ bản cho các giao thức truyền thông, chẳng hạn như XMPP.

XML là một hồ sơ ứng dụng của SGML (ISO 8879).
Sự linh hoạt của SGML để hiển thị thông tin động được hiểu bởi đầu các nhà xuất bản phương tiện truyền thông kỹ thuật số vào cuối năm 1980 trước khi sự nổi lên của mạng Internet. Vào giữa những năm 1990 một số học viên của SGML đã có kinh nghiệm với việc sau đó mới World Wide Web, và tin rằng SGML được cung cấp các giải pháp cho một số vấn đề các Web có khả năng sẽ phải đối mặt khi lớn lên. Dan Connolly thêm SGML vào danh sách các hoạt động của W3C khi anh gia nhập đội ngũ nhân viên trong năm 1995; công việc bắt đầu vào giữa năm 1996 khi kỹ sư Sun Microsystems Jon Bosak phát triển một điều lệ và tuyển dụng cộng tác viên. Bosak đã được kết nối tốt trong cộng đồng nhỏ những người có kinh nghiệm cả trong SGML và Web.

XML được biên soạn bởi một nhóm làm việc của mười một thành viên, được hỗ trợ bởi một (khoảng) 150 thành viên Interest Group. cuộc tranh luận kỹ thuật diễn ra vào danh sách gửi thư Interest Group và các vấn đề đã được giải quyết bằng sự đồng thuận hoặc, khi đó thất bại, đa số phiếu của các nhóm công tác. Một kỷ lục của quyết định thiết kế và lý do cơ bản của họ đã được biên soạn bởi Michael Sperberg-McQueen vào ngày 04 tháng 12, 1997. James Clark từng là lãnh đạo kỹ thuật của Nhóm công tác, đặc biệt là đóng góp những phần tử trống rỗng “<trống />” cú pháp và các tên “XML”. Các tên khác đã được đưa ra xem xét bao gồm “MAGMA” (Kiến trúc tối thiểu cho các ứng dụng Generalized Markup), “SLIM” (cấu trúc ngôn ngữ cho Internet Markup) và “MGML” (tối thiểu Generalized Markup Language). Các đồng biên tập của đặc tả ban đầu Tim Bray và Michael Sperberg-McQueen. Nửa đường thông qua dự án Bray chấp nhận một tham gia tư vấn với Netscape, kích động các cuộc biểu tình om sòm từ Microsoft. Bray đã tạm thời được yêu cầu từ chức của biên tập. Điều này dẫn đến tranh chấp dữ dội trong các nhóm làm việc, cuối cùng giải quyết bằng việc bổ nhiệm Jean Paoli của Microsoft như là một đồng biên tập thứ ba.

XML Nhóm công tác chưa bao giờ gặp mặt đối mặt; thiết kế đã được thực hiện bằng cách sử dụng sự kết hợp của email và teleconferences hàng tuần. Các quyết định thiết kế lớn đã đạt được trong một burst ngắn làm việc miệt mài, từ tháng Tám và tháng Mười Một năm 1996, khi Dự thảo làm việc đầu tiên của một đặc tả XML được xuất bản. công việc thiết kế tiếp tục thông qua năm 1997, và XML 1.0 đã trở thành một W3C Khuyến nghị về 10 Tháng hai 1998.
nguồn

XML là một hồ sơ cá nhân của một tiêu chuẩn ISO SGML, và hầu hết các XML đến từ SGML không thay đổi. Từ SGML đến việc tách các cấu trúc logic và vật lý (các yếu tố và các thực thể), sự sẵn có của xác ngữ pháp dựa trên (DTD), việc phân chia các dữ liệu và siêu dữ liệu (phần và thuộc tính), nội dung hỗn hợp, việc tách chế biến từ đại diện (chế biến hướng dẫn), và cú pháp mặc định góc khung. Loại bỏ được việc kê khai SGML (XML có một bộ phân cách cố định và thông qua Unicode là bộ ký tự tài liệu).

Các nguồn khác của công nghệ cho XML là Text Encoding Initiative (TEI), trong đó xác định một hồ sơ của SGML để sử dụng như một “cú pháp chuyển giao”; và HTML, trong đó yếu tố đã đồng bộ với nguồn tài nguyên của họ, các bộ ký tự tài liệu đã mã hóa riêng biệt từ tài nguyên, xml: lang thuộc tính được phát minh, và (như HTTP) siêu dữ liệu đi kèm với các nguồn tài nguyên hơn là cần thiết vào tờ khai của một liên kết. Các Extended Reference bê tông Cú pháp (ERCS) dự án của SPREAD (Tiêu chuẩn dự án Về Tài liệu Đông Á) Dự án của nhóm chuyên gia Trung Quốc / Nhật Bản / Hàn Quốc chế biến tài liệu ISO liên quan là cơ sở của quy tắc đặt tên XML 1.0 của; SPREAD cũng giới thiệu hệ thập lục tài liệu tham khảo ký tự số và các khái niệm về tài liệu tham khảo để làm cho có sẵn tất cả các ký tự Unicode. Để hỗ trợ ERCS, XML và HTML tốt hơn, tiêu chuẩn SGML IS 8879 đã được sửa đổi vào năm 1996 và 1998 với WebSGML Sự thích nghi. Các tiêu đề XML sau đó ISO HyTime.

Các ý tưởng phát triển trong suốt cuộc thảo luận đó là cuốn tiểu thuyết trong XML bao gồm các thuật toán để mã hóa phát hiện và tiêu đề mã hóa, mục tiêu hướng dẫn chế biến, xml: thuộc tính không gian, và các dấu phân cách gần mới cho thẻ phần tử rỗng. Các khái niệm tốt formedness như trái ngược với tính hợp lệ (trong đó cho phép phân tích mà không có một schema) lần đầu tiên được chính thức hóa trong XML, mặc dù nó đã được thực hiện thành công trong phần mềm sách điện tử Công nghệ “Dynatext”; phần mềm từ các trường đại học Waterloo dự án từ điển tiếng Anh Oxford mới; bộ xử lý văn bản RISP LISP SGML tại Uniscope, Tokyo; các Missile Command quân đội Mỹ iAds hệ thống siêu văn bản; Mentor Graphics Bối cảnh; Tờ giấy trắng ở giữa cuốn sách và Xerox hệ thống xuất bản.
Các phiên bản

Có hai phiên bản hiện tại của XML. Việc đầu tiên (XML 1.0) ban đầu được xác định vào năm 1998. Nó đã trải qua sửa đổi nhỏ kể từ đó, mà không được đưa ra một số phiên bản mới, và hiện đang trong phiên bản thứ năm của nó, như được xuất bản vào ngày 26 tháng 11 năm 2008. Nó được thực hiện rộng rãi và vẫn đề nghị cho sử dụng chung.

Thứ hai (XML 1.1) đầu được công bố vào ngày 04 tháng hai năm 2004, cùng ngày với XML 1.0 Third Edition, và hiện đang trong phiên bản thứ hai của nó, như được xuất bản vào ngày 16 tháng 8, năm 2006. Nó chứa các tính năng (một số tranh cãi) được dự định để làm cho XML dễ dàng hơn để sử dụng trong những trường hợp nhất định. những thay đổi chính là để cho phép việc sử dụng các ký tự kết thúc dòng được sử dụng trên các nền tảng EBCDIC, và việc sử dụng các kịch bản và nhân vật vắng mặt từ Unicode 3.2. XML 1.1 không được thực hiện rất rộng rãi và được khuyến cáo chỉ sử dụng bởi những người cần các tính năng độc đáo của nó.

Trước khi phát hành phiên bản thứ năm của nó, XML 1.0 khác với XML 1.1 trong việc có yêu cầu nghiêm ngặt hơn cho các nhân vật có sẵn để sử dụng trong phần tử và tên và định danh duy nhất thuộc tính: trong bốn phiên bản đầu tiên của XML 1.0 các nhân vật đã được độc quyền liệt kê sử dụng một phiên bản cụ thể của chuẩn Unicode (Unicode 2.0 sang Unicode 3.2.) các phiên bản thứ năm thay thế các cơ chế của XML 1.1, có nhiều tương lai chứng minh nhưng làm giảm sự dư thừa. Phương pháp thực hiện trong phiên bản thứ năm của XML 1.0 và trong tất cả các phiên bản của XML 1.1 là chỉ có một số nhân vật bị cấm trong các tên, và mọi thứ khác được phép chứa ký tự tên thích hợp trong các phiên bản Unicode tương lai. Trong ấn bản thứ năm, tên XML có thể chứa ký tự ở Bali, Chăm, hoặc các kịch bản Phoenician trong số rất nhiều những người khác thêm vào Unicode từ Unicode 3.2.

Hầu như bất kỳ điểm mã Unicode có thể được sử dụng trong các dữ liệu nhân vật và giá trị thuộc tính của một XML 1.0 hoặc 1.1 tài liệu, thậm chí nếu các ký tự tương ứng với các điểm mã không được định nghĩa trong các phiên bản hiện tại của Unicode. Trong dữ liệu nhân vật và giá trị thuộc tính, XML 1.1 cho phép việc sử dụng các ký tự điều khiển hơn so với XML 1.0, nhưng, đối với “vững mạnh”, hầu hết các ký tự điều khiển được giới thiệu trong XML 1.1 phải được thể hiện như là tài liệu tham khảo ký tự số (và # x7F qua # x9F , mà đã được cho phép trong XML 1.0, trong XML 1.1 thậm chí yêu cầu phải được thể hiện như là tài liệu tham khảo nhân vật số [36]). Trong số các ký tự điều khiển được hỗ trợ trong XML 1.1 là hai mã ngắt dòng đó phải được coi như là khoảng trắng. ký tự khoảng trắng là những kiểm soát mã số duy nhất có thể được viết trực tiếp.

Hiện đã có cuộc thảo luận về một XML 2.0, mặc dù không có tổ chức đã công bố kế hoạch cho công việc trên một dự án như vậy. XML-SW (SW cho kỹ thuật viên), được viết bởi một trong những nhà phát triển ban đầu của XML, [37] có một số đề xuất cho những gì một XML 2.0 có thể trông giống như: loại bỏ các DTD từ cú pháp, tích hợp các không gian tên, XML Base và Thông tin XML Set (infoset) vào các tiêu chuẩn cơ sở.

Thế giới Wide Web Consortium cũng có một Binary Nhóm Công tác Đặc XML làm nghiên cứu sơ bộ vào trường hợp sử dụng và tài sản cho một bảng mã nhị phân của infoset XML. Các nhóm làm việc không được điều lệ để sản xuất bất kỳ tiêu chuẩn chính thức. Vì XML là theo định nghĩa dựa trên văn bản, ITU-T và ISO đang sử dụng tên nhanh Infoset cho infoset nhị phân của mình để tránh nhầm lẫn (ITU-T Rec X.891 |. ISO / IEC 24.824-1).

Add Comment

Your email address will not be published. Required fields are marked *

Style switcher RESET
Body styles
Color settings
Link color
Menu color
User color
Background pattern
Background image
error: Nội dung được bảo vệ !