Web-технология: рождение, расцвет, блестящее настоящее и туманное будущееК.Окраинец, Морозовский проект История Что такое WWW ?
WWW,W3 - система для доступа к гипертекстовой и гипермедиа-информации (как, впрочем, и к любой другой, но соль именно в "гипер"). Изначально проект WWW зародился в CERN, европейском центре физики высоких энергий в 1990, но со временем перерос рамки сообщества ученых-физиков. Первые программы, демонстрирующие работу системы, были закончены в 1992 году для компьютера NeXT. За несколько лет, прошедших с тех пор, система WWW совершила победоносное шествие практически по всем операционным платформам, включая самые примитивные (MS-DOS). "Отец" W3, Тим Бернерс-Ли, сейчас является руководителем консорциума W3O, W3 Organization, основанного CERN и MIT (Масачусетский технологический институт) в 1994 году для развития и стандартизации W3. В феврале 1995 года СERN вышел из консорциума, мотивируя это необходимостью сосредоточить все усилия на чисто физических проектах. Преемником CERN стал французский национальный компьютерный центр INRIA. |
Кто же пользуется WWW ?
Рис.1. Профессии пользователей WWW
Для чего используется WWW ?
Рис. 2. Пристрастия пользователей WWW
Архитектура
HTML
Язык HTML, как уже упоминалось ранее, очень прост. Разработчики WWW и позже консорциум W3O стремятся оформить HTML как DTD (Document Type Definition) в терминах SGML (Standard Generalized Markup Language), ISO-стандарта для обработки документов. Чисто с практической точки зрения HTML представляет собой разметку, сделанную обычными английскими словами внутри документа. Например,
... "Нас оставалось 20 человек - те, кто не разочаровался и все равно хотел строить дома", - говорит Сергей Режков, директор "Альянса", - "И первое, что мы сделали - это добились финансирования нашего проекта. Если Вы хотите строить дома самостоятельно, Вам не обойтись без частных инвестиций". "Альянс" попал в число 27 победителей конкурса "Инвестпроект". ...HTML был разработан для того, чтобы выделить в документах логическую структуру.
HTTP
Протокол HTTP (HyperText Transfer Protocol) также в высшей степени прост, что даже иногда вредит организации информационного сервиса. Это правила общения между навигатором и WWW-сервером. Одна сессия легко укладывается в схему запрос-ответ. В простейшем случае навигатор требует некий документ, и сервер его выдает. С одной стороны, такая простота - вещь хорошая, с другой - это влечет за собой дополнительные накладные расходы и, следовательно, временные задержки и неэффективность.
Адресация, URL
Эта аббревиатура расшифровывается как Uniform Resource Locator, что можно вольно перевести, как "единый указатель на ресурс". Практически, это адрес документа. В обсуждениях WWW можно наткнуться на термины URN и URI, которые являются скорее заранее заготовленными терминами для блистательного будущего, но абсолютно бессмысленны в жизни. Подробная спецификация на URL может быть найдена в RFC1738. Здесь же мы ограничимся простым перечислением наиболее распространенных указателей.
Типичный для URL вид:
http | - передача гипертекста; |
---|---|
ftp | - протокол передачи файлов; |
telnet | - терминальный доступ; |
gopher | - еще одно очень популярное в Internet приложение; |
news | - новости Usenet; |
file | - для доступа к локальным файлам; |
Примеры URL
http://xxx.lanl.gov:8000/ http://info.cern.ch/ ftp://ftp.kiae.su/unix/ telnet://whitehouse.gov:23}Параметр "путь" специфичен для каждого протокола, например, для ftp - это путь в файловой системе. Похожий смысл (но не синтаксис !) имеет этот параметр и для других протоколов.
MIME
Согласование типов передаваемых в рамках WWW документов производится с помощью заголовков, которыми обмениваются навигатор и WWW-сервер. Весь комплекс этих заголовков известен как MIME, Multipurpose Internet Mail Extensions. Это означает "многоцелевые расширения почты в Интернет", и следы MIME можно видеть во многих электронных письмах, даже в странноватых, замкнутых на себя почтовых системах производства компаний типа Lotus или Microsoft.
Заголовки
Content-Transfer-Encoding: iso8859-5 Content-Length: 8674и, уж безусловно,
MIME-Version: 1.0есть несомненный признак MIME.
![]() |
CGI - часть HTML, создание интерактивных форм, создание документов, как вывод программ. По настоящему полезные формы профессионального уровня все же создавать в рамках CGI невозможно. Этому мешают бедность средств CGI и свойства (statelessness) протокола HTTP. |
![]() |
SSI, SSI+ - нестандартизованные расширения серверов, например, доступ к БД через ODBC без программирования |
Browsers
Распределение пользователей WWW по платформам приблизительно напоминает разделение рынка между операционными системами:
Рис.3. WWW-платформы
Рис. 4. Популярность навигаторов
Cервера
Среди WWW-серверов доминируют системы на основе Unix-серверов (70%), в основном freeware. Свободно распространяемые сервера составляют около 80%. Около 10% рынка удалось захватить Netscape Comm. Corp. (сервер довольно дорого стоит), опираясь на реализацию шифрования, дающую возможность торговать поверх Internet. В последнее время все большую популярность приобретает Microsoft Internet Information Server, IIS, для NT Server (бесплатно). IBM выпускает для этой же платформы Internet Connection Server (бесплатно). На Unix-платформе приблизительно в равных, довольно больших долях присутствуют сервера NCSA и Apache, причем существует реализация Apache-SSL (с шифрованием).
Направление развития состоит в том, что производитель операционной системы, поставщик "железа" или прикладной системы поставляет интегрированное решение для WWW-сервера.
Примерами тому Microsoft, SGI, Oracle и т.д. Кстати, среди производителей СУБД, Oracle наиболее быстро и полно отреагировала на требования рынка, включив в свои каталоги Webserver option для Oracle 7.x.
Видимо в будущем все большая часть серверов будет работать под управлением Windows NT, Unix-платформы будут монотонно убывать, сопротивляясь.
Tools
Существуют две основные категории вспомогательных программ для поддержки WWW - конверторы и редакторы. Редакторов, особенно для MS Windows, очень много. Большинство из них либо shareware, либо freeware (Hotdog, HoTMetaL etc.). WYSIWYG-редакторов для WWW практически нет. Один из немногих продуктов, который может претендовать на такое громкое звание - Netscape Gold. Впрочем, его ценность снижена свойствами генерировать нестандартную разметку и общей нестабильностью. Среди других решений уместно выделить Microsoft Internet Assistant - бесплатное дополнение к Microsoft Word версий старше 6.0. Эти два представителя, помимо редакторских функций являются навигаторами.
Практика показывает, что как бы редактор не старался скрыть специфику WWW от пользователя, последний все равно должен иметь хорошее представление о системе, языке и способах адресации документов. Поэтому, несмотря на все это изобилие, профессиональная работа с HTML-текстом, как в России, так и на Западе, чаще всего осуществляется сочетанием простой текстовый редактор-навигатор, что дает прежде всего абсолютный контроль на разметкой.
Конверторы существуют для множества разнообразных форматов - LateX, RTF, Frame и т.д. В последнее время производители популярных издательских систем и текстовых процессоров включают в свои продукты или средства редактирования HTML-текста или возможность экспорта из внутреннего формата в HTML.
Процесс выработки и принятия стандартов в теории должен осуществляться в рамках стандартной для Internet процедуры. Рабочие группы IETF вырабатывают проекты, что-то публикуется в RFC, некоторым присваивается статус стандартов.
Рабочие группы IETF, тесно взаимодействуя с консорциумом W30, действительно произвели на свет несколько стандартов - на HTTP 1.0, URL, HTML 2.0 и Internet Media Types. Но на самом деле принятие этих стандартов запаздывало. Они как бы фиксировали текущее состояние дел.
Это означает, что фактичеcки доминирующий на рынке навигаторов производитель диктует свою волю стандартизующим органам. Результат - появление элементов, которые многим кажутся излишними. Нелишне напомнить, что классический HTML создавался для логической разметки документа и ни в коем случае не для украшательства - и это глубоко верно. Бизнес, пришедший в WWW, почему-то (на самом деле понятно, почему) воспринимает WWW как издательскую систему, требуя от нее соответствующих возможностей. Понятно, что коммерческий производитель навигаторов не может игнорировать нужды рынка, отсюда и масса совершенно чуждых исходной идее маркеров, попытки скрестить слона с ужом.
Сейчас в работе находится очередной проект языка HTML версии 3.0, в окончательной редакции которого должны присутствовать совершенно замечательные вещи - математическая разметка, загружаемые стили оформления (stylesheets) и т.д. Для тестирования элементов разрабатываемого стандарта консорциум W30 распространяет специальный навигатор для многих операционных платформ - Arena (http://www.w3.org/). Опять-таки, с моей точки зрения, разработка и принятие этого стандарта недопустимо запаздывают.
Настоятельно требуемое рынком введение стандарта на шифрование опять-таки задерживается по неясным причинам.
Безопасность
Передача секретной информации в Интернет является одной из самых актуальных областей исследований и развития. Уже существуют несколько предложений на стандарт и даже их реализаций.
Общее правило состоит в том, что если вы хотите защитить свою информацию, то вы должны делать это сами. Как это сделать, вопрос другой. В Internet доступны программы, которые реализуют чрезвычайно стойкие шифровальные алгоритмы и вы легко можете бесплатно или за минимальную сумму установить их на свой компьютер. Например, PGP, Pretty Good Privacy - пакет программ, реализующий алгоритмы RSA.
Применительно к WWW проблема безопасности стоит наиболее остро. Предложения на стандарт шифрования в Internet, Socket Security Layer, исходящие от Netscape Corp. были реализованы с одной стороны в навигаторе, а с другой стороны в серверах Netscape (отчасти поэтому они так дорого стоят). Это позволяло поставщикам информации начать электронную торговлю, E-commerce, принимать к оплате по сети кредитные карточки и т.д. Совсем недавно началось распространение безопасной модификации одного из самых популярных из серверов Apache - Apache-SSL.
Если вы помните, очень малое количество людей (7%) использует WWW для покупок. Пользователи не до конца доверяют программной секретности и в чем-то они правы.
Есть и дополнительные сложности - законодательство США запрещает экспорт мощных криптостойких программ, что на практике означает ограничение на длину используемого ключа шифрования до 40 бит. Это резко снижает уровень защиты и были прецеденты взлома зашифрованных сообщений.
Великое несчастье подстерегает неискушенного в Интернет пользователя. Так как первыми в России в Интернет проникли специалисты по ОС Unix, а также потому, что практически все серверное программное обеспечение существует и работает в Unix, то и правила игры в значительной мере устанавливались именно этими специалистами. Представление о мире и о том, как должны выглядеть русские тексты у них оказалось не совсем такое, как могли бы ожидать пользователи других систем. А именно, стандартом для электронной почты и вообще для русского текста в Интернет является кодировка КОИ-8. Она даже описана в RFC (RFC1489), чего нельзя сказать о других кодировках.
Таким образом, в настоящее время имеют хождение:
![]() |
MS-DOS кодировка, полученная в незапямятные времена из обычной американской таким образом, чтобы в русифицированных программах символы псевдографики, которыми рисуют рамочки, оставались на своих местах (alternative, cp866); |
![]() |
MS-Windows кодировка (cp1251); |
![]() |
КОИ-8 кодировка (koi8-r); |
![]() |
ну и ISO не подвела, там тоже есть свое представление о том, как все должно быть - ISO-8859-5. |
![]() |
российский сервер почти всегда имеет основную информацию в кодировке КОИ-8; |
![]() |
есть масса серверов, которые не имеют перевода на язык MS-Windows вообще (да, Интернет как раз то место, где обычный российский пользователь с удивлением узнает, что MS Windows вовсе не непременный атрибут компьютера, а нечто, презираемое специалистами и получившее распространение по причинам малой грамотности населения и политики, за которую Microsoft не первый год судят в американских судах), а те, которые имеют, делают это спустя рукава, поэтому вы сможете получить только часть нужной вам информации. |
![]() |
хороший ISP должен предоставить вам возможность пользоваться WWW-сервером-посредником, который будет автоматически перекодировать содержимое запрошенных вами документов в приемлемый для вас формат. |
Самым интересным и многообещающим направлением развития Интернет и сетевых технологий в целом является проект Java компании Sun Microsystems. Именно с ним связаны сегодня самые интересные новости и проекты, именно Java у всех на устах.
Java - объектно-ориентированный язык, напоминающий C++. Наиболее интересным свойством является то, что программа на Java компилируется в псевдокод, который исполняется на виртуальной машине (естественно, реализация такой машины своя для каждой платформы). Этим достигается практически абсолютная портируемость приложений. Java легко и естественно интегрируется с WWW. Технология Java лицензирована Netscape Corp. и даже Microsoft Corp., которая намерена создать основанный на Java комплекс продуктов под общим названием Jakarta. Навигатор Netscape способен интерпретировать Java-код, помимо этого придуман NS создан некий Java-подобный упрощенный язык Javascript для пользователей которые не являются программистами и интерпретатор этого языка встроен в навигатор.
Java много обещает в будущем, однако кроме забавных и милых пустячков в WWW, пока самое большое достижение Java-технологии - неимоверный шум в прессе.
Java-страница - http://java.sun.com
VRML
Аббревиатура VRML расшифровывается как "язык описания виртуальной реальности". Это язык описания трехмерных сцен и объектов. Через World Wide Web пользователь может получить файл в формате VRML, и, если программа-клиент обладает такой возможностью, просматривать сцену с разных точек зрения. При этом картинка на экране остается плоской, но, перемещая точку обзора, пользователь может наблюдать вид трехмерного объекта с разных сторон.
Доступная пользователю стандартной PC виртуальная реальность пока производит довольно убогое впечатление.
Основная проблема этой технологии заключается в том, что обработка VRML-файлов происходит на компьютере пользователя и требует значительных вычислительных и графических ресурсов. Поэтому с одной стороны, программ-клиентов, поддерживающих VRML, не так уж много, и до сих пор нет стандартной программы для этого, доступной на различных платформах. С другой стороны, использование значительных ресурсов компьютера пользователя противоречит идеологии развития технологии по пути дешевых и легких Internet-терминалов, способных только отображать информацию, полученную по сети.
Ознакомится с спецификациями языка VRML можно, например, по URL
http://www.vrml.com/ |
http://www.eit.com/vrml/ |
Трафик
Сейчас IP-пакеты WWW занимают первое место среди объема передач в Internet. Массированное применение графики, бешеная популярность все больше ложатся тяжелым бременем на опорные сети провайдеров. Скорость расширения каналов не поспевает за ростом объема передач.
Решение - использование кэширующих посредников, в идеале - сети взаимодействующих кэширующих посредников, обменивающихся сохраненными документами. Недостатки - всегда найдутся пользователи, нежелающие использовать такую систему, возможное хранение устаревших документов, трудность взаимодействия с шифрующими клиентами/серверами.
В принципе, такие системы уже существуют, но по разным причинам их использование ограничено.
Поиск
WWW - принципиально децентрализованная система без центра - "никто не знает, где у спрута сердце, и есть ли у спрута сердце". Если поначалу анархия и свобода казались замечательным достижением, то в эпоху расцвета и тотального WWW пользователь сталкивается с трудностями поиска нужных ему материалов.
Пока эти проблемы решаются или популярными регистрационными WWW-серверами (http://www.yahoo.com/) или поисковыми роботами - программами, которые бродят по WWW-пространству, читают ВСЕ документы и индексируют их содержимое (http://altavista.digital.com/). Это, безусловно, временное, не масштабируемое решение.
Еще один интересный феномен наблюдается с широким распространением коммерческих компаний в WWW. Основной смысл и прелесть WWW (придавало громадное количество перекрестных ссылок разных серверов друг на друга. Теперь же наблюдаются изолированные наборы документов, никак не связанные с внешним миром, их задача - рекламировать и только.
Демография
Навигаторы
Сервера
Средства разработки (content-providing)
HTML
Безопасность
E-commerce
Новое
Русский язык
URL, производительность и структуризация