Поиск по сайту

Login Form



Главная Концепция Часто задаваемые вопросы о Semantic Web (SW)
Часто задаваемые вопросы о Semantic Web (SW) PDF Печать E-mail
Рейтинг пользователей: / 1
ХудшийЛучший 
Автор: Михаил Навернюк   
10.05.2007 00:00

В последнее время нам все чаще и чаще задают вопросы о том, что такое Semantic Web, для чего она нужна, какое отношение она имеет к той или иной технологии, как можно принять участие в развитии Semantic Web, и т.д. Поэтому мы решили опубликовать на нашем сайте список Часто Задаваемых Вопросов о Semantic Web. Здесь вы сможете найти ответы на многие интересующие вас вопросы.

Содержание

Что такое Семантическая Паутина (Semantic Web)?

Как бы вы определили главную цель Семантической Паутины?

Основная идея Семантической Паутины заключается в том, чтобы распространить принципы Всемирной Паутины с документов на данные. Такое распространение полнее раскроет потенциал Интернета, так как позволит данным эффективно распространяться среди пользователей, и автоматически обрабатываться программами.

Семантическая Паутина предоставляет две возможности:

  1. Она позволяет легко увидеть данные как таковые, таким образом программам не нужно избавляться от форматирования, картинок и рекламы на веб-странице для того, чтобы догадаться, где же, собственно, располагаются данные.
  2. Она позволяет людям писать (или генерировать) файлы, которые объясняют машинам взаимоотношения между разными наборами данных. Например: кто-то может установить "семантическую связь" между колонкой "zip-code" в базе данных и веб-формой с полем "zip", которая будет указывать, что они, на самом деле, обозначают одно и то же, то есть они обозначают одну и ту же абстрактную концепцию. В результате, такой подход позволяет компьютерам отслеживать такие связи, и следовательно автоматически интегрировать данные из множества разных источников.

Технологии Семантического Веба могут быть использованы в разных прикладных областях. Например: в области интеграции данных, в результате чего данные из разных источников и в разных форматов могут быть интегрированы в одном приложении; в области описания и классификации ресурсов для обеспечения более качественных, учитывающих предметную область, средств поиска информации; в области каталогизации, для описания содержимого, и взаимосвязей между веб-сайтами, страницами, или цифровыми библиотеками; в области программных агентов с развитой логикой, для облегчения распространения информации; в области рейтинговых систем; при описании коллекций страниц которые логически составляют один документ; для описания прав интеллектуальной собственности веб-страниц (см. например: Creative Commons), и во многих других.

Из каких базовых строительных блоков состоит Семантическая Паутина?

Для того, чтобы достичь целей описанных выше, важнее всего иметь возможностьь определить и описать взаимоотношения между данными (т.е. ресурсами) в Сети. Это не слишком сильно отличается от использования гиперссылок в современном Интернете, которые связывают текущую веб-страницу с другой: гиперссылки определяют связь между текущей страницей и целевой. Одним из главных отличий является то, что в Семантической Паутине такие связи могут быть установлены между любыми двумя ресурсами, отсутствует само понятие: "текущая страница". Другое важное отличие это то, что связь (т.е. ссылка) сама - поименована, в то время как ссылки используемые людьми в (традиционном) Интернете не именуются, и их роль выводится читателем. Определение таких связей позволяет организовать более качественный и автоматический обмен данными. RDF, который является одним из фундаментальных строительных блоков из которых состоит Семантическая Паутина, предоставляет формальные средства для такого обмена.

На эту основу, опираются дополнительные строительные блоки. Приведем несколько примеров:

  • Инструменты для запроса информации описанной с помощью таких отношений (например: SPARQL)
  • Инструменты для формирования более точной и детальной классификации и описания характеристик таких отношений. Это гарантирует способность к взаимодействию, и более сложные виды автоматической обработки. Например: сообщество может договориться о том, какое имя использовать для описания ссылки связывающей страницу с календарем. Это имя, затем, может быть использовано множеством разных пользователей и приложений без необходимости каждый раз переопределять такие имена (например: RDF Schemas, OWL, SKOS).
  • В более сложных случаях существуют специальные инструменты для определения логических взаимосвязей между ресурсами и связями (например: если ссылка связывает человека с его/ее e-mail адресом, то вполне оправданно провозгласить, что e-mail адрес - уникален, т.е. адрес не разделяется среди нескольких человек (например: OWL, Rules).
  • Инструменты для извлечения из, и для связывания с традиционными источниками данных, для того, чтобы гарантировать их способность обмениваться информацией с другими источниками. (например: GRDDL, RDFa).
Какое приложение продемонстрирует состоятельность Семантической Паутины?

Очень тяжело предсказать, какое приложение способно продемонстрировать состоятельность той или иной технологии, и такие предсказания часто грешат ошибками. Тем не менее можно сказать, что интеграция несвязанных и независимых "хранилищ" данных в одном целостном приложении - определенно, хороший кандидат. Конкретные примеры сегодня можно наблюдать в таких областях как, Медицина и Науки о Человеке, Государственное Управление, Инженерное дело, и т.д.

Смогу ли я "увидеть" Семантическую Паутину в моем браузере?

Не обязательно, по крайней мере не непосредственно. Технологии Семантического Веба могут работать неявно оказывая пользователю помощь, а не вмешиваясь явно в то, что видит пользователь в своем браузере. Это уже имеет место быть: существуют Веб-сайты (например: коллекция официальных сообщений (white paper) от Sun, или портал поддержки телефонов серии S60 от Nokia, виртуальный отдел по связям с прессой компании Oracle, online журнал Harper) которые используют технологии Семантического Веба незаметно для пользователя.

Семантическая Паутина - это просто исследовательский проект, или существуют коммерческие приложения на ее основе?

Как и все инновационные технологии, Семантическая Паутина претерпевает эволюцию: сначала развивается в исследовательских лабораториях, затем получает поддержку Open Source сообщества, потом появляются небольшие специализированные стартапы, и, наконец, технология начинает получать широкую поддержку со стороны бизнеса. Помните, классическая Всемирная Паутина изначально была разработана в центре Физики Высоких Энергий.

В настоящее время, Семантическая Паутина все чаще и чаще используется маленькими и большими компаниями. Oracle, IBM, Adobe, Software AG, или Northrop Grumman - только некоторые, из больших корпораций, которые уже воспользовались этой технологией, и продают как инструменты, так и целостные бизнес решения. Крупные прикладные области, такие как Медицина и Науки о Человеке, заинтересованы в тех средствах интеграции данных, которые предоставляет Семантическая Паутина.

Нужно ли хорошо понимать теорию формальных онтологий и логику, для того, чтобы использовать Семантическую Паутину?

Прежде всего, как указано в этом документе, можно разработать приложение Семантического Веба вообще без использования онтологий. Очень полезные приложения могут быть созданы без них, опираясь только на наиболее фундаментальные, и простые концепции Семантического Веба. Однако, даже если используются онтологии, правила, механизмы вывода, и т.д. обычный пользователь не должен задумываться обо всех этих сложностях, скажем, деталях механизма логического вывода. Все это делается скрыто от него. Чем разработчик должен оперировать, так это простые логические правила, такие как то, что если (Флиппер есть Дельфин) и (Дельфин естьТакже Млекопитающее), то можно заключить, что (Флиппер есть Млекопитающее)".

Сравним это с SQL. Официальный стандарт SQL, формальная семантика SQL, а, на самом деле, и реализация весьма не просты, и понятны только нескольким специалистам. Тем не менее, огромное количество пользователей используют SQL в своей практике, не особенно задумываясь о сложности этого языка.

Как Семантический Веб соотносится с существующим Вебом?

Семантический Веб - расширение существующего Веба, а не его замена. Островки RDF, и, возможно, связанные с ними онтологии могут быть разработаны постепенно. Крупные прикладные области, (такие как "Медицина и Науки о Человеке") могут использовать технологии Семантического Веба "локально", а затем, они могут распространиться в Сети более широко. Другими словами, не нужно думать, что Семантический Веб приведет к капитальной перестройке существующего Интернета.

Нет ли здесь серьезных проблем с правами на интеллектуальную собственность, если данные, в процессе интеграции будут кешироваться?
И да, и нет. Уже сегодня Веб столкнулся с такой проблемой. В конце концов, документы, которые вы просматриваете с помощью обычного браузера, обычно кешируются на стороне клиента. Тем не менее, похоже, это не создает больших проблем в Интернете. Подход Семантической Паутины, фундаментально ничем не отличается от этой ситуации.
Что представляет собой организация Семантического Веба в рамках консорциума W3C?

Semantic Web Activity в консорциуме W3C объединяет все Рабочие Группы и Группы по Интересам, чьи цели заключаются в том, чтобы улучшить существующие технологии Семантического Веба или внести свой вклад в их более широкое распространение. Домашняя страница организации содержит актуальный список текущих работ в рамках W3C.

Как Семантическая Паутина связана с...

... Искусственным Интеллектом?

Некоторые части технологий Семантического Веба основаны на результатах исследований в области Искусственного Интеллекта, такие как представление знаний (т.е. онтологии), теория моделей (т.е. точная семантика RDF и RDF Схем), или различные виды логических механизмов (например: правила). Однако, следует отметить, что в рамках Искусственного Интеллекта существует ряд направлений, (например: распознавание образов) которые полностью ортогональны Семантическому Вебу.

Также справедливо утверждение, что разработка Семантической Паутины открывает некоторые новые перспективы перед сообществом работающем в области Искусственного Интеллекта: так называемый "Веб эффект", то есть объединение знаний из разных источников, использование URI, потребность в механизмах логического вывода для не полных данных и т.д.

... Описательной Логикой?

Описательная Логика - математическая теория (происходящая из представления знаний), которая лежит в основе некоторых технологий Семантического Веба: OWL-DL и OWL-Lite.

... XML? Когда следует использовать RDF, и когда XML?

Оба формализма имеют свои сильные и слабые стороны, они имеют разные области использования. Две модели данных обслуживают разных пользователей, и выбор, в действительности зависит от приложения. Нету более хорошего, или более плохого подхода, просто они - разные.

Одним из достоинств XML является - возможностьь описывать жесткие иерархии. Приложения могут полагаться, и, в действительности, эффективно использовать информацию о положении элемента в иерархии. Например: большинство браузеров обеспечивают разное отображение элемента HTML li в зависимости от того, как глубоко этот элемент расположен в иерархии списков. XML позволяет очень легко контролировать содержимое через XML Схемы и объединять XML данные, которые придерживаются той же схемы или DTD.

Однако, объединение различных XML иерархий (технически, DOM деревьев) внутри одного приложения может оказаться очень сложным. XML - не слишком простой инструмент, для интеграции данных. С другой стороны, RDF состоит из очень неопределенного набора взаимосвязей (троек). В силу того, что он использует URI, очень просто объединять наборы троек, то есть данные описанные в RDF, внутри одного приложения. Поэтому он идеально подходит для интеграции, возможно сторонней информации в Сети. Но это имеет свою цену: реконструирование иерархий из RDF может стать довольно сложной задачей. Например: будет непросто (и излишне) описать, скажем, векторную графику, используя RDF. Воспользуйтесь для этого SVG!

... XML Schemas? Что такого дают мне онтологии, чего не может дать XML и XML Schema?

Этот вопрос также связан с вопросом о том, что лучше использовать XML или RDF, который был рассмотрен ранее. Прежде всего, позвольте процитировать Руководство по OWL:

  • Онтологии отличаются от XML Schema тем, что они являются представлениями знаний, а не форматом сообщений. В большинстве промышленные стандарты Веб состоят из комбинации форматов сообщений и спецификации протокола обмена этими сообщениями. Этим форматам придана некая операционная семантика, такая как: "По получению сообщения ЗаявкаНаПокупку передать Количество долларов со СчетИсточник не СчетНазначение и поставить Продукт". Но эта спецификация не предназначена для поддержки механизмов логического вывода вне контекста транзакции. Например: в общем случае мы не имеем механизма для того, чтобы сделать заключение, что раз Продукт имеет тип Шардоне, то это - белое вино.
  • Одним из достоинств OWL онтологий будет способность создавать инструменты, которые смогут совершать операции логического вывода над ними. Такие инструменты будут обеспечивать поддержку логических операций самого общего вида, не привязанных к какой-либо специфической предметной области. Если же кто-нибудь попытается построить систему логического вывода основываясь на XML schema, то такая система неизбежно будет работать только с предопределенной предметной областью. [...] Они выиграют от инструментов, произведенных сторонними компаниями, опирающихся на формальные свойства языка OWL инструменты, которые предоставят широкий спектр возможностьей, которые, большинство организаций не смогут воспроизвести.

К тому же, данные XML черезчур чувствительны к XML Schema, на которую они ссылаются. Если XML Schema изменяется, те же самые данные XML могут оказаться не валидными, т.е. могут быть отвергнуты парсером. Что-то вроде зависимости от RDF Schema и Онтологий существует и для данных RDF тоже: если RDF Schema или онтология изменяется, результаты логического вывода из исходных данных могут измениться. Однако, исходные RDF данные остаются правильными, нет никакой возможности для данных, быть отвергнутыми, например, парсером в следствии изменения Схемы/Онтологии. В общем RDF более устойчив к изменениям Схемы или Онтологии чем XML к изменению XML Schema.

... HTML meta заголовками?

Элементы HTML meta и link могут быть использованы для добавления метаданных в HTML страницу. В терминах Семантической Паутины, это эквивалентно процессу определения RDF взаимосвязей для этой страницы как "источника". Заметим, однако, что эти элементы могут быть использованы для определения взаимосвязей только внутри HTML файла, в то время как Семантическая Паутина позволяет определение связей с любым ресурсом в Сети. Это также означает, что элементы meta и link могут быть использованы только автором документа, в то время как в Семантической Паутине, любой может опубликовать метаданные об этой странице.

... тегами, фолксономиями?

Использование тегов стало весьма популярным методом категоризации контента. Пользователи могут пометить произвольными строками текста свои объекты данных (например: заметки в блоге, и фотографии). В то время как, использовать теги очень просто, и в какой-то степени полезно, этот подход разрушает большое количество семантики в данных. В Семантической Паутине, вместо использования текстовых тегов для идентификации объектов, используется связи этих объектов с другими ресурсами, которые могут быть уникально идентифицированы. Например такие которые представляют людей, или места. Взаимоотношения - очень специфичны, скажем, кто сделал эту фотографию, кто на ней сфотографирован, где она была сделана.

... микроформатами?

Микроформаты - обычно это относительно небольшие и простые наборы терминов, про которые существуют определенные соглашения в сообществе. Модели данных, разработанные в рамках Семантической Паутины имеют потенциал для того, чтобы быть более выразительными, точными, и формальными (и, обычно большими по размеру). Оба подхода могут быть использованы для выражения структурированных данных внутри веб-страниц. В некоторых случаях микроформаты уместны, потому что дополнительные возможности, которые предоставляют технологии Семантической Паутины - не требуются. В других случаях, где требуется большая точность, использовать микроформаты не удастся.

Данные, описанные в микроформатах имеют отношение к определенной проблемной области. Можно разработать программу, адаптированную к определенному микроформату, к тому как он использует, скажем, атрибуты класса или заголовка. Также представляется сложным (если вообще возможным) комбинировать разные микроформаты. В противовес этому, RDF может представлять любую информацию, в том числе и ту, которая извлечена из микроформатов на текущей странице. Вот где микроформаты могут извлечь пользу из RDF - универсальность инструментов Семантической Паутины позволяет повторно использовать существующие средства, например, язык запросов и легкое объединения утверждений из разных источников - фундаментальная сущность Семантической Паутины.

Заметим, что Рабочая Группа GRDDL разработала "шлюз" для микроформатов. Он определяет стандартную процедуру, как микроформаты сохраненные в XHTML файле могут быть "на лету" преобразованы в RDF. Также Группа по Развертыванию Semantic Web работая над RDFa создает модуль XHTML1.1, который позволит использовать фактически любой словарь RDF для аннотирования XHTML контента, почти как микроформаты, но более точно и с лучшими возможностьями для интеграции разных словарей в одном документе. Наконец, eRDF (разработанный Талисом) предлагает промежуточный вариант, когда можно добавлять произвольные данные RDF в станицу (X)HTML без необходимости использовать новый модуль, хотя и с ограничением на типы RDF словарей, которые могут быть использованы таким образом.

... Web 2.0?

Одним из аспектов Web 2.0, если не считать захватывающие новые интерфейсы, является то, что она выталкивает логику и активных агентов с уровня сервера на уровень клиента, говоря более точно, браузера. Разработка активных приложений на стороне клиента также означает, что эти приложения используют все виды данных. Данные, расположенные где-то в Сети или данные, встроенные в страницу, хотя и не обязательно видимые на экране. Например аннотация страницы в виде микроформатов, данные календаря в Сети, помеченные тегами изображения или ссылки сохраненные на веб-сайте, и т.д. Этот аспект Web 2.0, например, то, что приложения опираются на объединение различных типов данных ("расплющивание" данных), которое повсеместно распространилось в Сети совпадает с базовыми принципами Семантической Паутины. Что предлагает Семантическая Паутина, так это более целостная модель, и инструменты для определения и использования квалифицированных отношений между данными в Сети. то есть, обе технологии направлены на интеллектуальное разделение данных. Уже появилось определенное число типично Web 2.0 демонстраций и приложений, которые основаны на использовании инструментов Семантической Паутины в комбинации с AJAX и другими средствами, а также восхитительными пользовательскими интерфейсами.

Во многих случаях, использование техник основанных на RDF делает процесс объединения разнородных данных легче, в основном когда данные собранные одним приложением используются впоследствии другим. Генерализованная природа RDF делает этот процесс прямолинейным, что не всегда удается достичь для простых приложений Web 2.0.

Как я могу принять участие в развитии Семантической Паутины?

Требует ли Семантическая Паутина от меня произвести семантическую разметку всех существующих веб-страниц или конвертировать данные в реляционных базах данных в формат RDF?

Семантическая Паутина - это сеть данных. Данные сами по себе могут располагаться в базах данных, электронных таблицах, страницах Вики, или просто в традиционных веб-страницах.

Задача состоит в том, чтобы разработать инструменты, которые могут "экспортировать" эти данные в форму RDF: RDF - играет роль универсальной модели данных, как будто некий "клей", для интеграции данных. Это не означает, что данные должны быть физически преобразованы в фору RDF, и сохранены в, скажем, RDF/XML. На самом деле, автоматические процедуры, например конвертер из SQL в RDF для реляционных баз данных, GRDDL процессоры для файлов XHTML с микроформатами и т.д., могут продуцировать данные RDF на лету, как ответ на, например, запрос. RDF описания могут также быть включены в данные с помощью других инструментов (например данные Adobe's XMP автоматически добавляются Photoshop-ом к изображениям JPEG). Также существуют инструменты для разработки онтологий на высоком уровне, вместо того, чтобы вручную редактировать файлы онтологий. Конечно, непосредственное редактирование данных RDF иногда необходимо, но можно ожидать, что оно будет все меньше и меньше распространено, по мере того, как более качественными будут становиться соответствующие редакторы.

Очевидно, еще много необходимо разработать в этой области, и это предмет для активных Исследований и Разработки. Задача - повторно использовать как можно больше существующих данных в их существующих формах, и минимизировать количество RDF данных, которые нужно создавать вручную.

Требует ли Семантическая Паутина от меня выложить все мои данные в публичный доступ? А как же личная информация?

Семантическая Паутина обеспечивает среду для приложений, которая расширяет существующий Веб, а не заменяет его. Это, также означает, что существующая инфраструктура файрволлов, различных уровней защиты, шифрование, и т.д. остаются на месте. Если, по какой-либо причине (личная информация, бизнес, и т.д.) данные должны быть сохранены за брендмауэром в Интранет, а не в открытом доступе, это просто означает, что это, конкретное приложение Семантической Паутины работает в Интранет. Это ничем не отличается от разработки в традиционном Вебе, использования Веб-сервисов, и т.д. Определенное количество приложений было разработано для использования за корпоративным файрволлом, некоторые из них, впоследствии, мигрировали в Интернет, другие остались за файрволлом. Тоже самое верно и в отношении приложений Семантической Паутины.

Где я могу найти инструменты для разработки приложений Семантической Паутины?

Существует несколько списков в Сети, которые предоставляют более-менее исчерпывающий обзор различных доступных инструментов. Существует Страничка Wiki на сайте W3C ESW, которая поддерживается сотрудниками W3C (вы также можете найти перевод этого списка на русский здесь ). Эта страница включает ссылки на среды программирования; валидаторы, которые могут быть использованы для проверки данных RDF/XML или OWL онтологий; точки доступа SPARQL, специализированные редакторы или хранилища троек. Он, также включает ссылки на другие списки, такие как Руководство по Ресурсам RDF от Дэйва Бекетта или список инструментов поддерживаемый Freie Universität Berlin.

Действительно ли инструменты SW настолько стабильны и широко распространены, как, скажем, парсер XML xerces?

В целом большинство инструментов уже вполне приличного качества. Говоря о свободно распространяемом программном обеспечении, Jena или Redland, например, легко можно сравниться с xerces по их распространенности и по богатству предоставляемых возможностьей. Базы данных, такие как Sesame - также широко используются и очень интенсивно разрабатываются в последние несколько лет. Появляется все больше и больше коммерческих инструментов, в том числе редакторов, специализированных баз данных, систем управления контентом, средств для создания онтологий и валидаторов, и т.д. Страничка Wiki на сайте W3C ESW Wiki предоставляет хороший обзор большинства из них.

Конечно, есть возможности, для движения вперед. Технология SW моложе, чем XML и она все еще нуждается во времени, чтобы догнать Мир XML и создать инструменты такого же уровня зрелости и эффективности. Однако, огромные улучшения уже сделаны за последние несколько лет во всех областях, и разработка крупных проектов уровня предприятия уже имеет место. В целом: отсутствие инструментов более не является причиной для того, чтобы не принимать участия в разработке приложений SW.

Как я могу разместить RDF в моих (X)HTML страницах?

К сожалению, сейчас не возможно вставить полный RDF в XHTML, без нарушения валидности результирующего XHTML, за исключением использования элементов meta и link в заголовке.

Наилучшим решением будет - сохранить RDF отдельно и использовать URI, для того, чтобы сослаться на страницу XHTML и элемент link в странице XHTML, для ссылки на содержимое RDF. Эта техника часто называется RDF autodiscovery link и уже используется целым рядом инструментов.

Однако, работа по улучшению интеграции RDF в документы продолжается. Рабочая Группа GRDDL недавно разработала шлюз для данных в микроформатах и Группа по Распространению Semantic Web работая над RDFa создает модуль XHTML1.1, который позволит использовать фактически любой словарь RDF для аннотирования XHTML контента, почти как микроформаты, но более точно и с лучшими возможностьями для интеграции разных словарей в одном документе. Наконец, eRDF (разработанный Талисом) предлагает промежуточный вариант, когда можно добавлять произвольные данные RDF в станицу (X)HTML без необходимости использовать новый модуль, хотя и с ограничением на типы RDF словарей, которые могут быть использованы таким образом.

Как я могу экспортировать мои данные из Реляционной Базы Данных?

Это одна из активных областей R&D, и на текущий момент окончательного ответа еще нет. Вообще, существуют методы для конвертации запросов к RDF (например на SPARQL) в запросы SQL, на лету, то есть RDB выглядит как RDF хранилище, когда получает запрос от инструмента RDF. Детали мапирования Реляционных Таблиц на RDF обычно описываются для конкретной базы данных используя или небольшую онтологию и/или набор правил. Это единственная "ручная" информация, которая необходима для конвертации. Решение а общем виде пока не готово, но работа в этом направлении ведется в W3C. Смотрите страницы W3C Wiki для получения дополнительной информации.

Где я могу получить дальнейшую информацию о Семантической Паутине?

Руководство по Ресурсам RDF от Дэйва Бекетта предоставляет довольно подробный список статей о Семантической Паутине. домашняя страница Semantic Web Activity перечисляет все рекомендации, предоставляет ссылки на некоторые презентации, статьи, и т.д., которые написаны сотрудниками W3C или участниками рабочих групп по данной тематике. Здесь вы можете найти список отдельных руководств, которые могут быть интересны.

Рабочая Группа по Наилучшим практикам и Развертыванию Семантической Паутины (уже не существующая) выпустила ряд замечаний, которые могут быть полезны, при разработке онтологий, установке сервера для обработки RDF данных, использовании типов данных XML Schema совместно с RDF, и т.д. Недавно созданная Рабочая Группа по Развертыванию Семантической Паутины продолжит разработку подобных документов.

Также, опубликованы книги по этой теме. Список книг, который можно найти на сайте W3C Wiki, содержит (на данный момент) более 40 книг на разных языках, опубликованных известными издательствами, такими как O'Reilly, MIT Press, Cambridge University Press, Springer Verlag, ...

Где можно найти статьи/публикации о Семантической Паутине?

Существует несколько конференций, либо целиком посвященных Семантической Паутине, либо просто уделяющих ей серьезное внимание. Наиболее известные из них:

  • "International Semantic Web Conference" - ежегодное событие, которое публикует свои материалы в Springer (материалы доступны онлайн начиная с 2006). В то время как эта конференция носит глобальный характер "European Semantic Web Conference" и "Asian Semantic Web Conference" проводятся в Европе и Азии соответственно.
  • "International World Wide Web Conference" - основная ежегодная конференция по Технологиям World Wide Web в целом, и всегда уделяет большое внимание Семантической Паутине как с академической точки зрения, так и с точки зрения сообщества разработчиков. Посмотрите страницу организационного комитета для получения дополнительной информации об этой конференции и ссылок на ее материалы.
Где я могу найти онтологии, терминологию, или наборы данных для моего приложения?

Существует несколько порталов, которые собирают информацию о существующих онтологиях. SchemaWeb - хороший пример. Другой пример - сервис "PingTheSemanticWeb", который собирает информацию о новых RDF документах в Сети основываясь на сигналах "ping" посылаемых приложениями, которые генерируют данные и на RDF autodiscovery ссылках, которые находят люди путешествуя по Сети. На текущий момент, они имеют информацию примерно о ~7 миллионах файлов RDF. Также существует поисковый сервер, Swoogle, который специализируется на поиске документов Semantic Web.

Могу ли я видеть данные Семантической Паутины непосредственно в моем браузере?

Вы можете видеть RDF данные в удобочитаемом виде, если используете браузер для просмотра RDF, такой как Tabulator, Disco, или OpenLink RDF Browser, и расширения веб-браузеров такие как PiggyBank или Semantic Radar. Хотя конечные пользователи не будут иметь потребность видеть семантические данные (вместо этого, они будут выигрывать за счет более совершенных информационных систем построенных на их базе), эта возможность может быть полезна разработчикам, чтобы отслеживать данные Семантической Паутины непосредственно, и чтобы они, таким образом, могли использовать эту информацию в своих приложениях.

Существует ли сообщество разработчиков к которому я мог бы присоединиться?

Группа W3C Semantic Web Interest - одно из таких сообществ, и, возможно, лучшее место, для того, чтобы начать. Это публичный список рассылки, и к тому же он активен на канале #swig IRC Freenode.

Также существуют различные сообщества, которые концентрируются на некоторых специфических аспектах или целях вокруг Семантической Паутины. Например:

  • DOAP: проект направленный на создание описаний программных проектов open-source.
  • FOAF: проект направленный на создание описаний людей и их социальных отношений (см. #foaf IRC channel on Freenode)
  • SIOC: проект направленный на создание описаний онлайн сообществ (блогов, досок объявлений, и т.д.) и для использования этой информации для объединения таких сообществ вместе.
  • Связывание Открытых Данных в Семантической Сети: проект, который ставит своей целью сделать различные открытые источники данных доступными в Сети в виде RDF и установить RDF ссылки между объектами в разных источниках данных.

Еще один источник - PlanetRDF Blog аггрегатор, который аггрегирует блоги нескольких активных разработчиков Семантической Паутины со всего мира.

Вопросы о RDF, Онтологиям, SPARQL, Правилам...

Что такое RDF?

RDF - Среда Описания Ресурсов (Resource Description Framework) - это стандартная модель для обмена данными в Сети. RDF имеет средства, которые облегчают объединение данных даже в случае, когда лежащие в основе схемы данных отличаются, и она специально поддерживает эволюцию схем в течении времени, не требуя от потребителей данных внесения каких-либо изменений.

RDF расширяет структуру ссылок в Сети, для того, чтобы использовать URI при именовании связи между вещами также как именуются два конца этой связи (на эту, расширенную, ссылку обычно ссылаются как на "RDF тройку"). Использование этой простой модели позволяет смешивать структурированные и полу-структурированные данные, публиковать их, и разделять их между разными приложениями.

Эта ссылочная структура образует направленный, помеченный граф, в котором ребра представляют собой именованные ссылки между ресурсами, которые, в свою очередь, образуют узлы графа. Это представление системы в виде графа - является наиболее простой возможной ментальной моделью для RDF, и часто используется в простых-для-понимания визуализированных объяснениях.

"RDF Primer" - хороший материал для дальнейшего чтения о RDF.

В каких форматах может быть представлен RDF?

Утверждения RDF (или тройки) могут быть закодированы множеством разных способов, как основанных на XML (например: RDF/XML), так и нет (Turtle, N-triples, ...). Вообще, в действительности не важно, какой из этих форматов используется для выражения данных, информация представлена в RDF тройках, и конкретный формат - это просто вопрос синтаксического вкуса. Большинство RDF инструментов могут работать с несколькими форматами сериализации.

Давайте сравним "числа" и "цифры". Числа - это математическая концепция numerals - представление, поэтому используются разные представления: Римские, Арабские, шестнадцатеричные, восьмиричные, и т.д. Некоторые из этих представлений (как Римские) могут быть очень сложными, некоторые проще или привычнее, но все они представляют одну и ту же абстрактную концепцию.

Разве RDF не является просто приложением XML?

Нет. Фундаментальная модель RDF не зависима от XML. RDF - это модель, описывающая квалифицированные (или именованные) взаимоотношения между двумя (Веб) ресурсами, или между ресурсом и литералом. На этом фундаментальном уровне, единственная общность между RDF и Миром XML - это использование типов данных XML Schema для определения литералов в RDF.

Отметим, что один из форматов сериализации RDF в действительности основан на XML (RDF/XML), и это, возможно, наиболее широко используемый сегодня формат. Но существуют другие, см. отдельный вопрос о представлении RDF данных.

Где же "Веб" в Семантическом Вебе?

Стандарты Семантического Веба следуют принципам дизайна Веб чтобы обеспечить рост всепланетной коллекции семантически обогащенных данных. Ключевым элементом этого дизайна является - использование Веб-адресов (URI) для именования различных объектов. Так как значение термина в языке, в котором отсутствует централизованное управление, определяется его последовательным использованием для достижения одного и того же результата, а URI повсеместно используются для доступа к веб-страницам, значит Веб используется для установления глобального значения URI и в Семантическом Вебе. (Вот, что имеют ввиду люди, когда говорят, что RDF URI - "полагаются" на Веб.)

Как и в Веб в целом, этот подход позволяет Семантическому Вебу расти и эволюционировать без какого бы то ни было централизованного управления, но в то же время продолжая обеспечивать максимум консистентности и централизованного управления для конкретного приложения или для конкретного предприятия. Эти методики продолжают развиваться, но, в идеале, как только вы видите URI Семантического Веба, вы можете использовать его в своем браузере и увидеть авторитетную документацию о его использовании. Более того, как только некоторая программа обнаружит URI в контексте Семантического Веба, она может его разименовать его и найти онтологию, которая точно специфицирует как этот термин связан с другими терминами. Таким образом, программа может обучаться и эксплуатировать новые термины, которые являются синонимами тех, которые она уже знает, или связаны с ними более сложным (но логически определенным) образом.

Все это приводит к способности находить и корректно объединять данные из множества источников, иногда, даже когда они ссылаются на разные онтологии.

"В Семантическом Вебе не семантика является инновацией, а Веб" Крис Велти, IBM

Как я могу запросить RDF данные?

Рабочая Группа W3C по Доступу к Данным разработала Язык Запросов SPARQL. SPARQL определяет запросы в терминах шаблонов графа которые сравниваются с направленным графом представляющим данные RDF. SPARQL предоставляет возможности, для запроса необходимых и необязательных шаблонов, а также для их объединения и разделения. Результат сравнения также может быть использован для конструирования нового графа RDF с использованием отдельного шаблона.

SPARQL может быть использован как часть программной среды общего назначения, такой как Jena, но запросы могут, также, посылаться как сообщения на удаленную точку доступа SPARQL с помощью вспомогательных технологий SPARQL Protocol и Результаты Запросов SPARQL в XML. Используя такие точки доступа SPARQL, приложения могут запрашивать удаленные RDF данные и, даже, формировать новые RDF графы, без какой-либо локальной обработки. Для получения дополнительной информации о SPARQL смотрите отдельный FAQ on SPARQL. Также можно найти полезную информацию на русском языке здесь.

Почему бы не использовать SQL и/или XQuery для запроса RDF данных? Зачем разрабатывать еще один язык запросов?

SPARQL - язык запросов, разработанный для модели RDF данных. Сами запросы выглядят и ведут себя как RDF. то есть запросы не зависят от физического представления RDF данных (структуры базы данных, их представления в файле RDF/XML, и т.д.). Если запрос сделан через, например XQuery, приложение должно знать как эти, конкретные, данные представлены в RDF/XML (и это при том, что RDF/XML - только один из возможных форматов сериализации RDF данных).

Какую роль играют онтологии и/или правила в Семантической Паутине?

Онтологии определяют базовые понятия и взаимоотношения, которые используются для описания и представления конкретной области знаний. Онтологии используются для классификации терминов применяемых в данном приложении, описания возможных взаимоотношений, и определения возможных ограничений, налагаемых на использование таких взаимоотношений. На практике, онтологии могут быть очень сложными (с несколькими тысячами терминов) или очень простыми (описывающими только одно или два понятия).

Однако, не все отношения могут быть выражены в терминах онтологий. Цель текущей работы W3C в области правил заключается в том, чтобы обеспечить альтернативную инфраструктуру, для выражения логических ограничений на отношения.

Примером той роли, которую играют онтологии и правила в Семантической Паутине может служить интеграция справочной информации. Когда, например, неопределенность может существовать в терминах, которые используются в разных наборах данных, или когда, небольшое количество дополнительной информации может привести к открытию новых отношений.

Простой пример может помочь. Продавец книг может захотеть интегрировать данные приходящие от разных издательств, возможно из разных стран. Данные могут быть импортированы в универсальную RDF модель, например используя конвертеры для баз данных издательств. Однако, одна база данных может использовать термин "авторы", там где другая может использовать французский термин "auteur". Для того, чтобы обеспечить интеграцию дополнительный "клей" должен быть добавлен в RDF данные, констатирующий факт, что отношение описанное как "авторы" эквивалентно отношению описанному как "auteur". Эта дополнительная информация и есть, фактически, онтология не смотря на крайнюю простоту конкретно этой онтологии.

Что такое "механизм логического вывода" в контексте Семантической Паутины?

Говоря по простому, механизм логического вывода в контексте Семантической Паутины может быть определен как распознавание новых отношений. Как описано ранее в этом документе, данные представляются как набор (именованых) отношений между ресурсами. "Механизм логического вывода" означает, что автоматические процедуры могут генерировать новые отношения основываясь на данных и основываясь на некоторой дополнительной информации в форме онтологии или набора правил. Будут ли новые связи явно добавляться в набор данных, или они будут формироваться в момент запроса - это вопрос реализации.

Простой пример может помочь. Набор данных для рассмотрения может включать отношения (Флиппер есть Дельфин). Онтология может продекларировать, что "каждый Дельфин также является Млекопитающим". Это значит, что SW программа, которая понимает высказывание "X есть также Y", может добавить в набор отношений утверждение, что (Флиппер есть Млекопитающим), хотя это и не является частью исходных данных. В таком случае можно сказать, что новое отношение было "выведено".

Должен ли я использовать онтологии для Приложений Семантического Веба?

Это зависит от приложения. Ответ на вопрос о том какую роль играют онтологии и правила содержит очень простой пример использования онтологии. Некоторые приложения могут решить не использовать даже такие маленькие онтологии, и положиться на логику самой программы. Некоторые приложения могут выбрать использование очень простых онтологий, как та, что описана в примере и позволить среде Семантической Паутины использовать эту дополнительную информацию, для того, чтобы идентифицировать термины. Некоторые приложения должны прийти к соглашению по поводу общей терминологии, без каких-либо ограничений навязываемых логической подсистемой. Наконец, некоторые приложения могут нуждаться в более сложных онтологиях со сложными механизмами логического вывода. Все это зависит от требований и целей приложения.

Существующие технологии Семантического Веба предлагают большую палитру языков, для описания как простых так и сложных терминологий: RDF Schemas, SKOS, или различные диалекты OWL (OWL Lite, OWL DL, OWL Full). Эти различные технологии отличаются по своим выразительным возможностьям и по своей сложности: приложения имеют возможностьь выбирать. RDF Schemas - предоставляют самый простой уровень онтологий, OWL Full - самый сложный, SKOS - когда требуется использовать менее строгую терминологию, глоссарии, и т.д.). Приложения также могут не использовать ни одну из них; использование онтологий не является требованием для приложений Семантического Веба.

Отметим, что создание других "диалектов" языков онтологий является сегодня областью активных разработок (сошлемся на некоторые направления: pD*, OWL Tiny, OWL Lite-, ...), преследующая целью создание минимального уровня онтологии, который лишь немного более выразительный, чем RDF Schemas. Главная цель - минимизировать тяжесть использования онтологий в семантических приложениях. Также, текущая работа над правилами в W3C может привести, в конце концов, к альтернативе использования некоторых простых правил вместо (или в добавление) онтологий.

Не пытается ли Семантическая Паутина навязывать смысл сверху?

Нет. Что делают технологии Семантической Паутины, так это определяют "языки", с хорошо понятными правилами и внутренней семантикой, то есть RDF Schemas, различные диалекты OWL, или SKOS. Какой из этих формализмов использовать, и что "выражать" на этих языках целиком зависит от приложения. Онтологии могут быть разработаны небольшими сообществами, с "низу", и разделены с другими сообществами.

Правда ли, что Семантическая Паутина требует от каждого подписаться на единственную, предопределенную гигантскую онтологию?

Очевидно, что это просто не возможно. Если онтологии используются, они могут быть получены из самых разных источников, и могут свободно перемешиваться. Фактически, "идеал" Семантической Паутины - как можно больше разделять и повторно использовать, и много работы уже сделано чтобы полу-автоматически связать разные терминологии. Типичное приложение Семантической Паутины одновременно использует онтологии разработанные разными сообществами в Сети, такие как метаданные Dublin Core, FOAF (друг-друга), и т.д.

Отношение Семантической Паутины к онтологиям - не более чем рационализация уже существующей практики разделения данных. Приложения могут и действительно взаимодействуют без достижения или, хотя бы, попыток достичь, глобальной консистентности или полного охвата. Система, которая представляет товары розничного торговца покупателям будет собирать информацию из баз данных поставщиков (которые, скорее всего, используют разнородные форматы) и преобразовывать ее в формат наиболее удобный розничному торговцу для повторного представления. Системы заполнения налоговых деклараций возьмет банковские данные, в формате который предпочитает банк, и превратит их в бланк налоговой декларации. Тут нет никакого требования для существования глобальной онтологии. Здесь нет, даже, требования о соглашении для представления данных или глобального перевода между специфическими используемыми онтологиями, за исключением того подмножества терминов, которое уместно для определенного перевода. Соглашение может быть локальным, но принятие терминологии из существующих онтологий способствует распространению данных и облегчению интеграции.

Что включается в разработку онтологии с использованием технологий Семантического Веба?

Действительная трудность, при разработке онтологии - это понимание проблемы, которая должна быть смоделирована и нахождение согласия на уровне сообщества. RDF Schemas и/или OWL предоставляют инфраструктуру для формального описания таких онтологий на специальном языке. Время и силы необходимые для их изучения, это только крупица времени, необходимого, для разработки самой онтологии, т.е. понимания терминов и отношений в данной области знаний и установления взаимопонимания с коллегами. Инструменты для разработки онтологий, такие как Protege или SWOOP, скрывают большую часть сложностей синтаксиса, и позволяют пользователю сконцентрироваться на действительных проблемах представления знаний.

Будет ли W3C стандартизировать какие-либо определенные онтологии?

Вообще то говоря, онтологии должны создаваться и поддерживаться различными, специализированными сообществами. Предпочтения W3C заключаются в том, чтобы позволить этим другим сообществам разработать их собственные онтологии; это справедливо в отношении таких хорошо известных онтологий как Dublin Core, FOAF, DOAP, и др.

Однако, есть случаи, когда онтологии разрабатывались внутри W3C. Это происходит, например тогда, когда другая технология W3C нуждается в своей, специализированной онтологии (CC/PP или EARL можно привести в качестве примеров), когда W3C понимает, что существование определенной онтологии - критично для продвижения Семантической Паутины, или когда сообщество предпочитает использовать, например возможности предлагаемые Incubator Activity of W3C.

Существует ли использование публичных массивов данных для Семантического Веба? Опубликованы ли уже основные данные для Семантического Веба?

Основные массивы данных (или обеспечение доступа к существующим данным) создаются в наши дни довольно часто. Приведем несколько примеров:

Отметим также, что один из "Community Projects" спонсируемый W3C Semantic Web Education and Outreach Interest Group, а именно проект "Linking Open Data on the Semantic Web", имеет целью сделать различные открытые источники данных доступными в Сети в формате RDF и предоставить RDF ссылки между объектами из разных источников.


Оригинал статьи расположен по адресу: http://www.w3.org/2001/sw/SW-FAQ

Обновлено 24.03.2008 13:44
 
 
 
© 2012 Semantictools.ru. Все права защищены.
Joomla! — свободное программное обеспечение, распространяемое по лицензии GNU/GPL.
Design by augs-burg.de & go-vista.de
 
 
     
 
   
Design by windows vista forum and energiesparlampen