Архитектура ИТ-решений
13.5K subscribers
272 photos
27 files
1.07K links
Разговоры об архитектуре корпоративных информационных систем (архитектура предприятия, архитектура ИТ-решений, микросервисы).

Этот канал не продается, а я не сдаю квартиры/машины/яхты. Будьте, пожалуйста, осторожны!
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
В том что касается Semantic Web и Linked Data всегда было немного коммерчески успешных проектов. Эти технологии продвигались W3C и Тимом Бернерсом-Ли, шкала в 4 и 5 звёзд открытости данных были привязаны как раз к их связности, но всегда побеждала прагматика и мало из владельцев данных сейчас публикует их в виде "связанных данных".

Одним из наиболее успешных стартапов в этой области была компания Metaweb со специализацией на интеграцие множества разных источников с возможностью интегрировать их в единую онтологическую модель на базе Википедии. В 2010 году их купил Google [1] за неназванные условия и вскоре в поиске Google появились подсказки с данными из Википедии, IMDB и других источников.

Этим июлем, стартап data.world [2] претендующий на то чтобы стать Github'ом для данных объявил о покупке стартапа Capsenta [3] специализировавшегося на онтологиях и семантическом вебе. Их продукты Ultrawrap NoETL и Gra.fo [4] были ориентированы на интеграцию и визуализацию связанных данных. Сумма сделки не разглашается. Но в любом случае, похоже, стоит ждать появления инструментов визуализации и интеграции пользовательских данных в Data.world, а сам Data.world может пойти по пути Metabase.

Из всех проектов которые претендовали на роль Github для данных - пока data.world наиболее перспективен, но и его судьба именно в этой роли далеко не предопределена. А вот чем больше там будет связанных данных и интеграции большего числа источников тем выше вероятность его покупки крупным игроком на рынке, тем же Alphabet/Google, или Amazon и последующая интеграция в их экосистему.

Ссылки:
[1] https://www.cnet.com/news/google-buys-metaweb-and-its-sprawling-database/
[2] http://data.world
[3] https://data.world/blog/weve-acquired-capsenta-to-bring-the-power-of-knowledge-graphs-to-companies-with-on-prem-data/
[4] https://gra.fo/

#data #opendata #semanticweb
Forwarded from Ivan Begtin (Ivan Begtin)
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.



Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report
Forwarded from Ivan Begtin (Ivan Begtin)
The Future history of data engineering [1] активно цитируемый сейчас текст от Matt Arderne в котором он описывает развитие текущих платформ по инженерии данных и их будущее. Рассуждения интересные, практические и автор пишет про новое понятие и роль Data Platform Engineer (DPE). Это инженер данных который знает как устроены платформы для работы с данными и знает как правильно их применять для конкретых, как правило сложных, случаях.

Ссылки:
[1] https://groupby1.substack.com/p/data-engineering

#data #readings #dataenginering
Forwarded from Ivan Begtin (Ivan Begtin)
У Jordan Tigani, основателя компании Mother Duck стоящей за СУБД DuckDB замечательный текст Big Data is Dead [1] который, трам-пам-пам, как вы догадались, о том что Big Data это уже давно мёртвый хайп. Не он первый и не он последний об этом говорит, но никогда не лишний раз напомнить.

Краткое изложение его текста։
- большая часть данных, на самом деле, не так уже велика
- а даже если велика то чаще всего нет необходимости делать запросы ко всем данным
- и даже если так, то чаще всего это можно сделать на одном компьютере
- если нет, то по прежнему данные можно суммаризировать и сжимать
- так почему же инструменты делают в основном для оставшихся 1% случаев?

Ссылки։
[1] https://motherduck.com/blog/big-data-is-dead/

#data #readings