Что означает наличие реалистичных данных

Синтетические наборы данных

Определение:
Синтетические данные — это программно сгенерированные данные, используемые в бизнес-приложениях (в том числе в машинном обучении).

Нередко возникают ситуации, когда получение реальных бизнес-процессов сложно или дорого, но при этом известны требования к таким бизнес-процессам, правила создания и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах или медицинской информации. В таких случаях необходимые наборы данных можно программно сгенерировать.

Содержание

Виды генерации [ править ]

Существует два основных подхода к генерации синтетических наборов данных.

В случае, когда реальные данные отсутствуют или их сбор невозможен (из-за большой длительности или дороговизны процесса), наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр возможных случаев, и полученная с помощью такого набора модель может давать непредсказуемые результаты в крайних случаях.

Также применяется аугментация (англ. augmentation) — генерация наборов на основе имеющихся бизнес-процессов. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные. Для числовых данных могут использоваться такие искажения, как добавление объектов с усреднёнными значениями, смешивание с объектами из другого распределения, добавление случайных выбросов.

Преимущества использования синтетических данных:

В то же время, у синтетических данных есть и недостатки:

Применение [ править ]

Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. Довольно распространённым подходом является обучение сначала на большом наборе синтетических данных, а затем дообучение на небольшом наборе имеющихся реальных данных. Иногда при обучении реальные данные не используются вовсе. При этом в тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.

Синтетические данные активно используются при обучении алгоритмов управления автономным транспортом. Эти алгоритмы решают две задачи: сначала выявляют окружающие объекты — машины, дорожные знаки, пешеходов, а затем принимают решение о направлении и скорости дальнейшего движения. При реализации таких алгоритмов наиболее важно поведение транспортного средства в критических ситуациях, таких как помехи на дороге или некорректные показания сенсоров — от этого могут зависеть жизни людей. В реальных данных же, наоборот, в основном присутствуют штатные ситуации.

Одно из самых наглядных применений аугментации данных — алгоритмы восстановления изображений. Для работы таких алгоритмов исходный набор изображений расширяется их копиями, к которым применяются некие преобразования из фиксированного набора. На основе полученных изображений генерируется набор, в котором входными данными считаются полученные изображения, а целевыми — исходные. В самом деле, получить реальные данные для такой задачи — фотографию и её же искажённую копию — довольно затруднительно, а применение таких преобразований довольно легко автоматизируется. Таким образом, если исходные изображения достаточно хорошо описывали источник данных, то полученный набор данных можно применять для обучения алгоритма восстановления изображений, устраняющего применённые преобразования.

Также с помощью синтетических наборов данных можно упростить обучение алгоритмов компьютерного зрения, решающих задачи семантической сегментации, поиска и локализации объектов. В данном случае подходят наборы, в которых искомые объекты определённым образом наносятся на фоновое изображение. В частности, таким объектом может быть текст — тогда с помощью полученного набора может быть решена задача распознавания текста на изображении.

Синтетические данные используются и для создания алгоритмов реидентификации [на 25.01.21 не создан] — определения, действительно ли на двух изображениях один и тот же человек. Эти алгоритмы могут использоваться для нахождения людей на записях с камер, на пограничных пунктах и так далее. В этом случае реальные данные собрать довольно сложно, потому что требуется найти много фотографий одних и тех же людей в разных позах, с разных ракурсов и в разной одежде.

При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего алгоритма, подходящего для всех случаев не существует. Как правило, общие алгоритмы наподобие добавления средних значений оказываются нерепрезентативными.

Примеры [ править ]

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

TextSharpener [ править ]

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

OmniSCV [ править ]

Нередко различные устройства оснащаются широкоугольными и панорамными камерами с углом обзора до 360°. Изображения, получаемые с таких камер, обладают довольно сильными искажениями (см. рисунок 2). Генератор изображений комнат OmniSCV [6] используется при разработке роботов для обучения алгоритмов компьютерного зрения для устранения искажений широкоугольных объективов и неидеальных условий освещённости.

Генератор умеет симулировать различные варианты бизнес-процессов — равноугольные и цилиндрические панорамы, «рыбьи глаза» и катадиоптрические системы, а также сопровождать сгенерированные изображения комнат вспомогательной информацией об окружающем пространстве и параметрах используемой камеры (см. рисунок 3).

Источник

Достоверность информации: определение, проверка и контроль. Источники информации

Что это означает?

Достоверность характеризует неискажённость информации. На неё влияют не только подлинность сведений, но также и адекватность способов, которыми она была получена.

Недостоверность же может подразумевать умышленную подготовку данных как ложных. Бывают случаи, когда недостоверные сведения в результате предоставляют информацию, характеризующуюся достоверностью. Такое случается тогда, когда во время их получения степень недостоверности информации уже известна адресату. Вообще же, наблюдается следующая закономерность: чем более высоким является количество исходных данных, тем выше становится обеспечение достоверности информации.

Адекватность информации

Таким образом, достоверность напрямую связана с адекватностью информации, её полнотой и объективностью. Данное свойство имеет очень серьёзное значение, преимущественно в случае применения данных для принятия каких-либо решений. Информация же, которая отличается недостоверностью, приводит к таким решениям, которые будут иметь отрицательные последствия в плане социального обустройства, политической ситуации либо экономического положения.

Итак, рассмотрим подробнее понятие достоверности информации.

Определение понятий достоверной и недостоверной информации

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

Итак, информация является недостоверной, если она не соответствует реальному положению вещей, содержит такие данные о явлениях, процессах или событиях, которых в принципе никогда не было или же они существовали, но сведения о них отличаются от происходящего в действительности, искажены либо характеризуются неполнотой.

Достоверной можно назвать такую информацию, которая не вызывает абсолютно никаких сомнений, является реальной, подлинной. К ней относятся такие сведения, которые в случае чего можно подтвердить процедурами, корректными с юридической точки зрения, когда используются различные документы либо заключения экспертов, могут быть приглашены свидетели и т. п. Кроме того, данные можно считать достоверными, если они обязательно ссылаются на первоисточник. Однако в этом случае возникает проблема определения достоверности самого источника информации.

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

Виды источников информации

Источниками информации могут быть:

— физические лица, которые благодаря своим полномочиям либо положению имеют доступ к таким сведениям, которые интересуют разного рода средства массовой информации;

— реальная среда (например, урбанистическая, предметно-вещественная, являющаяся сферой обитания человека, природная);

— печатные издания, которые имеют выходные данные, то есть учебники, книги, энциклопедии или статьи в журнале;

— сайты в интернете, порталы, страницы, на которых также могут базироваться СМИ.

Бесспорно, одним из самых авторитетных и безопасных источников являются документы, однако они считаются таковыми только тогда, когда есть возможность их юридической проверки. Для них характерна вся полнота информации.Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

Компетентные и некомпетентные

Помимо подразделения на достоверные и недостоверные, источники также могут быть компетентными и некомпетентными.

Наиболее широко представлены такие источники информации, как уполномоченные официальных структур власти. В первую очередь государственные учреждения должны снабжать граждан самой объективной и точной информацией. Однако даже сведения пресс-службы правительства могут быть подделаны, и нет гарантии, что из государственного источника не может просочиться информация, не являющаяся достоверной. Именно поэтому получить информацию – не означает доверять ей безоговорочно.

Ссылка на источник

Таким образом, достоверность информации может определяться присутствующей в ней отсылкой к источнику. Если последний имеет полномочия в какой-либо сфере или специализируется в определённой области, то он является компетентным.

Но наличие ссылки не всегда должно быть обязательным, так как бывает, что разного рода положения получают подтверждение непосредственно в процессе изложения информации. Происходит это тогда, когда автором сведений является специалист, то есть человек достаточно компетентный в той области, которой касается. В данном случае чаще всего можно не сомневаться, что информация будет достоверной.

В подавляющем большинстве неназванные источники способствуют снижению достоверности материала, особенно тогда, когда в статье присутствуют негативные новости, о которых читателю ранее не было известно. Людей главным образом интересует первоисточник такой информации.

Лучшими считаются такие сведения, которые ссылаются на источники, имеющие определённый авторитет, например имеющие официальный статус, различные статистические агентства, научно-исследовательские институты и т. д.

Тогда легче осуществлять проверку достоверности информации.

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

Способы проверки

Поскольку достоверными являются только те сведения, которые соотносятся с действительностью, очень важным является навык проверки полученных данных и определения степени их достоверности. Если овладеть таким умением, то можно избежать разного рода дезинформационных ловушек. Для этого нужно в первую очередь выявить, какой смысловой нагрузкой обладают полученные сведения: факторной либо оценочной.

Контроль достоверности информации крайне важен. Факты являются тем, с чем сталкивается человек в первую очередь, когда получает какую-либо новую для него информацию. Они именуют уже проверенные на достоверность сведения. Если же информация не была проверена либо же это невозможно сделать, то фактов в себе она не содержит. К ним относятся числа, события, имена, даты. Также фактом является то, что можно измерить, подтвердить, потрогать или перечислить. Чаще всего возможность их представления имеется у социологических и научно-исследовательских институтов, агентств, специализирующихся на статистике, и т. д. Главным признаком, различающим факт и оценку достоверности информации, является объективность первого. Оценка же всегда является отражением чьего-либо субъективного взгляда или эмоционального отношения, а также призывает к определённым действиям.

Разграничение источников сведений и их сравнение

Кроме того, важно при получении информации разграничивать её источники. Поскольку подавляющее количество фактов самостоятельно вряд ли удастся проверить, то достоверность полученных данных рассматривается с позиции доверия к предоставившим их источникам. Как же осуществить проверку информационного источника? Главным фактором, определяющим истинность, считается практика, или то, что выступает помощником в выполнении конкретной задачи. Доминирующим критерием любой информации выступает также её эффективность, которую показывает количество применивших эти сведения субъектов. Чем оно выше, тем больше доверия будут испытывать к полученным данным, и достоверность их выше. В этом состоит основной принцип достоверности информации.Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

Сравнение источников

Помимо этого, довольно полезно будет сравнить между собой источники, поскольку такие качества, как авторитетность и популярность, ещё не дают полных гарантий достоверности. Именно поэтому следующим важным признаком информации является её непротиворечивость. Каждый факт, полученный от источника, должен доказываться результатами проведённых независимых исследований, то есть он должен повторяться. Если повторный анализ приходит к идентичным выводам, значит, установлено, что информация действительно является непротиворечивой. Это говорит о том, что сведения единичного характера, случайные, большого доверия к себе не заслуживают.

Степень достоверности

Наблюдается следующая пропорция: чем большим является количество подобных сведений, выведенных из различных источников, тем выше их степень достоверности информации. Каждый источник ответственен за предоставленные факты не только с точки зрения морали и нравственности, но и с точки зрения вещественной. Если же какая-либо организация предоставляет данные сомнительного происхождения, то она может с лёгкостью лишиться своей репутации, а порой даже и средств, обеспечивающих её существование. Кроме того, можно не только потерять получателей информации, но даже подвергнуться наказанию в виде штрафа либо тюремного заключения. Именно поэтому источники солидные, имеющие определённые авторитет, не станут ни в коем случае рисковать собственной репутацией, публикуя недостоверные сведения.

Как поступить, если источником информации становится конкретное физическое лицо?

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

Бывают такие ситуации, когда источником информации становится не организация, а определённое лицо. В этих случаях необходимо узнать как можно больше сведений об этом авторе, чтобы определить, в какой степени нужно доверять информации, поступившей от него. Убедиться в достоверности данных можно путём ознакомления с иными работами автора, с его источниками (если таковые имеются), либо же выяснить, обладает ли он речевой свободой, то есть может ли предоставлять такую информацию.

Этот критерий определяется наличием у него учёной степени либо же должного опыта в определённой сфере, а также должности, которую он занимает. В противном же случае информация вполне может оказаться бесполезной и даже принести вред. Если нельзя проверить каким-либо образом достоверность сведений, они сразу же могут считаться бессмысленными. При поиске же информации в первую очередь нужно чётко сформулировать ту проблему, которая требует разрешения, что понизит возможность дезинформирования.

Если же сведения являются анонимными, то за достоверность информации ни в коем случае нельзя ручаться. Любые сведения должны иметь своего автора и подкрепляться имеющейся у него репутацией. Самыми ценными в принципе являются те данные, источником которых является человек опытный, а не случайный.

Источник

Топ 15 лучших инструментов визуализации данных в 2020- 2021 годах (с примерами)

Меня зовут Максим Кульгин и моя компания занимается парсингом сайтов в России порядка четырех лет. Ежедневно мы парсим более 500 крупнейших интернет-магазинов в России и на выходе мы, как правило, отдаем данные в формате Excel/CSV и этих данных много. Наши клиенты анализируют полученные «сырые» данные в аналитических инструментах (например, работают с Olap- кубами с данными Wildberries), часть из которых мы и рассмотрим ниже. В конце статьи мы привели ссылки на рассматриваемые инструменты.

Большие данные – это весьма актуальная потребность. Их обработка помогает описывать изменения прибыльности вашего бизнеса, отслеживать действия клиентов и лучше понимать свои маркетинговые усилия. Однако данные в необработанном виде не так просто понимать.

Вот почему нам нужна их визуализация. Инструменты визуализации данных помогают всем от маркетологов до специалистов по обработке данных сортировать на классы необработанные данные и демонстрировать результаты и обработки с помощью диаграмм, графиков, видео и т.д.

Естественно, человеческий глаз привлекают цвета и узоры. Фактически, 90% информации, поступающей в мозг, является визуальной.

А для предприятий использование аналитики и визуализации данных обеспечивает прибыль в размере 13,01 доллара на каждый потраченный доллар [2 — см. ссылки чуть ниже для более подробной информации и источниках данных]. Кроме того, 79% руководителей предприятий считают, что компании потерпят неудачу, если не будут учитывать большие данные [3].

Если у вас есть собственный интернет-магазин или вам нужно представить заинтересованным владельцам компании важные данные, инструменты обработки из этого списка вам очень помогут.

В этом посте я собрал и рассмотрел лучшие инструменты визуализации данных для подключения к вашей серверной базе данных. Эти обзоры инструментов основаны на таких критериях, как простота использования, стилевое форматирование через панели управления информацией с возможностью перетаскивания данных, возможности интеграции с другими программами, цены и ряде других показателей.

Источник

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

История вопроса и определение термина

Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года (ссылка):

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

В этом цикле статей я буду придерживаться определения с wikipedia:

Большие данные (англ. big data) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

2. Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин (по этой ссылке можно посмотреть размеры кластера в разных организациях). Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

MapReduce

Про MapReduce на хабре уже писали (раз, два, три), но раз уж цикл статей претендует на системное изложение вопросов Big Data – без MapReduce в первой статье не обойтись J

MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):

Что означает наличие реалистичных данных. Смотреть фото Что означает наличие реалистичных данных. Смотреть картинку Что означает наличие реалистичных данных. Картинка про Что означает наличие реалистичных данных. Фото Что означает наличие реалистичных данных

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce().

Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Примеры задач, эффективно решаемых при помощи MapReduce

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1]), reduce суммирует эти единички, возвращая финальный ответ для слова.

Обработка логов рекламной системы

Второй пример взят из реальной практики Data-Centric Alliance.

Задача: имеется csv-лог рекламной системы вида:

Необходимо рассчитать среднюю стоимость показа рекламы по городам России.

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Резюме

В статье мы рассмотрели несколько вводных моментов про большие данные:

· Что такое Big Data и откуда берётся;

· Каким основным принципам следуют все средства и парадигмы работы с большими данными;

· Рассмотрели парадигму MapReduce и разобрали несколько задач, в которой она может быть применена.

Первая статья была больше теоретической, во второй статье мы перейдем к практике, рассмотрим Hadoop – одну из самых известных технологий для работы с большими данными и покажем, как запускать MapReduce-задачи на Hadoop.

В последующих статьях цикла мы рассмотрим более сложные задачи, решаемые при помощи MapReduce, расскажем об ограничениях MapReduce и о том, какими инструментами и техниками можно обходить эти ограничения.

Спасибо за внимание, готовы ответить на ваши вопросы.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *