Pull to refresh
0
0

User

Send message

Варианты использования Java ML библиотек совместно со Spring, Docker, Spark, Rapids, CUDA

Reading time35 min
Views6.7K

В данной статье рассматривается способ использования GPU nVidia с технологией CUDA в Docker-контейнерах для распределенной тренировки моделей машинного обучения на нескольких машинах. Цель статьи - показать вариант использования Big Data Tool Apache Spark в Docker-контейнерах, совместно с акселератором GPU вычислений Rapids на устройствах nVidia CUDA, с применением библиотек DJL, Spark ML, XGBoost, в приложении Spring Boot на Java 8 (требование Rapids), на нескольких машинах под управлением ОС Windows 10 Pro для решения задачи тренировки моделей машинного обучения в распределенной системе.

Читать далее
Total votes 17: ↑17 and ↓0+17
Comments13

DMP часть 1. Микросегментирование аудитории с помощью ключевых слов

Reading time7 min
Views16K
Авторы статьи: Данила Перепечин DanilaPerepechin, Дмитрий Чеклов dcheklov.

Здравствуйте.
Data management platform (DMP) — это наша любимая тема во всей истории про онлайн рекламу. RTB is all about the data.
В продолжение цикла рассказов о технологическом стеке Targetix (SSP, DSP), сегодня я опишу один из инструментов, входящих
в DMP — Keyword Builder.


Читать дальше →
Total votes 12: ↑10 and ↓2+8
Comments20

Анализируем большие объемы данных с Apache Spark

Reading time1 min
Views17K
image
С анализом больших объемов данных постепенно начинают сталкиваться не только крупнейшие IT-компании, но и обычные разработчики. В нашей компании в ряде проектов такая задача возникает, и мы решили систематизировать накопленный опыт, поделившись с коллегами по i-Free и нашими партнерами наиболее эффективными инструментами и технологиями. Сегодня речь пойдет о применении Apache Spark
Подробности
Total votes 16: ↑13 and ↓3+10
Comments9

Режим дня Президента

Reading time1 min
Views656
В свое время ради любопытства я подписался на рассылку новостей с сайта Президента.
И теперь раз в неделю получаю аккуратное письмо примерно следующего содержания (избранные записи):

Уважаемый подписчик официального сайта Президента России!
Предлагаем Вашему вниманию информационный бюллетень за неделю 6-13 октября 2008 года.

07.10 ВСТРЕЧА-МИНИСТР-ОБРАЗОВАНИЕ >>>
12.10 ПЛЕСЕЦК-ЗАПУСК-РАКЕТА >>>
11.10 БЕСЕДА-КРЕЙСЕР-КОМАНДА >>>
08.10 ВСТРЕЧА-ШВЕЙЦАРИЯ-КУШПЕН >>>
08.10 ВСТРЕЧА-ФРАНЦИЯ-САРКОЗИ >>>
06.10 ВСТРЕЧА-ЛДПР-ЖИРИНОВСКИЙ >>>
06.10 ВСТРЕЧА-АЛЬФА-ГРУПП-ФРИДМАН >>>

С уважением,
интернет-департамент Управления пресс-службы и информации Президента России

Естественно, по каждому анонсу есть ссылка, но интересно, в связи с чем выбран такой оригинальный стиль? Похоже на какие-то шпионские сводки. Здорово, если Президент получает свой ежедневный график мероприятий в таком же виде.

Upd. Умные люди в комментариях считают, что такой заголовок — это одновременно набор тегов. По таким тегам удобно строить разного рода визуализации.
Total votes 66: ↑48 and ↓18+30
Comments47

Zetes: Java с мультиплатформенным GUI, но без Oracle JVM

Reading time26 min
Views32K
image

Аннотация


В статье описывается фреймворк, позволяющий создавать графические кроссплатформенные приложения, написанные на языке Java, но при этом абсолютно не зависящие ни от Oracle JRE, ни от OpenJDK. Основная идеология фреймворка — по возможности снять с разработчика заботы об обеспечении «родного» look and feel для приложения под каждой операционной системой.

Фактически, на выходе вы получите исполняемый файл, опирающийся только на системные API, на котором нигде не будет клейма «написано на Java».

Все компоненты фреймворка имеют либеральные лицензии (BSD либо Apache), что позволяет использовать их в любых (в том числе, коммерческих) разработках.

Фреймворк находится в стадии публичной alpha-версии, что означает некоторую его работоспособность, но непроверенность. Использование поощряется (я постараюсь прислушаться к жалобам на проблемы и помогу их решить), но работоспособность не гарантируется.

Готовая, собранная версия приложений, демонстрирующих работу фреймворка под всеми платформами, находится здесь.

Всех интересующихся подробностями милости прошу под кат.
Что же это за штука диковинная?
Total votes 86: ↑85 and ↓1+84
Comments64

Знай сложности алгоритмов

Reading time2 min
Views995K
Эта статья рассказывает о времени выполнения и о расходе памяти большинства алгоритмов используемых в информатике. В прошлом, когда я готовился к прохождению собеседования я потратил много времени исследуя интернет для поиска информации о лучшем, среднем и худшем случае работы алгоритмов поиска и сортировки, чтобы заданный вопрос на собеседовании не поставил меня в тупик. За последние несколько лет я проходил интервью в нескольких стартапах из Силиконовой долины, а также в некоторых крупных компаниях таких как Yahoo, eBay, LinkedIn и Google и каждый раз, когда я готовился к интервью, я подумал: «Почему никто не создал хорошую шпаргалку по асимптотической сложности алгоритмов? ». Чтобы сохранить ваше время я создал такую шпаргалку. Наслаждайтесь!
Читать дальше →
Total votes 312: ↑296 and ↓16+280
Comments99

Встраиваем groovy shell в приложение

Reading time2 min
Views7.7K
У нас на работе иногда возникает необходимость получить доступ к работающему java приложению, чтобы посмотреть какие-нибудь данные или подёргать методы. Раньше мы обходились тем, что писали jsp, закидывали в каталог, в котором развёрнуто наше приложение, и затем запрашивали эту jsp. Это было не очень удобно.

И однажды мне пришла в голову мысль облегчить себе жизнь, встроив groovy shell в приложение, сделав доступ к нему через telnet.

Читать дальше →
Total votes 15: ↑15 and ↓0+15
Comments7

Психология роботов и умные компьютеры: как это работает и где этому научиться. Лекция Максима Мусина в Яндексе

Reading time4 min
Views36K
Машины уже умеют находить лица на фотографиях, искать террористов в видеопотоке, переводить тексты и понимать звуковые команды. Нейронные сети, копирующие структуру мозга, являются элементарным кусочком любого сложного алгоритма. Из лекции вы узнаете, как всё это связано с уравнениями, неравенствами и производными, какие интересные открытия случились за последнее время, а также на чём стоит начать программировать сейчас, чтобы однажды стать экспертом в психологии роботов.





Если вспомнить фильм «Терминатор» и технологии, которыми по сюжету пользовались киборги, то можно будет выделить и нейронные сети, и возможность беспроводной связи с внешним источником интеллекта (Skynet), и компьютерное зрение, и распознавание звука, понимание различных языков. На момент выхода фильма на экраны все это было абсолютной фантастикой, технологиями далекого будущего. Но сегодня большая часть этих технологий реализована в том или ином виде. Попробуем разобраться, что же из всего перечисленного уже используется.
Конспект лекции
Total votes 79: ↑68 and ↓11+57
Comments44

Hadoop и автоматизация: Часть 2

Reading time6 min
Views10K
Привет, Хабрапосетители!


Продолжаю свою «развеселую» серию статей, посвященных знакомству с Hadoop и автоматизации развертывания кластера.

В первой части я вкратце описал, что нужно было достичь, какую архитектуру кластера построить и что представляет собой Hadoop-кластер с точки зрения архитектуры. Также, я рассмотрел, наверное, самую простую часть кластера — Clients, которая отвечает за постановку задач, предоставление данных для вычислений и получение результатов.
Читать дальше →
Total votes 11: ↑11 and ↓0+11
Comments6

Как убрать все управляющие символы из строки — история одной бурной оптимизации

Reading time8 min
Views55K
Получилось так, что мне довелось оптимизировать код кластерной задачи, которая входила в состав Большого Кластерного Алгоритма и занималась весьма простой вещью: входной поток из n полей нужно было в зависимости от содержимого полей переразложить в выходной поток из m полей и почти успокоиться. Почти — потому что внутри полей были строчки произвольного вида, которые нужно было «очистить» — провести простейшую, казалось бы, операцию удаления всех управляющих символов из строки.

Оказалось, что эта операция совсем не такая «простейшая», как кажется, особенно если рассматривать её в современных языках с виртуальной машиной. Чуть ниже я покажу, как можно заменить решение в одну строчку на решение в пару десятков строчек, увеличив производительность алгоритма в ~10 раз. Сразу оговорюсь, что примеры будут относится к Java, но аналогичные рассуждения будут справедливы и для большинства других языков и виртуальных машин — в первую очередь, для .NET-based.
Читать дальше →
Total votes 105: ↑103 and ↓2+101
Comments81

TOP'ай сюда

Reading time5 min
Views178K
Обзор практически всех *top утилит под linux (atop, iotop, htop, foobartop и т.д.).

top

Все мы знаем top — самую простую и самую распространённую утилиту из этого списка. Показывает примерно то же, что утилита vmstat, плюс рейтинг процессов по потреблению памяти или процессора. Совсем ничего не знает про загрузку сети или дисков. Позволяет минимальный набор операций с процессом: renice, kill (в смысле отправки сигнала, убийство — частный случай). По имени top суффикс "-top" получили и все остальные подобные утилиты в этом обзоре.

atop


Atop имеет два режима работы — сбор статистики и наблюдение за системой в реальном времени. В режиме сбора статистики atop запускается как демон и раз в N времени (обычно 10 мин) скидывает состояние в двоичный журнал. Потом по этому журналу atop'ом же (ключ -r и имя лог-файла) можно бегать вперёд-назад кнопками T и t, наблюдая показания atop'а с усреднением за 10 минут в любой интересный момент времени.

В отличие от top отлично знает про существование блочных устройств и сетевых интерфейса, способен показывать их загрузку в процентах (на 10G, правда, процентов не получается, но хотя бы показывается количество мегабит).

Незаменимое средство для поиска источников лагов на сервере, так как сохраняет не только статистику загрузки системы, но и показатели каждого процесса — то есть «долистав» до нужного момента времени можно увидеть, кто этот счастливый момент с LA > 30 создал. И что именно было причиной — IO программ, своп (нехватка памяти), процесор или что-то ещё. Помимо большего количества информации ещё способен двумя цветами подсказывать, какие параметры выходят за разумные пределы.
Читать дальше →
Total votes 401: ↑389 and ↓12+377
Comments122

Как прокачивать мозг

Reading time8 min
Views174K
В этой теме я хочу поделиться своими знаниями про устройство мозга и тем, как применяю это на практике.

Не правда ли, картинка объемна?

Итак, как известно, мозг — важнейший орган нашего тела. Кто-то говорит, что он — самая сложная вещь во вселенной. И незнание некоторых его особенностей может очень плачевно сказать на жизни человека.

Но обо всем по порядку.

Понимание роли мозга


Нет невежества страшнее, чем невежество по отношению к самому себе.

Мозг управляет почти всем в нашем организме — от дыхания, работы органов чувств до сложных мыслительных процессов и воображения. Существует множество методик и советов по развитию, однако, как я убедился, мало какие делают упор на роль мозга в процессе.
Читать дальше →
Total votes 340: ↑281 and ↓59+222
Comments229

Выполняем sudo при записи

Reading time1 min
Views7K
В дополнение к предыдущей заметке "Делаем файлы сценариев исполняемыми"...

В практике системного администратора иногда случается так, что начинаешь править какой-либо сценарий, автоматизирующий процесс резервного копирования, например, а в конце концов выясняется, что не хватает прав на запись в данный файл, который, возможно, принадлежит пользователю root. Чтобы не сильно изворачиваться в подобной ситуации, сохранение изменений производим командой
:w !sudo tee %

Вопросы безопасности в данном случае находятся в рамках sudo.
Total votes 45: ↑42 and ↓3+39
Comments46

Правила составления Software requirements specification

Reading time5 min
Views179K
Все мы прекрасно знаем о том, как разрабатывается ПО. Подумали 10 минут и сразу пошли кодить. Цикл создания программного обеспечения состоит из многих ключевых моментов. Это такие моменты как планирование, создания архитектуры, создание SRS, создание дизайна и тд и тп.

В данной статье я бы хотел остановиться на том, как правильно нужно писать SRS.
Total votes 58: ↑56 and ↓2+54
Comments30

TeamCity 4.0 released

Reading time2 min
Views11K
Что такое TeamCity? TeamCity — это, говоря научно-занудным языком, интегрированная среда, которая повышает эффективность групповой разработки, беря на себя такие рутинные действия как сборка билдов, запуск и анализ тестов, а так же анализ исходного кода (инспекции, поиск дубликатов и т.д.) Посмотрев на картинку многое станет понятным:
image
Читать дальше →
Total votes 42: ↑38 and ↓4+34
Comments37

Социальная сеть для изучающих иностранные языки

Reading time1 min
Views1.5K
Идея стартапа.

Я работаю переводчиком и вот уже более 10 лет изучаю английский язык. До сих пор не могу сказать, что знаю его в совершенстве, так как очень часто открываю для себя в языке что-то новое, либо приходит какое-то новое, более глубокое понимание каких-то его закономерностей или правил. Довольно часто (особенно во время работы) ловлю себя на мысли, что было бы неплохо, если бы в любой момент я имел бы возможность связаться с носителем языка и что-то с ним обсудить, попросить объяснить какие-то языковые и грамматические явления, устоявшиеся выражения и т.п. В свою очередь, я бы с радостью оказал такую же услугу иностранцу, изучающему русский язык. Несколько раз, когда возникал вопрос о правильности звучания и удобстве восприятия тех или иных конструкций, я даже порывался разыскать в аське какого-нибудь англичанина, и поговорить с ним на эту тему, но не у каждого найдется время и желание этим заниматься. Тут-то мне и подумалось, что вот если бы существовала такая сеть, объединяющая людей, которые любят и изучают какой-нибудь иностранный язык, то лично мне она бы была очень полезна. А если она была бы полезна мне, то, возможно, она бы была полезна и кому-то еще.
Читать дальше →
Total votes 49: ↑42 and ↓7+35
Comments44

Information

Rating
Does not participate
Location
Санкт-Петербург и область, Россия
Date of birth
Registered
Activity