[Перевод] Глубинное обучение по особенностям заголовка и содержимого статьи для преодоления кликбейта


Облако слов для кликбейта

TL;DR: Я добился точности распознавания кликбейта 99,2% на тестовых данных по особенностям заголовка и контента. Код доступен в репозитории GitHub.

Когда-то в прошлом я написал статью о выявлении кликбейта. Та статья получила хорошие отклики, а также много критики. Некоторые сказали, что нужно учитывать содержимое сайта, другие просили больше примеров из разных источников, а некоторые предложили попробовать методы глубинного обучения.

В этой статье я постараюсь решить эти вопросы и вывести выявление кликбейта на новый уровень.
03/27/2017 16:49:34
0

FLIF – идеальный формат для изображений?

FLIF

Как формат JPEG произвел в свое время революцию среди форматов изображений, так и новый формат FLIF обещает такого же масштаба событие для дизайнеров и веб-разработчиков.

FLIF (Free Lossless Image Format) – новый формат файлов для изображений, обеспечивающий беспрецедентное сжатие без потерь. Файлы получаются:

  • На 14% меньше, чем WebP, без потерь
  • На 22% меньше, чем BPG, без потерь
  • На 33% меньше, чем сжатый через ZopfliPNG PNG-файл
  • На 43% меньше, чем обычные PNG-файлы
  • На 46% меньше, чем оптимизированные по Adam7 чересстрочные PNG-файлы
  • На 53% меньше, чем JPEG 2000, без потерь
  • На 74% меньше, чем JPEG XR, без потерь

На Хабре уже опубликовано пару статей на тему FLIF. Но мы пойдем дальше: какую еще практическую пользу несет формат, кроме меньшего размера для любого типа изображений?
03/27/2017 16:00:52
0

[Перевод] Ежегодный отчёт Threat Horizon 2019 от International Security Forum (выдержка для руководителей)

Threat Horizon 2019 logoУважаемые коллеги, в конце прошлой недели International Security Forum опубликовал очередной ежегодный отчёт о грядущих трендах ИТ-угроз бизнесу Threat Horizon 2019. Отчёт содержит подробные описания девяти основных угроз, а также информацию об их воздействии на бизнес и рекомендуемые действия.

Представленная информация должна помочь ИТ и риск-менеджерам, а так же руководителям бизнеса ознакомиться с набирающими силу рисками и оценить возможные последствия.

По ссылке вы можете скачать выдержку из отчёта на английском. Прошлогодняя, позапрошлогодняя, и более ранние выдержки находятся в открытом доступе. Тем же, кто хочет ознакомиться с переводом Threat Horizon 2019 Executive Summary — прошу под кат.

В комментариях предлагаю описать актуальность приведённых выводов и рекомендаций для вашей организации.
03/27/2017 15:29:44
0

Дайджест от Omegicus: антиалиасинг шрифтов и библиотека шифрования и сжатия

Добрый день! В данный момент завершаю альфа-версию моей ОС (тыц: http://habrahabr.net/?habr/278631/), что будет — то будет, дальше пока нет возможности и времени ее делать, но до какого-то состояния ее доведу, о чем сообщу отдельным постом.

В принципе, в моем кодописании так или иначе всё вертится именно вокруг оси, т.е. ОСи. Иногда это выплевывается в отдельные микро-проекты, о которых сейчас и расскажу.
03/27/2017 15:00:21
0

Типографика в вебе

Статья поможет разобраться с основными терминами в типографике. А чтобы информация лучше и легче воспринималась, скучные тексты проиллюстрированы веселыми картинками. Так же в статье собраны самые распространенные ошибки, которые допускаются веб-дизайнерами при работе с текстом и даны рекомендации как их избежать.

image

Типографика — сильнейший инструмент для выражения посыла в веб-дизайне. С его помощью вы можете объединить текстовую и визуальную составляющие, что поможет вам достучаться до посетителя. Правильное использование типографики поможет избежать типичных ошибок, допускаемых дизайнерами при создании очередного шедевра. Постараемся понять, что же мы делаем не так, и как избежать ошибок в будущем.

Для начала давайте разберемся с терминологией. Наверняка большинство терминов вам знакомы, но еще разок ознакомиться с определениями не будет лишним. Возможно, это дополнит ту информацию, которой вы уже обладаете.
03/27/2017 14:59:09
0

MIPSfpga и прерывания

В статье приводится несколько примеров настройки и использования прерываний MIPS32 Release 2, включая подробное описание задаваемой при этом конфигурации, описывается работа с контроллером внешних прерываний.
Весь описываемый код опубликован на github в составе проекта mipsfpga-plus [L3].


image

03/27/2017 14:59:09
0

[Из песочницы] Решение проблем с памятью, занимаемой модулем IntelliMemory в Diskeeper и SSDkeeper

После установки SSDkeeper заметил очень странную картину — через некоторое время работы компьютера количество доступной памяти заметно снижается. При стандартном наборе постоянно запущенных приложений (браузеры, торрент и DC++ клиент) из 16Гб остается примерно половина.

Диспетчер задач не давал ответа на вопрос об утечки памяти, поэтому следующей утилитой диагностики была RamMap:

image

На скриншоте приведено состояние системы уже после устранения проблемы, ранее Nonpaged Pool занимал порядка 4-6Гб.
03/27/2017 14:55:13
0

Подборка полезных инструментов с Product Hunt за март

С ресурсом Product Hunt знакомы все и все знают, сколько новых проектов – новаторских и банальных, полезных и бестолковых – появляется там каждый день. Для тех, кому не всегда хватает времени сортировать этот поток, мы предлагаем небольшую подборку интересных находок из нескольких категорий (CSS, Производительность, Системы обмена сообщениями, API), которые отобрали для себя за последние несколько недель.

03/27/2017 14:53:07
0

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

Привет всем, кто дожил до пятой темы нашего курса!


Курс собрал уже более 1000 участников, из них первые 3 домашних задания сделали 520, 450 и 360 человек соответственно. Около 200 участников пока идут с максимальным баллом. Отток намного ниже, чем в MOOC-ах, даже несмотря на большой объем наших статей.


Данное занятие мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию, и таким образом улучшим точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.


Список статей серии
  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных c Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Обучение без учителя: PCA, кластеризация, поиск аномалий
  7. Искусство построения и отбора признаков. Приложения в задачах обработки текста, изображений и гео-данных

03/27/2017 14:28:15
0

[Перевод] SQL или NoSQL — вот в чём вопрос

Все мы знаем, что в мире технологий баз данных существует два основных направления: SQL и NoSQL, реляционные и нереляционные базы данных. Различия между ними заключаются в том, как они спроектированы, какие типы данных поддерживают, как хранят информацию.

Реляционные БД хранят структурированные данные, которые обычно представляют объекты реального мира. Скажем, это могут быть сведения о человеке, или о содержимом корзины для товаров в магазине, сгруппированные в таблицах, формат которых задан на этапе проектирования хранилища.

Нереляционные БД устроены иначе. Например, документо-ориентированные базы хранят информацию в виде иерархических структур данных. Речь может идти об объектах с произвольным набором атрибутов. То, что в реляционной БД будет разбито на несколько взаимосвязанных таблиц, в нереляционной может храниться в виде целостной сущности.

Внутреннее устройство различных систем управления базами данных влияет на особенности работы с ними. Например, нереляционные базы лучше поддаются масштабированию.



Какую технологию выбрать? Ответ на этот вопрос зависит от особенностей проекта, о котором идёт речь.
03/27/2017 14:15:49
0