Метод k-средних - один из самых популярных и простых методов кластеризации. Метод заключается в минимизации суммарного квадратичного отклонения точек кластеров от центров этих кластеров.

$$ V = \sum_{i=1}^{k} \sum_{x_j \in S_i} (x_j - \mu_i)^2 $$

где \(k\) — число кластеров, \(S_i\) — полученные кластеры, \(i=1,2,…,k\) и \(\mu_i\) — центры масс векторов \(x_j \in S_i\) .

Читать далее

В статье рассматривается задача обработки и подготовки дампов русской википедии (http://ru.wikipedia.org/) к использованию в полнотекстовом поиске, и прочее всякое, что можно сделать с крупными дампами.

Полнотекстовый поиск - автоматизированный поиск документов, при котором поиск ведётся не по именам документов, а по их содержимому, всему или существенной части.Сканирование всего содержимого документов в поиске заданного слова и фразы может занимать очень большое количество времени, особенно если пространством поиска является википедия (я не говорю уже про весь интернет, где такой способ вовсе неприменим). Следовательно на основе текстовых данных, по которым будет вестись поиск, необходимо строить индекс, по которому организовывать быстрый поиск. В случае википедии текстовые данные могут быть легко получены из дампов.

Пока речь пойдет о том, где дампы доставать и как их готовить, - маленькая разминочная статья перед будущим циклом, в котором будут рассмотрены основы информационного поиска. На написание вдохновлен курсом “Информационного Поиска” Андрея Калинина, хотя все конечно будет рассмотрено не так подробно, но надеюсь, что выйдет хоть и компактно, но полезно и информативно.

Читать далее

Asteroid Game Image

Простая трехмерная игра, выполненная на JavaScript с использованием библиотеки BabylonJS.

Делал, чтобы посмотреть как 3D ведет себя в браузере. Ведет он себя хорошо, хоть и иногда заметно, что справляться с рендерингом сцены ему сложно. Процесс программирования сцены немного напоминает WebGL, так что тем, кто раньше имел дело с OpenGL/WebGL, подружиться с Вавилоном будет сильно проще.

Читать далее

Hello, World!

Поднял новый блог на статическом генераторе Hugo.

Самый заметный профит, пожалуй, в том, что не нужно заботиться о хостинге (а иногда и платить за него) и сталкиваться с малоприятным PHP. Да и работает статика пошустрее динамики. Писать в markdown лично мне приятнее, чем в редакторах движков. С правками темплейта и постов тоже все отлично - Hugo позволяет запустить локальный сервер, который будет следить за изменениями контента, и сразу же их отображать.

Ну и главное, что сайт можно просто повесить на GitHub ( ͡° ͜ʖ ͡°)

Читать далее

Авторская фотография

Павел Городецкий

       /\       
      /  \      
     /,--.\     
    /< () >\    
   /  `--'  \   
  /          \  
 /   fnord?   \ 
/______________\

hjm

Java-разработчик

Эдем