bash.im ithappens.me zadolba.li
10668

Особенности нормализации детей

Мы сидим в девять вечера на работе, у нас ахтунг под кодовым названием «дети». Мы этот ахтунг уже четыре часа мучаем. Мы уже обсудили, что жёнам подарить на Восьмое марта. И что тёщам подарить, тоже обсудили. Мы поели эклеров, закусили «Вагон Вилз», попили кофе, не покурили (бросаем), попили ещё кофе, погрызли попкорна. Мы всю голову сломали над этим багом, а дети только множатся. Мысли путаются, глаза слипаются, пальцы промахиваются по клавишам, а дети всё не исчезают. А завтра встреча, и этих чёртовых детей нужно демонстрировать. И мы сидим и ищем, где же этот баг…

Сабж, собственно, такой: в нашей системе социальной аналитики среди тысяч тем есть происшествия в Москве. И в теме этой, как и в любой другой, есть полезнейший отчёт «Популярные слова», в который собираются слова, чаще всего соседствующие в тексте с объектом мониторинга.

И вот в теме по происшествиям, в популярных словах, намертво засело слово «дитя». Как увидишь такое — сердце схватывает: думаешь, что ж там за происшествие с дитём?! Кликаешь на это бедное дитё, а система тебе в ответ: «Нет сообщений». Ну как так-то? Вот же, в популярных словах 100500 вижу же!

В общем, мы искали-искали-искали-искали. Сломали головы и глаза, а оказалось, что ларчик просто открывался. Вчера произошёл пожар на юго-западе столицы, и двое детишек, спасаясь от огня, выпрыгнули из окна. Остались целы, к слову, всё хорошо у этих ребят. Но обсуждают инцидент все соцмедиа, да и СМИ не дремлют — перепечатывают друг у друга новости. Вот и «множатся» дети в теме.

А у нас же не просто так себе какой-то там мониторинг, но и умный многофакторный анализ сообщений, включая развитую лингвистическую систему. Развивая её, мы узнали столько о лингвистике, семантике и морфологии, что уже даже не знаем, физики мы ещё или уже лирики.

Так вот, когда сообщение попадает в систему полнотекстового поиска, то слово «дети» приводится к морфоформе «ребёнок», в то время как модуль, который, собственно, считает статистику популярных слов, по умолчанию приводит слово «дети» к слову «дитя». Вот и не складываются эти разные дети и ребёнки в один детский сад.

Уф, нашли, полечили, запустили пересчёт. Волнуемся. Покурить всё равно не успеем, да и бросаем же, разве что чай быстренько налить — и бегом смотреть, как там наши дети. Ура, все детишки на месте, сложились, пересчитались, проанализировались. Счастье есть.

И вот не говорите мне, что у других разработчиков не бывает таких интересных демографических багов и таких тупнячков в коллективе!