matholimp: (Default)
[personal profile] matholimp
Вадим Штепа обратил внимание на тему (п. 2), неожиданно выскочившую на морде Яндекса:

Конечно, неясным остаётся вопрос о границах. Включая три финляндских губернии, в названиях которых есть слово "Карелия"? Или только из них?
Более интересный сюжет, как целенаправленно генерировать подобные "новости". Конечно, рядовые блоггеры могут спокойно отдыхать. Но у журналистов (прежде всего, из электронных СМИ, а также из ведущих газет и телеканалов) появилась возможность поразвлекаться экспериментами по управлению интеллектуальными роботами Яндекса.

(no subject)

Date: 2011-01-19 08:45 am (UTC)
From: [identity profile] elada.livejournal.com
Это фотошоп.
Попробуйте найти хотя бы одну новость об этом в Интернете.
Не верите яндексу, поищите в гугле.

(no subject)

Date: 2011-01-19 09:07 am (UTC)
From: [identity profile] matholimp.livejournal.com
Нет, не фотошоп. Роботы Яндекса формируют заголовки новостных блоков, выбирая их фрагменты из НЕСКОЛЬКИХ заголовков конкретных новостей. Я в общих чертах представляю принцип их действия, чему и посвятил концовку поста.
Кстати, подобный ляп далеко не первый. Например, несколько дней назад заголовок блока новостей о смерти Вятского митрополита начинался со слова "убит". Причина - та же самая.

(no subject)

Date: 2011-01-19 09:16 am (UTC)
From: [identity profile] elada.livejournal.com
Вы ошибаетесь, берется один какой-то заголок целиком. А в интернете нет НИ одной новости с таким заголовком, чтобы мог такой выбраться (а тем более попасть на главную страницу).

http://help.yandex.ru/news/?id=1111159
http://company.yandex.ru/public/articles/smi-mirror.xml

Даже если Вы мне не верите, то поищете новости за вчера со словами "Карельское государство". Ни одной нет.

Вот все новости со словом "карельское" за вчера: http://news.yandex.ru/yandsearch?rpt=nnews2&grhow=clutop&date=within&text=%D0%BA%D0%B0%D1%80%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B5+&within=777&from_day=18&from_month=01&from_year=2011&to_day=18&to_month=01&to_year=2011&numdoc=10&Done=%D0%9D%D0%B0%D0%B9%D1%82%D0%B8
Опять таки ничего похожего.

Это сюжет про Палестинское государство, там было слово "Палестинское".
Спросите с пристрастием Вашего френда, может и сознается в своей шутке.

(no subject)

Date: 2011-01-19 09:51 am (UTC)
From: [identity profile] matholimp.livejournal.com
Да, нередко берут какой-то заголок целиком. Но далеко не всегда. Примеры легко найдутся в тех блоках, где накопились десятки-сотни новостей.
Но так как сами блоки тоже формируются автоматически по ключевым словам, то почти всегда в них попадают посторонние для нужного сюжета сообщения.
Конечно же, новость была про Палестинское государство. Но роботы искали не единое (простите за каламбур!) "Палестинское государство", а отдельно "Палестинское" и отдельно "государство" (оба слова на одной странице, но не обязательно подряд). "Карельское" же зацепилось по другой причине: так как готовился региональный блок для Петрозаводска, то именно это слово робот нашёл на многих страницах с нужной новостью на сайтах этого региона.

(no subject)

Date: 2011-01-19 10:12 am (UTC)
From: [identity profile] elada.livejournal.com
Всегда берутся только заголовки целиком. Это легко проверить в любом блоке поискав текст заголовка с галкой "в сюжете". Иначе бы встречались новости, озаглавленные текстом с грамматическими ошибками, роботы не умеют склеивать несколько заголовков в один с сохранением грамматичности текста.

Роботы не ищут новости, а получают чистые тексты без обвязки от партнеров, а затем производят кластеризацию текстов на основе текстовой близости. Тут не происходит ни одного поиска. И ни одна страница с перечнем новостей не учитывается при кластеризации.

Я Вам предлаю простой эксперимент: сначала прочитать описания технологии сервиса, а потом найти в интернете Новость, которая могла дать такой заголовок. Чтобы самостоятелньо убедиться в том, кто прав.

В качестве дополнительного аргумента: неужели Вы думаете, что если бы Я.Новости допустили такой ляп, его бы заметил один единственный блоггер. Обычно ошибки вызывают довольно обширную реакцию.

Я бы не стала с Вами спорить, но мы уже пересекались в ЖЖ по каким-то вопросам и Вы мне запомнились человеком умным, и мне жаль, что Вас так грубо ввели в заблуждение.

(no subject)

Date: 2011-01-19 11:53 am (UTC)
From: [identity profile] matholimp.livejournal.com
Обширной реакции не происходит именно потому, что все такие ошибки быстро исправляют вручную. Поэтому свидетелей - единицы, а скриншотов почти не остаётся.
Френд не без чувства юмора. Однако фотошопом даже не умеет пользоваться.

(no subject)

Date: 2011-01-19 12:16 pm (UTC)
From: [identity profile] elada.livejournal.com
Видимо научился.
Проведите эксперимент и убедитесь.

Удивительно, как люди готовы верить "шутникам", но не готовы даже проверить их информацию, чтобы убедиться в своей правоте.

Я то на 100% знаю, что я права, но все мои аргументы не вызовут у Вас доверия, если Вы сами не постараетесь доказать или проверить свою позицию. Если же Вас устраивает и такое голословное подтверждение сомнительным скриншотом, то спорить с Вами нет никакого смысла.

(no subject)

Date: 2011-01-19 01:49 pm (UTC)
From: [identity profile] matholimp.livejournal.com
Так я же в конце поста как раз и призвал поэкспериментировать френдов-журналистов (а их у меня есть). Среди этой публики тоже всякие "шутники" встречаются. Не говоря о многочисленных непреднамеренных ляпах в заголовках их статей, против которых Яндекс абсолютно бессилен.
Конечно, за годы что-то могло измениться. Но первоначально Сегалович считал делом принципа, что Яндекс не должен ни корректировать даже явные ошибки, ни давать свои оценки чужой информации, а представлять интернет "как есть". При таком подходе Яндекс обязан "честно" дублировать все ляпы и шутки журналистов.
Page generated May. 22nd, 2025 04:27 pm
Powered by Dreamwidth Studios