Clustering · сюжеты
Похожие материалы склеиваются в сквозные истории. На главной идут сюжеты, а не лента.
Семь страновых порталов на одном движке. Собственный AV DS — извлечение сущностей, кластеризация сюжетов, векторный поиск, RAG-ответы, контроль фактов и плагиата, переводы. Всё под капотом, без внешних SaaS-обёрток.
Живой эндпоинт работает прямо на этой странице. Векторный поиск в Qdrant (129 923 точки) → top-k контекст → DeepSeek с обязательными ссылками на источники.
От сырого RSS до упакованного сюжета с цитатами и переводами. Полный путь занимает 12–40 секунд.
Похожие материалы склеиваются в сквозные истории. На главной идут сюжеты, а не лента.
rubert-tiny2-sentiment · оценка каждой публикации. Питает дашборд тона в стране и по темам.
multilingual-e5-small → Qdrant → DeepSeek в JSON-mode с обязательной ссылкой на источник.
Факт-чекинг, плагиат, QA-score. Каждый материал получает оценку качества перед публикацией.
Автопереводы каждого материала. Русский остаётся оригиналом, остальные генерятся и проходят контроль.
Модель предлагает 3–5 вариантов на каждую статью — лучший попадает в публикацию через 4 часа.
Данные за 30 дней. Пики — импорт архивных материалов, плато — реальный дневной поток.
Пять зон, каждая — отдельный сервис. Всё в Docker Compose, всё на одном VPS. Один внешний LLM-вендор, остальное open-source.
Публичный read-only API. Без ключей для базовых эндпоинтов. Для webhook-подписок и повышенных лимитов — свяжитесь с нами.
/api/ask
RAG-ответ с цитатами · публичный
curl -X POST https://koz.news/api/ask \
-H "Content-Type: application/json" \
-d '{"question": "Что известно о курсе тенге?", "lang": "ru"}'
Лимит: 10 req/min · Ответ: answer, sources[], confidence, latency_ms, cost_usd
/api/data/daily-volume
Ежедневный объём публикаций · публичный
curl "https://koz.news/api/data/daily-volume"
Ответ: [{site, day, count}] · используется на этой странице для графика ↓
/api/data/pulse
Живой пульс ленты · публичный
curl "https://koz.news/api/data/pulse"
Плюс: /api/data/persons, /api/data/topics, /api/data/geo, /api/data/entities, /api/data/timeline, /api/data/summary
/api/articles
Полнотекстовая лента · требует ключ
curl -H "X-API-Key: $TOTAL_KEY" \
"https://koz.news/api/articles?q=kaspi&limit=20"
Полный контент статей. Запросите ключ через форму внизу →
/api/webhooks
Подписка на события · требует ключ
curl -X POST https://koz.news/api/webhooks \
-H "X-API-Key: $TOTAL_KEY" \
-d '{"event":"article.published", "url":"https://your.app/hook", "filter":{"tag":"Kaspi"}}'
События: article.published, story.updated, person.enriched
Три AI-режима поверх живой ленты: ответить на вопрос по архиву, поговорить с конкретной статьёй, получить основу для утреннего брифинга за 10 секунд.
Вопрос на русском или казахском → векторный поиск по 195 тыс материалов → ответ со ссылками на источники. Лекарство от 30 минут ручного поиска перед каждым текстом.
В каждой статье «спроси про этот материал»: сократи до трёх тезисов, объясни простым языком, переведи, найди связанные материалы. Зачем: время на сайте +35–60%.
В 6:00 алгоритм собирает 10 ключевых сюжетов за сутки с тезисами и источниками. Придёт в email и Telegram — готовая повестка для планёрки.
Платформа работает на одном VPS. Всё обогащение делает AV DS — штат редакции не нужен.
Не табличка галочек, а конкретные редакционные задачи. Каждая требует всего стека, поэтому у tengrinews, zakon.kz и kursiv этого нет.
Журналист пишет вопрос на русском или казахском. Система векторно ищет 5 наиболее релевантных материалов из 195 000, собирает контекст и возвращает ответ со ссылками. За 5 секунд вместо 30 минут ручного поиска.
Редактор открывает любую тему — система автоматически собирает все 5–20 статей в хронологию, строит таймлайн, подтягивает упомянутых персон и организации. Без ручной модерации.
Материал на русском автоматически переводится на казахский, узбекский, кыргызский, таджикский и монгольский, проходит фактчек и уходит на 7 доменов с правильным hreflang. Один автор, семь аудиторий.
Честно: это ещё не продакшен, но попадёт в прод до конца июня. Никаких «в разработке 3 года» обещаний.
Зрелые open-source компоненты. Единственный внешний вендор — DeepSeek. Без vendor lock.
Три сценария, по которым к нам обращаются: инвестиции в раунд, партнёрский API, white-label для своего издания. Напишите одним предложением, что вам нужно — ответим в течение суток.