RSS новини, Агрегатор, Последни новини, блогове и социални мрежи, борсова информация, валутни курсове, времето, спорт, бизнес, България, борси, валути, онлайн телевизия и радио, Евро 2008, Euro2008
Затвори
No account yet? Register
Вход

Template

RSS новини
Обяснения

Добави сайт   |   Директория   |   Лиценз   |   Контакти
RSS новини - Агрегатор и 50 процента по-бърз Print E-mail
(3 гласа)
събота, 17 май 2008
На 16 май започнахме да агрегираме някои от най-важните и най-проблемните области от съдържанието в нашия сайт. Какво, как, защо и колко...

RSS новини - Агрегатор и 50 до 80 процента по-бърз

На 16 май започнахме да агрегираме някои от най-важните и най-проблемните области от съдържанието в нашия сайт.

Какво, как, защо и колко?

Какво и защо се наложи да направим?

До момента по-наблюдателните от вас сигурно са забелязвали някои проблеми, а именно че се среща често дублирано съдържание и неточности в датата на новината (при блоговете ). Откъде идва проблема?

Естествено от това, че част от съдържанието на RSS-ите идва от сборни емисии на различни Български агрегатори, които не работят на 100% коректно. Не че са лоши като сайтове, напротив, повечето са чудесни, но има някои проблеми като например:

  • Ако блога е известен и добър , той се включва във всички (или почти всички) големи агрегатори и оттам се получава дублиране в съдържанието.
  • Получават се проблеми при енкодинга
  • Проблеми при отчитане точната дата и час на новината

За проблеми с енкодинга следят строго и уебмастерите на тези сайтове, така че се среща относително рядко. Проблема за отчитане точния час и време на новината се среща пък само при определени сайтове и не е много фатален, тъй като сайта ни отчита кога новината е влезнала в сайта и ги подрежда по реда на влизането в базата данни.

Най-значим се оказва проблема с дублираното съдържание още повече когато това се отнася за нашето "сайтче" от 100 хиляди страници. Дублиране на съдържание от дори 2% означава 2000 страници с тенденция за увеличаване и никакъв смисъл от маса часове за труд за поддръжка за да се трият дублираните новини.

Държа да отбележа, че новини се дублират не само поради дублиране на RSS емисиите на големите блогове в българските агрегатори, но и в социалните сайтове . Там проблема е още по-голям, тъй като 30-40% от съдържанието се дублира като заглавия и/или линкове на новината.

Третата голяма област на конкуренция е "IT и софтуерни новини " като там борбата е между download.bg, kaldata.com, sofvisia и notrial.info. Всеки от тези сайтове е много добър и уникален сам за себе си, но много често се получава същото като при социалните мрежи - новина с едно и също заглавие, което обикновено е заглавието на софтуера/програмата.

 

Какво правим за решение на проблемите?

За начало агрегираме и филтрираме съдържание от областите, които са най-проблемни:

Как работи системата?

  1. Съдържанието се тегли през RSS емисията на конкретния сайт
  2. Обединяват се фийдовете на агрегираните източници
  3. Новините се подреждат по дата, час и минута на публикуване на новината
  4. Филтрира се за дублиращи се линкове на новини
  5. Филтрира се за дублиращи се заглавия
  6. Извежда се филтрираното съдържание на нашия сайт
  7. Новините влизат в 16-те RSS емисии (скоро ще са 25)

Възможни проблеми са неминуемото получаване на известни дублирания на новини от тези области, за период от около 2 дни, за толкова време се обновяват напълно емисиите на повечето от тези сайтове.

След това ще можем да се радваме на едно по-често обновяващо се и по-подредено съдържание без дублирания на новини. В сайта ще влиза най-рано излязлата новина, което в 99% от случаите означава, че той е първоизточника и естествено, най-справедливо е линка да сочи към него и да се публикува неговата новина.

Нищо от новините няма да бъде променяно, както пише в нашия ЛИЦЕНЗ , просто в сайта ще влиза първата новина, а всички други, водещи към същия линк и със същото заглавие няма да се публикуват. 

Например блогър "Х" публикува една и съща новина "У" на svejo.net, на dao.bg и на ping.bg. На който сайт първа излезе новината, тя влиза в нашия сайт. Всички други със същото или подобно заглавие, водещи към същия линк просто се игнорират и не се публикуват. 

 

Като "странични ефекти" при тези ъпдейти получаваме гратис 50 до 80% по-бързо зареждане на сайта, за което отново благодарим на Хост България  - нашия хостинг доставчик и техните нови, по-мощни сървъри.

За малко да забравя и възможностите за превод на 23 езика, powered by Google, за да може всички новини от България да се четат не само на Български, но и на английски и на всички други поддържани езици. По този начин вашата новина ще прочетат не само българи, но и чужденци живеещи в България, а съвсем скоро и хора от цялата планета. Това между другото беше и първия новинарски сайт в България с такива възможности.

 


Подобни новини:


Новини със същите тагове:  RSS новини Агрегатор 3rdnews.info
Добави към:
Dao.bg
Svejo.net
Ping.bg
Web-bg.com
Google
YahooMyWeb
Reddit
Stumble
Digg
Simpy
Furl it!
Delicious
Spurl
Technorati
Коментара (0)add comment

Напиши коментар

Copyright © RSS новини 2008.
busy
Last Updated ( събота, 17 май 2008 )
 
< Prev   Next >

Последни новини от другите категории:

  • Спортни новини
  • Бизнес
  •  IT новини 
  • Чуждестранни
  • Социални мрежи
  •   Блогове  
  • Последни в Блогове и Политика
  • Фото и снимки
  • Жълти новини и клюки
  • Последни в Новини от България
  • Информация и важни
Generated in 0.26147 Seconds