News Infrastructure

Voorwoord

NetNews is in 1979 ontwikkeld door de universiteit van Duke University te Amerika. De oorspronkelijke naam, UseNet, is een acroniem voor Unix uSEr NETwork. Usenet op zich maakt geen deel uit van het internet. Het is een toepassing die het internet gebruikt om de gegevens te transporteren, maar het kan ook via andere netwerken worden getransporteerd.

Alhoewel News van oorsprong een medium is dat gemaakt is voor uitwisseling van tekstberichten, zit momenteel ongeveer de helft van het aantal artikelen in de categorie ‘binaries’, ofwel plaatjes, muziek- en videobestanden. In volume (bytes) uitgedrukt, zorgen de ‘binaries’ zelfs voor meer dan 95 procent van het dagelijkse volume aan News. Het zijn met name deze binaries die regelmatig tot verhitte discussies over News zorgen.

Onderstaand ontwerp is ontstaan vanuit de wens om een news omgeving te creeeren die enerzijds schaalbaar is en anderzijds weinig onderhoud vergt. Het ontwerp is al eerder succesvol geimplementeerd bij onder andere de Internet Service Provider Multi-Access/Freeler.

Used Products

Hardware

Network Appliance

Network Appliance heeft een naam hoog te houden als het gaat om ‘high-performance’ opslag- en netwerksystemen. Haar ONTAP-software en gepatendeerde WAFL bestandssysteem bieden een uitgekiende omgeving waarbinnen Usenet gesitueerd kan worden. Binnen de productportfolio wordt de NetCache-module aangeboden. Deze module stelt providers en grote ondernemingen in staat om een kwalitatief uitstekende dienstverlening te bieden die naar wens gemakkelijk uitgebreid kan worden, efficient is in gebruik en onderhoud, maar bovenal efficient het netwerk-verkeer afhandeld. Deze efficiency kan op termijn een besparing van ettelijke honderden duizenden euros betekenen.

Andere technische voordelen van de Network Appliance NetCache-module zijn:

  • Goede schijf-prestaties waardoor duizenden gebruikers tegelijk op een module kunnen opereren
  • Een zogenoemde ‘Hashed Direcctory Structure’ waardoor miljoenen artikelen tegelijk verwerkt kunnen worden
  • Ruimte voor het plaatsen van een NVRAM-geheugenmodule waardoor de prestaties verder worden verbeterd
  • Ingebouwde RAID (Redunante schijfeenheden) om de continuiteit van de dienst en integriteit van de gegevens bij eventuele hardware problemen te kunnen waarborgen
  • Een eenvoudige beheersinterface waardoor op de beheerskosten kan worden bespaard
  • Opgebouwd uit hoogwaardige componenten en gecertificeerd
  • Biedt een beschikbaarheid van 99,99%

Hewlet Packard

Sun Microsystems

Software

Network Appliance NNTP license

NetApp heeft haar ervaring op het gebied van grote opslag-systemen in bedrijfskritische omgevingen goed tot uiting laten komen in haar NetCache NNTP-module. Deze module vangt het ‘NetNews’-verkeer af en zorgt voor een geoptimaliseerde datastroom.

Dit draagt bij aan een zeer hoge doorvoersnelheid, response en gebruikerservaring tegen een fractie van de kosten. NetCache biedt hoofdelijk de volgende voordelen:

  • Verbeterde NNTP (News) response-tijd
  • Gebruikt slechts een fractie van de bandbreedte en opslag welke door klassieke NNTP (News)-oplossing benodigd is. (Het systeem kijkt intelligent naar de gevraagde nieuws-groepen en haalt geen nieuwsgroepen op welke toch niet gelezen worden).
  • Gunstige TCO. (NetCache NNTP modules zijn zeer eenvoudig te beheren (middels een webinterface) en de gebruikte modules zijn zeer krachtig. In sommige gevallen kan al met slechts een of twee module(s) worden volstaan).

Diablo

Diablo is een opensource Usenet transit- en reader-module. De software is oorspronkelijk ontwikkeld door Matt Dillon. Inmiddels onderhoud een team van ontwikkelaars de software. Diablo is ontwikkeld vanuit de gedachte een snelle, schaalbare en flexibele applicatie neer te zetten.

De toepassing verzorgt te feitelijke communicatie tussen de verschillende newsservers. Nieuwsgroepen worden samengevoegd en in zogenoemde ‘Newsfeeds’. Diablo optimaliseerd deze feed door consolidatie van de aangeboden feeds. Een Newsfeed kan bestaan uit lokale nieuwsgroepen met enkele tientallen of honderden berichten, of uit internationale nieuwsgroepen met tientalle duizende berichten en vele megabytes aan verkeer. Grote systemen die zorgdragen voor volledige ‘Newsfeeds’ of in ieder geval het grootste deel hiervan worden ‘News Transit Systemen’ (transits) genoemd.

INN

Rich Salz heeft een zeer flexibele Usenet/Netnews news-server geschreven genaamd INN (Internet Net News). Deze server ondersteund nagenoeg de volledige RFC 1036 en RFC 977-implementatie.

Ook deze software wordt inmiddels onderhouden door een team ontwikkelaars van het ISC, de makers van de defacto standaard nameserver (DNS) bind.

Huidige Omgeving

In de huidige opzet worden de servers ingezet voor meerdere taken tegelijk. Het maximaal aantal gebruikers dat door de servers van Usenet gebruik kan maken is inmiddels bereikt waardoor de dienst niet voor iedereen meer altijd bereikbaar is. Het is zelfs al noodzakelijk gebleken om het aantal sessies per gebruiker te ‘knijpen’.

De huidige omgeving is niet schaalbaar: De huidige en toekomstige groei kan niet blijvend afgevangen worden door de hardware- of software-capaciteit te vergroten. Tijdelijk kan de capaciteit welliswaar vergroot worden door een extra server te plaatsen, maar de grens is in zicht.

Elke individuele server in het huidige ontwerp is verantwoordelijk voor een deel van het ‘News-verkeer’. Een belangrijk voordeel van deze opzet is dat de eindgebruiker, in het geval van uitval van een machine, slechts een verslechtering van de performance ervaart. De dienst blijft bereikbaar. De keerzijde van dit vordeel is dat in de huidige opzet slechts een fractie van de mogelijke hardware- en software-capaciteit wordt benut. De eenmalige- en wederkerende investering die nodig is om deze dienst aan te bieden is in verhouding met het nieuwe voorstel buitenproportioneel. Een bijkomend nadeel van deze opzet is dat naar verhouding het stroomverbruik en de kastbezetting van de newsomgeving zeer groot is.

Er wordt in de huidige omgeving gebruik gemaakt van meerdere servers met linux als besturingssysteem. Dit betekent dat elke machine onderhoud vergt op meerdere lagen:

  • OS (linux kernel, en systeem applicaties)
  • Service (gebruikte applicaties voor de dienstverlening)

Gezien het grote aantal machine dat wordt gebruikt en gebruikt gaat worden, is dit een zware belasting voor de beheerders.

Nieuw Ontwerp

Vooraf

Kenmerkend voor het nieuwe ontwerp is de onderverdeling die gemaakt wordt tussen frontend- en backend-machines. Deze onderverdeling heeft als doel de beschikbaarheid, de prestatie en de algemene gebruikers-ervaring te verbeteren. Tevens draagt deze onderverdeling bij aan de schaalbaarheid en het beheer van de dienst.

  • De zogenoemde ‘frontend-machines’ zijn de poortwachters van de dienst

dit is het punt waarmee eindgebruikers communiceren. De machines zijn dusdanig ingericht dat hierop alleen berichten ontvangen en verstuurd kunnen worden.

  • De ‘backend-machines’ worden enkel gebruikt voor de feitelijke verwerking van de berichten.

de backend-machines zijn niet door eindgebruikers te benaderen.

De ‘backend-machines’ zijn weer onderverdeeld in spool servers en feeders.

  • De Spool servers verzorgen de opslag en de feitelijke afhandeling van de nieuwsberichten van

en naar de frontend-machines.

  • De Feeders zijn slechts verantwoordelijk voor het (efficient) samenvoegen

van de aangeleverde newsfeeds van derden en het consolideren en doorsturen van batches.

Door deze scheiding kan met een beperkte investering de schaalbaarheid van het platform vergroot worden.

Een vereenvoudigde weergave van het ontwerp

Schaalbaarheid

Door de dienst op te splitsen in een ‘frontend’ en ‘backend’ kan de capaciteit optimaal benut worden. Daar waar de gebruikers-aantal groeien hoeft in eerste instantie alleen aan de ‘frontend’-zijde geinvesteerd te worden.

Mocht het wenselijk zijn om de dienstverlening te wijzigen of te verbeteren (verhoogde retentietijden, verhoogd dataverkeer, meer lokaties, enzovoorts) dan kan er aan de ‘backend’-zijde geinvesteerd worden. Slechts bij exponentiele groei in het aantal clients, dient een extra spool-server ingezet te worden. Wanneer de door derden aangeleverde feeds groeien dient er een extra transit machine aangeschaft worden. De nieuwe oplossing biedt de mogelijkheid om de klant-vraag over de beschikbare capaciteit te verdelen.

Het ontwerp voorziet in de verdeling van de news omgeving over meerdere locaties en de mogelijkheid tot failover en loadverdeling tussen 2 (of meer) locaties.

Beheerbaarheid

Het beheer is in de nieuwe situatie aanzienlijk vereenvoudigd:

  • Het aantal machines welke tezamen de dienst vormen is aanzienlijk teruggebracht

ongeveer de helft van de huidige omgeving

  • Er is een duidelijk onderscheid tussen de voorkant van de dienst en de achterkant van

de dienst

  • Er wordt gebruik gemaakt van standaard-componenten en diensten.

Aan de ‘frontend’-zijde is gekozen voor de NetCache-modules van Network Appliance voorzien van een NNTP-licentie. Deze keuze is vooral gemaakt vanwege de zeer goede prestaties van deze machines, de eenvoudige beheersinterface, de eenvoudigde installatie/configuratie en het feit dat de caching-strategie van de machines de spool-server ontlast waardoor deze veel meer gebruikers kan verwerken dan bij een klassieke oplossing.

Omdat I/O erg belangrijk is voor het kunnen bieden van een dergelijke dienst wordt derhalve gebruik gemaakt van een SUN machine. Deze machine dient te worden voorzien van het standaard Solaris besturingssysteem en de opensource INN software. Er dient bij de aangschaf van de machine wel rekening gehouden te worden met opslag.

Voor de feeders (de machines die verantwoordelijk zijn voor de afhandeling van de data die afkomstig is van derde partijen) worden Hewlett-Packard machines, voorzien van Linux als besturingssysteem en de opensource software Diablo, aanbevolen. Diablo wordt ook al in de huidige omgeving, zij het op een andere wijze, ingezet.

Nieuwe mogelijkheden

In het nieuwe ontwerp wordt rekening gehouden met de mogelijkheid tot het authenticeren van de gebruikers (dit kan op basis van Radius of LDAP). Hierdoor wordt de mogelijkheid gecreeerd om verschillende (betaalde ?)diensten te ontwikkelen, klanten op verschillende wijzen toegang te verlenen tot de dienst of bepaalde klantengroepen de toegang tot de dienst te ontzeggen.

Voordelen

Ten opzichte van het huidige ontwerp en de uitbreidingen (quickfixes) daarop, biedt het nieuwe ontwerp een aantal voordelen:

  • Door het aantal gebruikte machines te halveren wordt er flink bespaard op
    • kastruimte
    • warmte ontwikkeling
    • stroomverbruik

De nieuwe setup is tevens eenvoudig uit te breiden en de tijd tussen investeringen zal aanzienlijk hoger zijn dan nu het geval is. Uitbreidingen en onderhoud zullen nagenoeg geen impact hebben op de dienstverlening. De inschatting is dat het nieuwe ontwerp zeker een jaar kan draaien zonder investeringen, het vermoeden is dat 3 jaar ook haalbaar is. De enige investering die mogelijk tussentijds plaats zal vinden is de aanschaf van extra storage en/of een extra reader machine.

Hardware / Software inventory

Leverancier Type Aantal
Hardware
Sun Microsystems SUN 450 2
Hewlet Packard 3
Network Appliance Netcache C 6
Totaal HW
Software
Network Appliance NNTP license 6
ISC INN 2
Diablo Diablo 4
Totaal SW

Pricing

Voor het beschreven nieuwe ontwerp is de volgende hardware benodigd:

Leverancier Type Aantal Stukprijs Totaalprijs
Hardware
Sun Microsystems SUN v490 + Storage 2 .. $152.545,46
Hewlet Packard ProLiant DL380R04p Model 6 3 .. € 16.099,35
Network Appliance Netcache C2300 6 .. € 95.730,53
Totaal HW +/- € 264.375,34
Software
Network Appliance NNTP license 6 0 0.00
ISC INN 2 0 0.00
Diablo Diablo 4 0 0.00
Totaal SW 0.00
Totaal +/- € 264.375,34

Storage capaciteit:

  • Spool: 3TeraByte (2x) middels JBOD’s (hardware RAID)
  • Feeder: 1TeraByte (4x) middels lokale storage (hardware RAID)
  • Readers: 1TeraByte (6x)

Alternatieve Oplossing

Naast het in eigen beheer nemen van een news omgeving is het ook mogelijk om de hele dienst te laten verzorgen door een derde partij. Er zijn diverse partijen op de markt die de volledige usenet dienst aanbieden aan derden, een mogelijke buitenkans is, om uit te zoeken wat de mogelijkheden zijn om gebruik te maken van de usenet omgeving van het KPN label xs4all.

Het uitbesteden van de exploitatie van de usenet-omgeving levert ten eerste een aanzienlijke ruimtebesparing aangaande de colocaties op. De aanschaf- en afschrijfkosten voor de benodigde hard- en software zijn geheel voor rekening van de betreffende partij. Er kan een fixed-price voor de te leveren dienst afgesproken worden, de uitvoering van de SLA komt geheel voor rekening van externe partij.

Price Comparison

Een grove schatting van de kosten voor het in eigen beheer nemen van de usenet omgeving, afgezet tegenover het inkopen van de dienst:

Post Huidig ontwerp Nieuw ontwerp Outsourcen
Aanschaf hardware x 0 0
Aanschaf software x 0 0
Support hardware x 0 0
Support software x 0 0
Beheer x x 0
Onderhoud x x 0
Uitbreiding x 0 0
Colocatie 42.163,20 (stroom)
120.000,00 (vloer)
13.140,86 (stroom)
36.000,00 (vloer)
0
Totaal 1 3/5 1/2

References

1. NetCache NNTP (NetNews) Caching - Karl L. Swartz (Network Appliance) TR 3059

2. NetNews Caching Overview - Ed Chow (Network Appliance) TR 3064

 
documents/newsinfrastructure.txt · Last modified: 2006/11/21 12:51
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki