nonpasaran

S.M.A.R.T. Değerleri Nedir?

S.M.A.R.T. Nedir, S.M.A.R.T. Değerleri Ne Anlama Gelir? | Disk Sağlığı Hakkında Bilmeniz Gereken Her şey!

S.M.A.R.T., günümüzdeki tüm elektronik (SSD) ve mekanik (HDD) depolama ünitelerinde standart olarak bulunan ve diskin kendi sağlığını kendisinin denetlemesini sağlayan bir teknoloji. Açılımı Self-Monitoring, Analysis and Reporting Technology yani; (Kendi kendini) İzleme, analiz etme ve raporlama teknolojisi.

S.M.A.R.T.90'ların ortalarında ilk geliştirmeye başlayan Small Form Factor Committee adında bir kuruluş oldu. Zamanla S.M.A.R.T. çeşitli evrimler geçirdi. Bunlar S.M.A.R.T. I, II, III olarak bilinir. Sonraları bu teknoloji ile ilgili denetimi Technical Committee T13 devraldı.


Yazı boyunca hem yazımı kolaylaştırmak hem de okuyucunun alıştığı kelimeyi kullanarak kafasının karışmamasını sağlamak adına -hatalı olmasına rağmen- tüm sabit depolama üniteleri için Disk terimi kullanılmıştır.

Disk sağlığı nedir?


Disk sağlığı ile doğrudan alakalı olan arızalar genel olarak 2'ye ayrılır;

  1. Beklenen arızalar: Bu arızalar yavaş gelişir. Sebebi metal yorulması, yaşa bağlı olarak disk yüzeyinin eskimesi ve eskisi gibi tepki vermemesi gibi zamanla oluşan olumsuzluklardır. Biz buna kısaca Eskime diyoruz :)
  2. Beklenmeyen arızalar: Asıl tehlikeli olan ve veri kaybetmeye neden olan arızlar bunlardır. Bunlar genelde bir üretim hatasından veya mekanik hatadan dolayı oluşurlar. Tecrübelerime göre şunu rahatlıkla söyleyebilirim; çoğunluğunun sebebi diskin çalışıyorken ufak da olsa aldığı darbelerdir. Özellikle taşınabilir bilgisayarlarda çok sık disk arızası olmasının sebebi budur. Bu tip arızalar baş gösterdiğinde sisteminizde donmalar ve yavaşlamalar başlar. Çoğu kullanıcı bunun sebebini çok başka yerlerde arasalarda bu semptomların göründüğü bilgisayarlarda sorun çoğu zaman disktedir.

S.M.A.R.T. Değerleri (Attributes) Ne Anlama Gelir?


Diskin anlık durumu bir takım sensörler tarafından sık sık denetlenir. Elde edilen ham datalar belli bir algoritma ile işlendikten sonra anlamlı bir veriye dönüşür. Elde edilen ham dataların işlenmesinde kullanılan algoritma her üreticide farklı olduğu için onu burada veremiyorum.
S.M.A.R.T. değerleri Attributes olarak adlandırılır. Her Attributes şu değerlere sahiptir; Identifier, Current, Worst, Value, Status ve Data. Şimdi bunlar ne anlama geliyor görelim;

  1. IdentifierAttributes'i tanımlar. Örneğin Disk sıcaklığı ile ilgili olan Attributes olan Temperature'ın Identifier194'tür. Bazı programlar bu veriyi 16'lık düzende verirler. Örneğin 0xC2 gibi: (0xC2)₁₆ = (194)₁₀
  2. Current veya Value: Geçerli durumu gösteren veri. Bu veri yukarıda anlattığım üzere ham datanın belli bir algoritmayla işlenmesi sonucu elde edilir. Yeni bir diskte bu veri olabileceği en yüksek değerdedir. Disk kullanıldıkça ve sorunlar çıktıkça değer düşer. 
  3. Worst: Diskin ömrü boyunca gördüğü en kötü değer. Bu değer yeni veya hiç sorunsuz bir diskte Current/Value değeri ile aynıdır.
  4. Treshold: Eşik değeri. Bu değer (Attributes'a bağlı olarak) aşılır veya altına inilirse sorun var demektir.
  5. Data: Sensör ve sayaçların elde ettiği ham veriyi belirtir.
  6. Status: Kullanıcıya kolaylık olması açısından Attributes verisinin ne anlama geldiğini belirtir. OK sorun olmadığını, Attention, Warning ve Danger'da değişik risk seviyelerini belirtir.


Attributes değeri Treshold değerinden büyük veya eşitse bu bir sorun olmadığı anlamına gelir. Eğer Treshold sınırı aşılırsa ve aşılan Attributes kritikse (Altta hangi Attributes kritik belirtilecek) diski değiştirmenin zamanı gelmiş demektir. Verilerinizi yedekleyin ve garantisi varsa servise gönderin.


S.M.A.R.T. standartlarına göre kritik bir Atributes değeri Treshold sınırını aşarsa verileri yedeklemek için 24 saat süreniz vardır. Ancak hem bu sınırın aşıldığına dair bir uyarının olmaması hem de bazen çok ağır hasarlar oluşabildiğiden dolayı bu süre pratikte pek uygulanabilir bir süre değildir. Bir eşik aşılabilir ve sizin bundan günler sonra ancak disk çöktüğünde haberiniz olur.

S.M.A.R.T. bütün arızaları öngörür mü?


Hayır! S.M.A.R.T.  teknolojisinde pek çok sorun vardır. Bunlar;

  • Yanlış eşik (Treshold) değerleri.

Eşik (Treshold) değerlerini üreticiler belirlerler. Çoğu firma hem garantili olarak değiştirilen disk sayısını azaltmak hem de bazı ticari kaygılarla eşik değerlerini yanlış yorumlayabiliyorlar. Bu yanlış bir kelime oldu, bilerek yanlış belirliyorlar diyelim. Şöyle ki;

Normalde eşik değeri yedek sektörlere göre belirlenir. Her diskte belirli sayıda yedek sektör bulunur. (Spare Area) Bir sektör hasar görüp artık işlevini yerine getirmez duruma geldiğinde o sektör devre dışı bırakılır ve yerine yedek sektörlerden biri geçer. (Buna Reallocate deniyor.)


Burada bir not düşeyim; İşletim sistemi bunu bilmez. Değişimi disk yapar. Bozuk sektör diyelimki işletim sistemi tarafından 35. sektör olarak biliniyor olsun. Değişim yapıldıktan sonra işletim sistemi 35. sektöre ulaşmaya çalıştığında disk "Al 35. sektör bu!" diyerek işletim sistemine yedek sektörü gösterecektir.

Ancak eşik değeri doğru belirtilmediğinde S.M.A.R.T.'ın uyarı verme eşiğine ulaşma şansı olmaz. Çünkü örneğin 1 000 yedek sektör olsun. Eşiğe ulaşmak için ise 1 200 sektörün bozulması gereksin. Bu durumda daha eşiğe ulaşamadan yedek sektörler tükenecek ve S.M.A.R.T. hiçbir hata vermediği halde disk sorun çıkarmaya başlayacaktır.

  • Yanlış algoritmalar

Yukarıda da bahsettiğim üzere bütün firmalar ham veriyi değerlendirmek için kendi algoritmalarını kullanıyorlar. Bu algoritmalar çoğu zaman S.M.A.R.T. değerlerinin, diskin gerçek durumundan daha iyi görünmesini sağlıyorlar. Bu da çöken ama S.M.A.R.T. değerlerinde sorun olmayan disklerle karşılaşmamaıza sebep oluyor.

  • Değerlerin (Attributes) kendi başına değerlendirilmesi


Öncelikle her değer farklı öneme sahip. Bazı değerler son derece önemliyken bazılarının neredeyse hiçbir önemi yok.

Diğer yandan her değerin kendi başına değerlendirilmesi bir sorun. İki veya daha fazla değerin eşik değerine ulaşmaması ama yaklaşması bütün değerlerin OK görünmesine sebep olur ama gerçekte diskin durumu çok kötü olabilir. Bir de ilk 2 maddeyi düşünürseniz durumun vehametini anlayabilirsiniz.

  • Kullanıcının bilgilendirilmemesi

Bozuk sektörlerin sağlam yedek sektörlerle değiştirilmesi işlemine reallocate dendiğini söylemiştim. Bu işlem sırasında işletim sistemi geçici bir süre tepki vermeyebilir ve donmuş gibi davranır. Olan bitenden bi haber kullanıcı bu durumdan sıkılabilir ve bilgisayarı zorla kapatabilir. Çok sık karşılaşılan bu durumun sonucu maalesef iyi olmuyor ve sağlam yedek sektörlerde kullanılamaz hale gelebiliyor. Halbuki kullanıcı bilgilendirilse bu hataların önüne geçilebilecek.

Bad Sector nedir?


Çoğunuz Bad Sector terimini mutlaka duymuştur. Bad Sector hem okunamayan hem yazılamayan sektörlere verilen addır. Bu sektörler yularıda da anlattığım üzere S.M.A.R.T. tarafundan tespit edildiklerinde içerdikleri veri okunmaya çalışılır ve okunabiliyorsa veri yedek sektörlerden birine kopyalanır. Ardından bu bozuk sektör kullanılamaz olarak işaretlenir ki işletim sistemi ulaşamasın.

Bazen bozuk olduğu tespit edilen dektördeki verileri okumak sorun olur. Bu durumda bozuk sektörle yedek sektörün yer değiştirmesi işlemi çok uzun süreler alabilir. Bu esnada yukarıda anlattım bilgisayar donabilir cevap vermeyebilir.

Eğer bad sektor sayısı yedek sektor sayısını geçmemişse yapılan taramalarda bad sektor bulamazsınız çünkü disk bad sektörlerin üzerini toprakla örtmüş ve yerine yedekleri kullanıma sokmuştur. Ancak yedek sektörler bitip bad sektor oluşmaya devam ediyorsa o zaman taramalarda bad sektorler görünmeye başlar ki artık her şey için çok geçtir.

Sonuç;


Her ne kadar yukarıda olumsuzları bir sürü olumsuzluk saymış olsam da hiç bir belirti göstermeden bir diskin çöküp kullanılamaz hale gelmesi çok çok nadir bir durumdur. Genelde sadece düşürme, darbe alma, ani güç dalgalanmaları gibi sebeplerle oluşurlar.

Çoğu disk tamen çökmeden aylar önce sinyaller vermeye başlar. S.M.A.R.T. değerlerinde sorunlar ve sık sık yavaşlama donma şikayetleri oluşur. Bu tiürden bir diske bir format atmak bile saatler sürebilir. Bunlar oluyorsa hemen kritik verilerinizi yedekleyin ve garantisi varsa servise gönderin. Yoksa bir elektronik satıcısının yolunu tutacaksınız maalesef.

S.M.A.R.T. değerlerini nasıl görürüm?


Bunun için bir 3. parti araç kullanmanız gerekir. Bu kabiliyete sahip onlarca araç var. Dilediğinizi kullanabilirsiniz. Ben burada örnek olarak HDTune aracını anlatacağım. Aracın 15 günlük denem sürümünü buradan indirebilirsiniz.

Programı indirip kurduğunuzda Health sekmesine bakarsanız S.M.A.R.T. değerlerini görebilirsiniz. Bütün değerlerin "ok" olması gerekiyor. Sarı veya kırmızı renklerle vurgulanmış hatalar varsa tavsiyem işletim sistemini kapatmadan verilerinizi yedekleyin.


S.M.A.R.T. Değerleri


Altta S.M.A.R.T. değerlerini 2 farklı tablo halinde verdim. 1. tablo benim tecrübelerime göre en sık karşılaşılan ve diskin çökmesine debep olan hatalar. Bunlar diskinizde varsa yapabileceğiniz bir şey yok diski değiştireceksiniz. Bu değerler kadar önemli olan başka değerlerde var tabii ama ben açıkçası şimdiye kadar hiç karşılaşmadım.

2. tabloda ise sık sık karşılaşacağınız diğer değerler var. Malum S.M.A.R.T.  değerleri bunlarla sınırlı değil ama hepsini yazmanın da bir anlamı yok. Yer vermediklerim ya çok nadir karşılaşılanlar ya da sadece belirli bir üreticiye özel olan değerler.


Kritik Değerler (Attributes)
ID Değer (Attribute) Adı Açıklama
05 Reallocated Sectors Count Yukarıda da açıkladım. Bad sektörlerin yerine kullanılan yedek sağlam sektörlerin sayısı. Bu sayısı eşiğe ulaştığın diskin artık değiştirilme zamanı gelmiş demektir.
10 Spin Retry Count Bu değer diskin varsayılan hızına (Örn. 5400 RPM) ilk seferde ulaşamadığı denemeleri gösterir. Bu değerde problem olması diskte mekanik sorunlar olabileceğinin belirtisidir.
11 Calibration Retry Count Bu veri okuyucu kafanın yanlış konum aldığı olayları gösterir. Şöyle ki; Kafanın atıyorum 55. sektöre gitmasi gerekiyor ve buna göre harekete geçiyor. Ancak bir de bakıyor ki durduğu yer 56. sektör. Normalde ilk denemede 55. sektörü kesin olarak bulması gerekirdi. Bu değer de diskte mekanik sorunlar olabileceğinin bir habercisi.
196 Reallocation Event Count Reallocated Sectors Count'a benzer bir değer. Ancak burada sektör sayısı değil olay sayısı belirtiliyor. (Bir olayda birden fazla sektör yenisi ile değiştirilebilir. Böylece bad sektörler varsa bunların zaman içinde yavaş yavaş mı oluştuğu yoksa tek bir olay da mı oluştuğu anlaşılabilir. Örneğin Reallocation Event Count değeri 1 birim kötüye gitmişken Reallocated Sectors Count değeri 100 birim kötüye gitmişse diskin başına kötü bir olay geldiği (Örn. darbe) anlaşılabilir)
197 Current Pending Sector Count Değiştirlmeyi bekleyen ve hakında karar verilmemeiş sektörler. Yukarıda bahsetmiştim; bir sektörde sorun olduğunda önce veri okunmaya çalışılır ve okunduğunda yedek sektörlerle değiştirilir. Ancak okunamıyorsa bir süreliğinde yeniden denenmek üzere bekletilir. Disk bu esnada bu sektörün sorunlu olduğunu aklında tutar ve ara ara tekrar kontrol eder.


ID Değer (Attribute) Adı Açıklama
01 Read Error Rate Bunun bir anlamı yok çünkü her üretici bu değeri kafasına göre belirliyor ve kullanıyor.
03 Spin-Up Time Diskin 0'dan maks. hızana ulaşana kadar geöen zaman. Örneğin 5400 RPM disk için; diskin hareketsiz olduğu durumdan 5400 RPM dönüş hızına ulaşana kadar geçen zaman
09 Power-On Hours Counts Diskin kullanım ömrü boyunca toplam çalıştığı saat. (Bazı üreticiler bunu dakika olarak verebilirler) Varsayılan olarak bir diskin minimum ömrü 5 yıldır. (24 saat çalıştığı durumda) Yani, diskinizde bir sorun çıkmadığı sürece 43 800 saat boyunca kullanabilirsiniz.
12 Power Cycle Count Diskin kullanım ömrü boyunca kaç defa kapanıp açıldığı.
174 Unexpected power loss count Beklenmeyen kapanmaların sayısı. Örneğin bilgisayarınız dondu ve fişini çekerek ya da güç düğmesini basılı tutarak kapattınız. Bu bir beklenmeyen kapatmadır.
188 Command Timeout Disk cevap vermediği için yarıda kalan işlem sayısı. Normalde bunun değerinin 0 olması gerekir. Sıfırdan yüksekse güç kaynağı sorunu ya da sata kablolarında bir temassızlık sorunu vardır.
198 Uncorrectable Sector Count veya Offline Uncorrectable Sector Count veya Off-Line Scan Uncorrectable Sector Count Okuma veya yazma esnasında karşılaşılan ve düzeltilemeyen hata sayısı. Bu değerin artması disk yüzeyinde veya mekanik sistemde bir hasar olduğu anlamına gelir.
199 CRC Error Count Arayüz sorunlarından dolayı oluşan hatalar.

Yorumlar

Twitter

Facebook

İzleyiciler

Rastgele

item