Устройства ввода ошибок FBD-памяти для компьютеров IBM System

, ведущий инженер-тестировщик, IBM 21.02.2007 Создайте модуль памяти с двухрядным расположением выводов (dual in-line memory module - DIMM), способный вводить ошибки в модули памяти с полной буферизацией (fully buffered DIMM - FBD) серверной системы IBM System x для облегчения тестирования надежности сетей, grid-сетей и центров обработки данных. Примечание редактора: Приведенные ниже инструкции предназначены для опытных инженеров. Если у вас нет опыта в распайке модулей памяти - не пытайтесь создать это устройство. Также настоятельно рекомендуется прочитать эту статью полностью перед попыткой выполнить какое-либо из описанных здесь действий. Читатель принимает на себя всю ответственность за результаты выполнения этих инструкций. Введение: Зачем вводить ошибки? Иногда необходимо ввести ошибки в компьютерную систему, для того чтобы протестировать надежность, готовность и обслуживаемость ваших серверов. Именно в этом контексте я представляю краткое обсуждение модулей памяти с двухрядным расположением выводов с полной буферизацией (FDB), их применение в серверах System x ® и действия, необходимые для изменения DIMM-модуля таким образом, чтобы он был способен генерировать одно- и двухразрядные ошибки. Приведенное здесь обсуждение применимо к новым модулям FBD-памяти, которые поступили на рынок несколько месяцев назад. Как я опишу ниже, FBD-память отличается от памяти с удвоенной скоростью передачи данных (double data rate - DDR) 2-го поколения (DDR2) по нескольким признакам. Если вы интересуетесь аналогичной методикой вода ошибок с использованием стандартной DDR2 DIMM, прочтите статью " ". FBD обозначает DIMM с полной буферизацией (FB-DIMM). Это дополнительный уровень, добавленный к DDR2-памяти и увеличивающий пропускную способность путем сериализации данных, хранящихся в DRAM перед передачей их в контроллер памяти. Сериализация выполняется микросхемой, расположенной в центре DIMM-модуля и называемой буфером расширенной памяти (advanced memory buffer - AMB). Эта новинка вызвала появление полностью нового протокола, который потребовал добавления новых CRC-проверок (Cyclic Redundancy Check) к кодам коррекции ошибок, уже существующих в интерфейсе DDR2. Таким образом, кроме классических дефектов данных, адреса и кода коррекции ошибок (error correction code - ECC), существующих в DDR2-памяти, здесь имеются новые условия для возникновения ошибок, которые тоже должны быть проверены. Однако эти условия (аналогично дефектам дорожек и CRC) не легко реализовать в устройстве, созданном из модифицированного FB-DIMM. Для корректного ввода ошибок в поток данных вы должны создать способ доступа к линиям данных, расположенных между DDR2 DRAM и микросхемой AMB. Поскольку AMB выполнена в корпусе типа "массив шариковых выводов" (ball grid array - BGA), большинство DIMM-модулей имеет межслойные отверстия (с соответствующими им контактными площадками), которые могут использоваться для тестирования и, следовательно, для создания дефектов. Шина DDR2 взаимодействует с DRAM, которые составляют только один DIMM, что отличается от предыдущей архитектуры памяти, в которой все DIMM на сервере располагались на одной и той же шине. Как следствие этого, линии данных (обозначенные как DQ[0:63] в спецификации AMB) могут быть заземлены для эмуляции дефектов битов данных. Требуется, чтобы система работала без каких-либо ошибок до тех пор, пока тестировщик не решит создать их. Другими словами, память должна работать как нормальный DIMM до тех пор, пока не будет переключен тумблер, разрешающий ввод ошибок во время работы OS или во время диагностики. В противном случае система будет просто загружаться, обнаруживать дефект памяти (если код BIOS POST функционирует корректно) и запрещать ее. Ошибки, вводимые устройством Вот все ошибки, которые вы будете вводить в систему, и некоторые подробности о каждой из них: Одноразрядные ошибки . Этот тип ошибок обычно возникает при повреждении линий данных, выходящих из микросхемы памяти в DIMM. Они вызываются несколькими причинами, такими как физическое повреждение, перегрев или электростатический разряд (electro-static discharge - ESD). Исправить такую ошибку и уведомить пользователя о поврежденном DIMM-модуле могут только те системы, которые поддерживают контроль ECC. Многоразрядные или двухразрядные ошибки . По тем же причинам, что и в предыдущем случае, многоразрядные или двухразрядные ошибки возникают при повреждении более одной линии данных. Эти ошибки не восстанавливаются, если только система не работает с определенной конфигурацией памяти, спроектированной для решения этой проблемы (например, зеркалирование). ВАЖНО: Описанные здесь технические приемы должны выполняться исправными инструментами тем, кто способен проводить микроскопическую пайку. Неправильное создание этого устройства может привести к поломке DIMM-модуля и к повреждению системы, в которую он вставлен. Прочитайте внимательно всю статью и осмыслите все действия перед началом работы над своим собственным устройством. Возьмите DIMM-модуль памяти и убедитесь в том, что он находится в рабочем состоянии, путем подключения в сервер и проверки нормальной загрузки и работы операционной системы без появления ошибки в журнале ошибок или исключения модуля из работы. Завершения процедуры POST недостаточно. Если DIMM-модуль просто сбоит, POST необязательно обнаружит проблему, а загрузка Windows® может вызвать синий экран. Причина этого заключается в том, что память не тестируется тщательно во время выполнения процедуры POST. Выясните, какие AMB-выводы сделаны доступными через межслойные отверстия на обратной стороне DIMM. Теперь определитесь, какие выводы будут "повреждаться". Попытайтесь выбрать DQ-выводы, находящиеся подальше. Необходимы два тумблера для того, чтобы можно было генерировать SB-ошибку (при переключении одного тумблера) и DB-ошибку (при переключении обоих тумблеров). Обычно можно использовать выводы A4 (DQ26) и A11 (DQ10) AMB. Если они закрыты, просмотрите спецификацию AMB для определения других возможностей. Найдите пару контактных площадок, соединенных со слоем заземления в DIMM. По моему опыту в большинстве модулей памяти слой заземления расположен в среднем слое. Следовательно, хорошим методом обнаружения является поиск развязывающих конденсаторов, подключенных к слою питания (обычно на верхнем или нижнем слоях), видимому через защитный слой, и контактной площадки с отверстием (которое соединяется со слоем заземления). Припаяйте четыре кусочка как можно более короткого провода ко всем четырем контактным площадкам, рассмотренным выше. ВНИМАНИЕ: НЕ ИСПОЛЬЗУЙТЕ ПАЯЛЬНИК С ТЕМПЕРАТУРОЙ БОЛЕЕ 500 ГРАДУСОВ ПО ФАРЕНГЕЙТУ . Иначе можно повредить или отделить контактную площадку и оставить следы на DIMM. Более низкая температура облегчает формирование паяного соединения так, чтобы площадка соединилась с проводом. Высокая температура делает припой жидким, а низкая позволяет некоторым участкам припоя оставаться в твердом состоянии (это полезно для удлинения соединения и легкого присоединения провода). Разместите тумблеры на DIMM-модуле. Используйте эпоксидную смолу для их фиксации. На показано, как это может выглядеть. Устройство готово. Вставьте его в сервер, проверьте, что операционная система может загрузиться, и запустите программу тестирования памяти. Затем включите один тумблер. Это вызовет возникновение одноразрядной ошибки - система должна остаться в рабочем состоянии. Подождите 15 секунд и включите второй тумблер. Система должна перезагрузиться, если она использует линейную конфигурацию памяти. Использовать это устройство довольно просто. Каждый тумблер подключен к отдельной DRAM и, в результате, генерирует одноразрядную ошибку. Включение обоих тумблеров генерирует многоразрядную ошибку. Устройство ввода ошибок, представленное в данной статье, позволяет генерировать корректируемые и некорректируемые ошибки памяти. Создание этих ошибок полезно при проверке поведения как одиночной системы, так и корпоративной среды, которая полагается на решения, предусматривающие динамическое переключение серверов, на которых обнаружены такие неисправности. Устройство также полезно для проверки решений по управлению системами, которые уведомляют администраторов и другой персонал об этих важных критических условиях, где может понадобиться немедленная реакция для поддержки готовности сервера к работе. Научиться " ": Прочтите данную статью, если интересуетесь аналогичными методиками ввода ошибок с использованием стандартной памяти DDR2 DIMM. : Хотите знать больше? В разделе developerWorks IBM Systems размещено множество информативных статей и учебных руководств начальной, средней и повышенной сложности. : Следите за техническими событиями и вебтрансляциями на developerWorks. Получить продукты и технологии : Разработайте ваш следующий проект с использованием программного обеспечения, доступного для загрузки непосредственно на сайте developerWorks. Обсудить .

Hosted by uCoz