Sie sind nicht angemeldet.

Lieber Besucher, herzlich willkommen bei: GentooForum.de. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

21

21.06.2010, 21:02

Okay, moment.

In einem Anflug von Verzweiflung habe ich, nachdem ich die Kiste komplett auseinander genommen, das Board auf Schäden untersucht und komplett abgestaubsugt habe und immer noch das selbe Problem habe, dann doch nochmal Ubuntu gestartet.

Was ich bisher sagen kann:

Um eine Festplatte mit badblocks zu untersuchen und diese auch gleich zu löschen habe ich ein Verzeichnis unter Gentoo versucht auf eine andere Platte zu kopieren. Dieser Vorgang führte immer zu einem besagten Absturz. Unter Ubuntu rannte der Kopievorgang vom Start zum Ziel ohne Absturz.

Ich will jetzt mal nicht zu früh schreien, aber es könnte vielleicht doch ein Zufall sein. Ich halte es für möglich, dass bei meinem ersten Versuch mit Ubuntu die Kiste wegen zu hoher Temperatur abgeschmiert ist. Da ich seither aber mehrfach sauber gemacht habe würde dieser Grund für Ubuntu wegfallen. Das würde dann doch auf Gentoo als Fehlerquelle hinweisen.

Jetzt die 1.000.000 € Frage. Was kann ich denn an Gentoo versaut haben das es den Kernel zum Absturz bringt?

22

21.06.2010, 21:34

Jetzt die 1.000.000 € Frage. Was kann ich denn an Gentoo versaut haben das es den Kernel zum Absturz bringt?
Hm.., gute frage..
nutzt du zufällig einen proprietären ATI Catalyst Grafik Treiber? ;)

Ansonsten hab ich sowas bisher nur mit defekter Hardware geschafft...
(oder auch inkompatible RAM Module)

23

21.06.2010, 21:38

Nein ich benutze den nVidia treiber. Der macht bei meiner Karte mehr Sinn ^^.

Aber ich muss meine Vermutung zurück nehmen. Es hat zwar gedauert aber die Mühle ist dann mit Ubuntu doch abgestürzt.

Sieht also alles nach dem Board aus.

24

22.06.2010, 17:38

Was mir einfach nicht in den Kopf will, anscheinend sind Festplattenoperationen mit ein grosses Problem, denn wenn ich beispielsweise Memtest+ laufen lasse läuft das die ganze Nacht ohne Crash. Im Regelfall kann ich das Ding auch Stundenlang im GDM stehen lassen ohne das er abstürzt. Ich kann auch nie vorhersagen wann die Kiste den Geist aufgibt, denn gestern konnte ich beispielsweise zwei Stunden durchgehend Warsow spielen.

Die Frage die ich jetzt habe ist die. Ich habe keine Wärmeleitpaste zwischen Kühler und Prozessor gemacht, mangels Vorhandensein. Die Temperatur ist laut Sensoren nicht über 60 °C gestiegen. Kann es wirklich daran liegen?

25

22.06.2010, 18:19

Die Frage die ich jetzt habe ist die. Ich habe keine Wärmeleitpaste zwischen Kühler und Prozessor gemacht, mangels Vorhandensein. Die Temperatur ist laut Sensoren nicht über 60 °C gestiegen. Kann es wirklich daran liegen?
Es könnte, Ja!
Bei meiner aktuellen AMD CPU (Opteron 185) wäre zb 65°C schon das Todesurteil...
das kann aber bei anderen CPU durchaus anders sein.
Ich würde DRINGENDST empfehlen Wärmeleitpaste zu verwenden, wenn du Pech hast kannst du dir ohne Wärmeleitpaste auch schnell mal die CPU Überhitzen --> Todesurteil.

Wärmeleitpaste gibt es in kleinen Tuben für ca. 5€ in jedem Computerladen.

26

22.06.2010, 23:44

Das mit der Wärmeleitpaste werde ich morgen versuchen, hab heute keine mehr bekommen.

Aber mal eine Frage, was geanu sagen denn die Werte von lm_sensors aus?

27

23.06.2010, 00:33

Die Werte der Sensoren sind eher Durchschnittlswerte der letzten 1 bis 5 Sekunden. Die Temperaturen im inneren des CPU Chips können sich aber je nach Belastung in Bruchteilen einer Sekunde ändern, besonders wenn der Kühlkörper nicht plan oder ohne Wärmeleitpaste thermisch angebunden ist kann es da zu beachtlichen Abweichungen kommen.

Ich würde dir empfehlen den Rechner so ohne korrekte Kühlung gar nicht mehr anzuschalten, ohne zuverlässige Kühlung ist so ein Chip auch sehr schnell mal kaputt (durchgebrannt)

28

23.06.2010, 14:22

So, also ich hab mal Paste dazwischen geschmiert und siehe da, die Core Temperatur steigt selbst unter Last kaum kaum über 40 °C. Leider ist die Mühle dennoch schon einmal abgestürzt. Ich habe sie jetzt mal Laufen mit Anwendungen, welche die Festplattenaktivität steigern. Beispielsweise lasse ich mit badblocks eine Festplatte überprüfen. Bis jetzt läuft die Fuhre noch, ich bin mal gespannt wie lange.

Insofern es auch daran nicht gelegen hat bleibt wohl nur noch das Board, es sei denn das angeschlossene USB Geräte noch ein Grund sein könnten.

Naja mal die Daumen drücken.

29

23.06.2010, 15:48

Insofern es auch daran nicht gelegen hat bleibt wohl nur noch das Board, es sei denn das angeschlossene USB Geräte noch ein Grund sein könnten.
Jo ok, USB Geräte sollte man evtl. soweit wie möglich erst mal abziehen. Aber meine Vermutung geht immer noch richtung Mainboard, oder evtl. auch Netzteil.
Noch mal nachgefragt:
Ist der PC ansonsten irgendwie außergewöhnlich tuned , sprich übertaktet, zu scharfe RAM Settings im BIOS gesetzt oder ähnliches?
falls ja, dann sollte man da erst mal auf die Standard defaults zurück gehen.

Ansonsten würde ich doch noch mal versuchen etwas hilfreiches in den Logs zu finden.
bell hatte ja schon im ersten Beitrag empfohlen mal

Quellcode

1
cat /proc/kmsg
mitlaufen zu lassen, gab es dort inzwischen irgendwelche Hinweise/Ergebnisse?

Und auch /var/log/messages sollte stets hilfreiche Hinweise geben. Du sagtest aber das gibt es bei dir nicht?
Hm.., hast du keinen Systemlogger installiert?
Standardmäßig wird hier
app-admin/syslog-ng
mit app-admin/logrotate
empfohlen, damit sollte dann auch in /var/log/messages geloggt werden.

Zusätzlich würde ich auch noch app-admin/mcelog empfehlen, die logs finden sich dann in /var/log/mcelog
hierfür muss aber auch im Kernel der Support aktiviert sein, für eine AMD CPU zb
# zgrep -i mce /proc/config.gz

Quellcode

1
2
3
4
5
CONFIG_X86_MCE=y
# CONFIG_X86_MCE_INTEL is not set
CONFIG_X86_MCE_AMD=y
CONFIG_X86_MCE_THRESHOLD=y
# CONFIG_X86_MCE_INJECT is not set

30

23.06.2010, 16:07

Okay. Auch wenn es den Anschein macht das die Kiste nun deutlich länger läuft (badblocks lief über 1:30 Stunden) stürzt die Mühle trotzdem noch ab. Die Temperatur steigt dabei nnicht über 40 °C. Daher gehe ich davon aus, es ist nicht die Temperatur des Prozessors.

Wenn also keiner eine Alternative hat gehe ist stark vom Board aus.

31

23.06.2010, 16:10

Du hast im ersten Beitrag geschrieben, dass die Tastatur-Lämpchen anfangen zu blinken. Das beideutet, der Kernel hat bewusst entschieden anzuhalten. Es muss also auch eine Fehlermeldung gegeben haben. An die müssen wir ran, sonst fischen wir weiterhin im Dunkeln. Richte also wie Josef es schon vorgeschlagen hat alle möglichen Logging-Tools ein.
Du schreibst, der Fehler passiert am meisten im Spiel Warsow. Kann man das Spiel vom Fullscreen auf "Fenstermodus" umstellen? dann könntest Du in der xterm das kmsg abgreifen.
An sonsten, evtl. funktionieren nach Absturz die Magic SysRq Keys noch. Richte diese auch mal mit ein.
Auch wenn Open-Source kostenlos ist, ist sie nicht umsonst. Dein Preis ist Dein Engagement und Mitarbeit an OS-Projekten.
Wenn Du keinen Preis bezahlen willst, bist Du die Ware. Und das ist nicht Open Source, geschweigedenn frei.

32

23.06.2010, 23:50

Also wo ich kmsg her bekomme konnte ich nicht wirklich in Erfahrung bringen.

Aber okay, ich habe auf jeden Fall den Erfolg das die Kiste schon eine ganze Zeitlang länger hält. Aber dann bricht der Kernel leider immer noch ab. Ich hänge "message" mal dran vielleicht sagt das ja jemandem etwas.
»Diabolus« hat folgende Datei angehängt:
  • messages.txt (86,54 kB - 6 mal heruntergeladen - zuletzt: 03.07.2010, 08:03)

33

24.06.2010, 23:16

So, ich komme zwar mit den logs nicht so wirklich rund, aber ich grenze das Problem immer mehr auf Festplattenaktivitäten ein. Die Temperatur von Core0 und Core 1 steigen nie wirklich über 40 °C, ich habe alle externen Geräte abgeklemmt und SecondLife lief vorhin weit über eine Stunde problemlos.

Will ich aber eine Festplatte formatieren, oder grössere Datenmengen kopieren schwenkt der Kernel das weisse Fähnchen. Dabei spielt es keine Rolle ob ich von USB-Festplatte auf SATA kopiere oder auf USB-Stick, oder ob von IDE auf Stick oder extern.

Hilft das irgendwie bei der Fehlerquellenanalyse?

34

25.06.2010, 00:48

Puhh.., aus der /var/log/messages ist, soweit ich gesehen habe, nichts ersichtlich was ein Hinweis auf das Problem sein könnte.

35

25.06.2010, 07:34

Ich denke, es ist jetzt auch schon ohne Logs klar, dass der Fehler irgend wo im Storage System ist. Sprich Festplatten, Kabel zu der Festplatten oder der SATA/IDE Contoller (auf dem Board).
Das einzige, was man Software-technisch noch machen kann ist: den Sata Kontoller auf AHCI umzustellen, falls dieser es unterstützt.
Falls das nichts bringt musst Du anfangen die Hardware-Komponenten auszutauschen (Kabel, HDD, Board).
Auch wenn Open-Source kostenlos ist, ist sie nicht umsonst. Dein Preis ist Dein Engagement und Mitarbeit an OS-Projekten.
Wenn Du keinen Preis bezahlen willst, bist Du die Ware. Und das ist nicht Open Source, geschweigedenn frei.

36

25.06.2010, 16:51

Also es hat definitiv mit den Speichermedien zu tun. Die Kiste läuft jetzt schon über 12 Stunden ohne Absturz oder sonstige Probleme. Dumm finde ich eben, warum es egal von welchen Geräten ich wohin kopiere, oder ob ich extern eine Platte mit badblocks teste oder Intern. Es spielt also keine Rolle, ob von USB auf IDE oder IDE auf SATA oder SATA auf USB.

Ich teste es mal mit anderem Speicher. Vielleicht liegt es ja daran, denn bei solchen Operationen muss das Material ja auch erst durch den Arbeitsspeicher. Ich könnte mir vorstellen, dass der Speicher bei grossen Paketen irgendwann die ostfrisische Nationalflagge hisst. Denn das ist auch der einzigste Punkt, wo es mit Warsow zusammenhängen könnte, denn das Spiel an sich hat während dem Spielen selbst keine wirkliche Festplattenaktivität.

Gibt es ein Tool das im laufen Betrieb mal viel Material in den Arbeitsspeicher schaufelt?

37

26.06.2010, 00:33

Ein recht guter RAM-Test ist zb auch einen "dicken" Kernel zu Kompilieren,
oder auch den gcc neu zu bauen,
auch das Paket boost beansprucht den RAM beim kompilieren recht stark.
Sprich dies sind Beispiel Pakete die als ehestes aussteigen wenn die Hardware nicht OK ist.

Ansonsten stimme ich den letzten Post von bell nur zu, ich denke du wirst dich um neue Hardware kümmern müssen.. ;(

38

26.06.2010, 01:14

Neu e Hardware nach 3 Jahren wäre ja nicht das Schlimmste aber welche das ist das was ich wissen will. Kaufe ich ein neues Board und am Ende ist es doch der Speicher? Kaufe ich neuen Speicher und am Ende ist es das Board. Deshalb ja das ganze hin und her von mir.

Achso ich hab vergessen. Die Mühle ist jetzt 24 Stunden durch gerudert. Keine extere Hardware angeschlossen ausser dem Headset, keine grossen Aktionen auf der Festplatte, aber zwei mal SecondLife über einige Stunde, auch Firefox war durchgehend aktiv.

39

26.06.2010, 02:45

Puhh.., mit den bisherigen Infos wird es nur sehr sehr schwer bis eher unmöglich sicher sich zu sagen woran es nun tatsächlich liegt.
Normal wird der Kernel auch immer noch eine Fehlermeldung schreiben, zumindest nach meinen bisherigen Erfahrungen mit defekter oder inkompatibler Hardware wie zb RAM oder auch HDD Controller
versuche da doch bitte mal was zu finden, lasse zb in einer Shell ein

Quellcode

1
# tail -f /var/log/messages
mitlaufen, kommt es zb Absturz, dann schaue was die letzte Meldung ist. (sofern noch möglich)
Auch die anderen schon genanten Tipps zum loggen solltest du mal versuchen umzusetzen, wie gesagt, idR gibt es immer eine "letzte Message" des kernels,
diese wäre hilfreich.

Ansonsten kann man eigentlich nur, wie auch schon von bell genannt, anfangen einzelne Hardware Komponenten auszutauschen,
sind keine Test-komponenten verfügbar dann wird es schwierig...

40

26.06.2010, 03:13

Nun ich habe jetzt mal meine externe Festplatte angeschlossen und eine Runde Warsow gespielt. Kein Absturz. Auch läuft Firefox immer noch und nun auch Thunderbird. Zudem habe ich gerade eine Folge He-Man auf Youtube geguckt und lasse aMule noch laufen.

Bisher lebt er noch.

Grundsätzlich bin ich ja von neuer Hardware keineswegs abgeneigt. Ich meine ich habe einen AMD Sempron. Dagegen ist nichts zu sagen aber meine GeForce 9800 GT bringt auf meinem Rechner mit Gentoo bei FlightGear beispielsweise nicht annähernd die Power wie bei einem Bekannten, welcher die gleiche Karte und auch Gentoo benutzt aber einen Quad-Core Prozessor hat.

Naja mal schauen. Vielleicht hatte meine Mühle ja nur eine Erkältung und läuft jetzt wieder. Ich habe auf einer Seite gelesen, dass es beim Auftragen von frischer Wärmeleitpaste ab und an dazu kommen kann, dass der Prozessor noch 2-3x auf Temperaturen kommt, wo das Board abschaltet. Das würde zu meinem Phänomen bisher ja passen. Wie ja schon gesagt wurde, Temperaturspitzen werden von den Sensoren, bzw. der Applet-Ausgabe nicht in Echtzeit angezeigt. Das wäre mir im Moment natürlich am liebsten.

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »Diabolus« (26.06.2010, 10:46)