パスワードを忘れた? アカウント作成
2311 story

DNS障害で落ちてました 56

ストーリー by Oliver
m(_ _)m 部門より

今朝未明から先程、20時30分頃(いずれもJST)までslashdot.jpのDNSが引けず、アクセスができない状態が続いていました。現在は元通りに復旧していますが、利用者の皆さんに心配と迷惑をおかけしたことをお詫びします。

所在地の法定点検による停電に伴い23:45にslashdot.jpのプライマリDNSサーバをシャットダウンしたことがDNS停止のきっかけになりました。通常はこういう場合に備えて、複数のDNSサーバを登録するもので、slashdot.jpでも合計3個のサーバを登録しています。しかし、恥ずかしい事に、先日の引っ越しの際に変更になったセカンダリDNSサーバのIPアドレスをJPNICのWHOISデータベースに登録する作業依頼がISPとの伝言ゲームの途中で消失してしまっていた。その結果、プライマリが落ちた瞬間に有効なDNSサーバがなくなり、今回の事態につながりました。WHOIS DBの更新は数日かかるので、プライマリの停電が終り、再起動するのを待つしかありませんでした。この間はDNSの情報がキャッシュに残っていた場合もしくはIPアドレス直でのみアクセス可能でした。あまりにもマヌケで泣きたい気分です。ごめんなさい。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • 当然、みんな (スコア:2, 参考になる)

    by shunak (3585) on 2002年02月17日 21時57分 (#63720)
    /etc/hosts に登録しているよね。

    61.215.208.13 slashdot.jp /.

    ってさ。
  • by Anonymous Coward on 2002年02月17日 22時16分 (#63731)
    このくらいは、世界中のあちこちで毎日たくさん起きていることですよね。気にしない気にしない。

    最近、メールとかも「落ちててつながらないんだけど。。。」というハナシも多いです。みんな「インターネットって100%の保証がされているシステムじゃないんだ」ということを忘れてしまっているように思います。特に初心者はね。

    メールがほんの1日つながらない、ということや、Webが1日落ちてる、ということぐらいで、本来はブーブー言うようなことじゃないと思います。もっとも、これはサイトやサーバを置く業者も問題で「24時間いつでも!」なんて言っているわけ。自分の責任じゃなくても、誰かがアクセスできない状態になる場合は多々考えられるはずなのに、使っているほうからすれば、詐欺に聞こえるような言い方だよね。で、そういうことは表立っては言わず、こっそりと「定款」に「そういうときは、自分のせいじゃないんだから責任は持ちません」なんて書いてあるわけだからね。

    わからない人間にだまして使わせたところで、しっぺ返しがいずれきますよ。もっと、誠実にやらなくちゃね。
    • by yoosee (196) on 2002年02月17日 23時52分 (#63768) ホームページ 日記
      > 最近、メールとかも「落ちててつながらないんだけど。。。」というハナシも多いです。みんな「インターネットって100%の保証がされているシステムじゃないんだ」ということを忘れてしまっているように思います。特に初心者はね。

      いえ、本当は 100% とは行かないまでも、可能な限り高い可用性を保てるようにサービスは提供されるべきなんです。
      バグや予告なしの停止が仕方がないと受け入れられちゃうのがコンピュータやインターネットという業界の良くないところだと思う。

      主要交通機関や病院のシステムや電話回線や電気ガス水道なんかが不用意に止まってくれちゃ普通の人はたまらないでしょ?

      # まぁ現実問題として「そういうこともある」と各々が認識しておくのは現状ではしょうがないことだとは思うけどね。
      親コメント
      • # まぁ現実問題として「そういうこともある」

        そうなった時はいかにスムースに復旧させられるかが技術者の腕の見せ所ではないかと
        親コメント
        • いかにそのような状態を作らないようにできるかが技術者の腕の見せ所ではないかと。
          • 同意。でも完璧なものは存在しないのでそれと合わせて最悪の事態の事も想定する事は必要かと。
            親コメント
            • 要は冗長構成等による Fail しないシステムと、それでも Fail した場合の速やかな復旧が大事ってことで。
              前者はシステマティックに組むことも出来なくないけど、後者はつまりが予想外の事態と言うことなのでなかなか難しいんですよね。
              トラブルチケットの処理システムや原因特定のための切り分けのシステムなど、それでも効率化する方法は
              無いではないですが最終的には人材に頼らざるを得ない部分が残ってしまう。

              # QoS や SLA を真面目に考え出すとなかなか胃が痛い思いができます。
              親コメント
      •  …というか、昔はE-Mailなんて海外に出したら平気で1週間ぐらい掛かったりしたんですけど^^; そもそも、現在のTCP/IPは当時のハードウェアで無理のない処理が出来るように信頼性を落としたものであって、本来は別なプロトコルに置き換わる予定だったと記憶しております。まぁ、基本設計からしてこうなのだから、あまり信頼性を求めるのは酷なような気がしますけど…ね。(信頼性が高いに越したことはないけど)
        親コメント
      • オンラインシステムが、いわゆるライフラインと同じ程度の信頼性が期待されているというのが、なかなかインターネット業界の「坊や」には理解してもらえないことがあって、結構アレです。

        昔は今まさに主記憶の上にあるプログラムにパッチを当ててまで、落とさないように頑張っていたと言うのになぁ。
        親コメント
        • 最近は多少なりとも理解している人・システムが増えてきたかなぁ。
          増えてきてたらいいなぁという願望ですが…。
          親コメント
        • > オンラインシステムが、いわゆるライフラインと同じ程度の信頼性が期待されているというのが、なかなかインターネット業界の「坊や」には理解してもらえないことがあって、結構アレです。

          100% の正解を求めようとする姿勢と、
          90% の正解を(すばやく安価に)求めようとする姿勢があって、
          単にその違いだと思うんだが。

          で、別に 90% だから商売にならん、というわけでもないし、
          インターネットは 100% を求めるのがそもそも難しいものだと思うね
          (それなら専用線使った方がなんぼかいいでしょ)。

          #例えは悪いが、どこでも引ける(が速くない)ISDNと、
          #引けるとは限らない ADSL の違い、というか。

          > 昔は今まさに主記憶の上にあるプログラムにパッチを当ててまで、落とさないように頑張っていたと言うのになぁ。

          昔のインターネットの感覚(そしてOSSの感覚)なら、
          「一回落としてパッチ当ててまた動かせばいいじゃん」
          だな。
          もしそれが重要なプログラムなら、頻繁に結果を出力するか、
          並列に何台も動かす、という安直なアプローチで対応。

          #それがベスト、とか言ってるんではないよ。
          #(多重化なんてやりたくてもできない状況なんだろうし)
          #考え方の違いを特徴的に挙げてみただけ。

          インターネットはOSSと切っても切り離せないし、
          OSSはリリースしてから信頼性を築くものだし、
          そういう新たな「文化」のひとつなんだろうね。
          企業側からも「違う文化圏に踏み込んでいる」という認識は重要だと思うが、
          いまいち認識不足に思えてならない、と苦言を呈してみるフリ。
          --
          # mishimaは本田透先生を熱烈に応援しています
          親コメント
          • > そういう新たな「文化」のひとつなんだろうね。
            > 企業側からも「違う文化圏に踏み込んでいる」という認識は重要だと思う> > が、
            > いまいち認識不足に思えてならない、と苦言を呈してみるフリ。

            企業云々じゃなくて、利用者がどう思うかが重要かと思うのですが。どんなに「インターネットはそーゆーものだ」「OSSとはそーゆーものだ」と自前の文化を主張しても、一般利用者に受け入れられなければ、「要するに本気で使うものじゃないのね」と言われて終わり。

            プログラム。それもオープンソースなものであっても、既にハッカーの玩具の時代は終わってしまったわけです。だから、むしろオープンソース界の人々こそ意識改革が必要なのではないかと。それとは別に遊戯や趣味としてのプログラミングはあるとは思うけれどね。
            親コメント
      • いえ、本当は 100% とは行かないまでも、可能な限り高い可用性を保てるようにサービスは提供されるべきなんです
        そうは簡単な問題ではなくって「 コストとの兼ね合い 」がどこまで出来るかという問題なのです。システムの安全性とコストはロジスディック曲線(S字曲線)の関係にあります。単純に言えば、ある程度のレベルを超えたら、その先1%を確保するために多大なコストが必要になります。

        これまた単純に言えば、いくらでもお金をかければ安全性が高いシステムを作ることは可能です。が、しかし、 現実には無限にお金はかけれない わけですから、どこかでコストと安全性の妥協点を見つけなければいけません。

        もちろん高信頼性コンピュータシステムなるものはありますが、 残念ながら、 商用の採算ベース に乗るようなものではないということがミソです。

        --
        すずきひろのぶ
        親コメント
        • 確かにインターネット技術(あるいはイントラネット技術)って、低いコストでもそれなりに使えるのでコストパフォーマンスが良いと思われがちですけど、本当に高度の可用性を追求しはじめたら、そんな簡単な話じゃないですよね。
          ある意味昔ながらのリモートホストシステムの方がシビアな条件ではコストパフォーマンスが良いのかも....。
          親コメント
          • >本当に高度の可用性を追求しはじめたら

            逆にいえばInternetって、それをせずに腹八分で抑えておいてあるがゆえに、
            これだけ蔓延することができた、という意味での偉大さを
            (プラスに)評価すべき物だと思っているんですが、合っていますか?

            だから「贅沢いうんじゃねーよ」くらいにしか思っていません俺は。

            #SPAMの排除に躍起になる気になれないのも、同じ理由です(^^;。
            #いたちごっこにエネルギーを費やすくらいなら他の面白いことをしようぜ、と。
            親コメント
    • by Dobon (7495) on 2002年02月19日 2時15分 (#64190) 日記
      IPネットワークに関しては、ほぼ100%保証と考えてよいのでは?
      途中、あやしい経路があっても平気でつながる不思議なプロトコル[笑]ですから。
      (会社でLANを張ったときイエローケーブルで変な接続をしていたのに平気で動いてました…)

      #業者なら回線と機器の二重化は必須だと思いますが…
      #デカコンでWebサービスするなら不要ですけど。(爆
      --
      notice : I ignore an anonymous contribution.
      親コメント
  • /.J 自身が DNS に依存している URI 引いているから、部外者には 何もできなかったりする。ログインすらできないもん。

    --
    --- Toshiboumi bugbird Ohta
  • DNSの障害と聞いたときは、まさか /.-J がこんなハメになってたり [zdnet.co.jp]しないよなぁ、とか(わたしがする必要のない)余計な心配をしてしまいました。

    セカンダリがなかったのは別のエラーがたまたま重なっていただけってことで、一安心です。
  • by picard (4667) on 2002年02月17日 23時12分 (#63756) 日記
    それで今日 knok さんが血相かえてたのか ... ^_^;;
  • 1.DNSサーバは複数置く
    2.同一ネットワーク、または同一施設内には置かない
    3.引越し時の修正は速やかに
    お引越し [srad.jp]で疲れている(と、思う)Oliver氏が人柱になってくれた教訓でした。
    --

    # I will work seriously this year!

  • by lss (2577) on 2002年02月18日 0時39分 (#63794) ホームページ 日記
    DDOS攻撃されてダウンしてるのではないかと思って心配してましたが、 そうじゃなくて安心しました。

    参考:[CNET]サービス拒否攻撃の標的になったスラッシュドット [cnet.com]

  • プッシュ訪日に伴って、某機関により、○△□されたのかと勝手に妄想してました。(^^;;
  • % nslookup www.slash.jp がグッドなのに、
    なんで、ブラウザのブックマークで応答せんのかな??と考えてました。
    勘違いアドレスをダイレクトで入れたところ、、
    ぉおおおぅつながった~と思ったら様変わりしたページで驚いてました。
    ##いつから有限会社になったんだろ、、((^^;と。
    --
    −・・ ・   ・ −・−・ ・・・・ −−−
    手垢で汚れた少年漫画とソースの香りがいい感じ
  • by Anonymous Coward on 2002年02月17日 21時57分 (#63721)
    Internetっていろんな綱渡りで成り立ってるんだなーって、
    思い知らされることしきり。
  • by Anonymous Coward on 2002年02月17日 22時14分 (#63730)
    今回の教訓として「サーバは二重化し、必ず、障害テストを行う」ってのがあると思うんだけど、/.Jってサーバ自体が障害が起きたときのリカバリーは代替マシンにバックアップを戻すってなっているのでしょうか?

    いえ、サーバ屋なので、ちょっと興味が・・・。
    • by Anonymous Coward
      それはハードウェア障害の時の話でしょ。
      今回は単にDNSサーバの登録ミスなんだから、
      リカバリ云々の話じゃないと思うぞ。
typodupeerror

海軍に入るくらいなら海賊になった方がいい -- Steven Paul Jobs

読み込み中...