November 26, 2005
どんどん溜まっていきインデックスを浸食していくデータを、いかに自動的に消すか?というのが「消す技術」である。
古いからって勝手に消えてしまっても困りますし、たまにアクセスしたいものが消えてしまうのも困る。でも不要なものはどんどん自動的に消えていって欲しい。
対象はパーソナルブックマーク、ソーシャルブックマーク、CMS的に蓄えるコンテンツ、日記データなど。
実装としてできるだけRDBを使わないような技術として管理し、ライトな実装、データファイルの独立性をいかに高めるか?というのをポイントとしたい。RDBにはできるだけコンテンツデータを格納しないことで、CMSの実装が簡単になったり、変更容易性を確保したりする。RSSやXHTMLがマスタデータであり、RDBは検索機能やユーザ管理などを提供する従の存在であるという考え方。
削除基準:
・利用頻度があまりにも低いもの(しきい値の設定が必要?)
・日付の絶対日時(去年のデータはいらない、とか)
・いらないと判断したもの(いらないと判断する基準は?)
・削除しなくてはいけないもの。
・すぐ手に入るもの(データの粒度を下げる。全文引用→Permalinkに変換する。)
・消したいと思ったモノ(検索情報抽出は、全文?メタデータ?SBM?,Folksonomy?などとの連携?)
消してはいけないもの:
・ある期間で必ず必要になるもの、季節に依存するもの。
・自分はいらないけど、他人には必要なもの
・消したくないもの
・二度と手に入らないもの。
削除判定基準:
・ファイル名に記述された日付情報
・ファイルのタイムスタンプ(作成日、更新日)
・dublin coreなどで定義されているメタデータに記述される日付
・最終利用日・・・・マルチプラットフォーム対応にする必要性が高い。
(携帯まで含めると、利用日保存方法、データ保持のあり方は?)
削除方法:
・完全に消す
・アーカイブしてデータからは切り離して移動させる
・削除フラグを立てる(データベース)
ソーシャル削除:
・誰かが必要とされそうな奴は残しておく
・誰にも支持されなければ勝手に消える(自然淘汰)
メタ情報:
・XHTMLであれば、Dublin Coreを内蔵すれば良い?
・単体のファイルならば、google sitemapみたいなメタデータを別途用意?
・google base + api呼び出しという手もアリ?