Webアプリ「Get 1500」の更新をしました。

Get 1500
Twitterのデータを取得し、1500件まで表示する「Get 1500」を更新しました。
このアプリは、自分の好き勝手に作ったWebアプリです。JavaScriptを利用していないため自動更新しませんが、クライアントの処理に関わるリソースは、HTML解析と描写だけなので、結構軽めです。

更新内容は、表示サイズを横幅100%にしました。そして、こちらがメインの処理なのですが、ハッシュタグを沢山つけて拡散目的にするツイートがあったため、ある一定件数のハッシュタグが合った場合には、そのツイートを表示しないようにしました。この処理は、アフィリエイトなどの拡散目的を逆手にとったため、かなり不要なツイートを表示させないようにできました。

あとは、何とか学習機能をつけて、私が「スパム」と認識するものを、機械的に処理が出来たらなと思います。
そこで、気になるのが、どうやって文章が「スパム」なのかそれ以外なのかを、コンピュータに判別させる方法です。
ここは、どうやったら上手くいくのでしょうか。コンピュータに「知識」と「経験」を積ませることで上手くいくのでしょうか。そして、その「知識」と「経験」は、どうやって積むのが良いのだろうか。そして、どれが「正しい(重要)」なのかを、教えたら良いのだろうか。無い頭を色々使いつつ、色々試行錯誤中です。そもそも、Perlでもできるのでしょうか。
なんか、深みにはまりそう。



□ 関連サイト
Get 1500


□ 関連記事
Twitterのツイート記事を1500までさかのぼれる。Get1500
Twitter - Get 1500でTwitter公式の東北地方太平洋沖地震の情報を共有するハッシュタグに対応しました。
Twitter - Get 1500 にて、RTが付くツイートを検索対象外としました。
2012.06.12

コメント投稿フォーム

 

最近の投稿

カテゴリ

オススメ

カプセルトイ関連

ミク関連

アーカイブ

RSS Feed RSS Feed Atom Feed TopicXML アイコン
WebBoard