KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie krzemowej

Post on 25-Jun-2015

859 views 4 download

description

Prezentacja Jaromira Działo z Topicmarks.com podczas KrakSpot #13 [25.11.2011]. www.facebook.com/krakspot www.krakspot.pl

Transcript of KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie krzemowej

Działaj globalnie, czyliTopicmarks w Dolinie Krzemowej

Jaromir Działo

Agenda

● Intro

● Problem

● Rozwiązanie

● Dlaczego Dolina Krzemowa?

● Działaj globalnie

● Q&A

Dziennie powstaje:

60,000 nowych

website’ów 1,5 milionów

artykułów na blogach

10 milionów postów

na tumblr 140 miliony tweetów 1,5 miliarda różnego

rodzaju wpisów na

facebooku

Problem

Problem

Ludzie mają znacznie więcej dokumentów, niż są w stanie przeczytać lub

efektywnie nimi zarządzać. Naszym zadaniem jest odpowiedź na pytanie, co

robić po znalezieniu ciekawych dokumentów, kiedy nadal jest zbyt dużo do

przeczytania. W zbyt gęsto upakowanym tekście można zgubić sens. Badania

wykazały, że niektórzy z Państwa całkowicie pominą to ostatnie, długie zdanie,

szczególnie, jeśli niepoprawne formatowanie sprawi, że będzie wyglądać

nieatrakcyjnie, i to pomimo, że jest dłuższe niż poprzednia część tekstu.

Mamy zbyt dużo do przeczytania ..

Problem

Ludzie mają znacznie więcej dokumentów, niż są w stanie przeczytać lub

efektywnie nimi zarządzać. Naszym zadaniem jest odpowiedź na pytanie, co

robić po znalezieniu ciekawych dokumentów, kiedy nadal jest zbyt dużo do

przeczytania. W zbyt gęsto upakowanym tekście można zgubić sens. Badania

wykazały, że niektórzy z Państwa całkowicie pominą to ostatnie, długie zdanie,

szczególnie, jeśli niepoprawne formatowanie sprawi, że będzie wyglądać

nieatrakcyjnie, i to pomimo, że jest dłuższe niż poprzednia część tekstu.

Mamy zbyt dużo do przeczytania ..

Rozwiązanie

.. niech komputer pomoże nam czytać

Topicmarks can semantically summarize, tag, find relations and organize large collections of documents automagically. It decomposes a document into semantic relations to create multiple, alternative personalized views of content. It allows extracted knowledge to be re-used, namely in the construction of concept maps, documents, presentations and so on

Product

Product

Product

Product

Facts

1. Lego Tetrix is fully compatible with Lego Technic

2. Mindstorms is part of Lego’s broader educational efforts

3. Lego WeDo set is aimed at elementry school age children

Facts

1. Lego Tetrix is fully compatible with Lego Technic

2. Mindstorms is part of Lego’s broader educational efforts

3. Lego WeDo set is aimed at elementry school age children

Product

Engine

Client

e.g. portal, browser

extension, rest API sentence splitter

tokenizer (sentence into words)

sentence parser

fact generation (building semantic relations from parsed sentences)

terms extraction

semantic document representation

Distributed on (1..n) servers

Knowledgebase storage

semantic data model

indexing

text searchengine

Cluster of DB servers

RDF model

Front-end servers

wrapperinduction

PDF Wrapper

HTML Wrapper

Custom Wrappere.g. WIKIPEDIA

Upload

DOC Wrapper

Text processing pipeline

there are over 30 processors implemented in the grammar analyzer pipeline, switched on/off when needed

cache

● Technology difficult to duplicate

● ~20,000 engineering hours invested

● Solves hard natural language processing problems

● Advanced string and graph-theoretic algorithms

● Requires large system architecture design

● Harnesses web intelligence via Web2.0/3.0 APIs

● Makes advanced human-machine collaboration

● Accessible to the casual user

Published USPO patent

● Title: "Method and System for Generating a Document Representation"

● Filed March 5, 2010; priority March 6, 2009

● Total number of claims: 42

Architektura

The many engineering hours invested, proprietary algorithms and a patent make duplication unrealistic

Zastosowania● Analiza dokumentów WikiLeaks

● Procesowanie kanałów RSS

● Analiza Press Releasów giełdowych

Feedback użytkowników:

● student dziękował za "5-tkę", którą otrzymał za wygenerowane streszczenie

● blogger używał Topicmarks do procesowania swoich artykułów pod kątem zrozumiałości – "jeśli maszyna to zrozumie, to może większość ludzi też"

● ktoś generował meta tagi pod SEO

● ktoś przeprocesował list miłosny od swojej dziewczyny.. i dziękował, że tylko dzięki temu go zrozumiał (?!)

Seedcamp

“Topicmarks .. a real need for millions”

May 2010, a winner of

Dlaczego Dolina Krzemowa?

Capital is liquid.

Capitalists are not.

Silicon Valley

● inwestorzy: nie tylko „Sand Hill Road”

● co-working spaces: Pier38, SOMACentral, PariSoma

● media w co drugim (ponieważ same też często są startupem)

● spotkania branżowe

● prawnicy pracujący „za darmo” (do momentu zdobycia finansowania)

Heaven & Hell

Wyjątkowy pomysł? Niekoniecznie.

Odpowiedni moment wejścia na rynek? Bardziej.

Znajomości? Przede wszystkim.

Grand Prize Winner by 66% audience vote and 88% jury points

“Potentially huge—Jeff Clavier”“Solving a very interesting problem”

“Nerdy winner of the night”

Thought through very well” “A ripe acquisition target”

Winning Efforts

:)“Made for […] denser documents”

“Find a new friend in Topicmarks”

Działaj globalnie?

Bilans

● 6 inwestorów oraz 5 advisorów, wśród nich:

• Aaron Patzer (Mint.com [$170m] => Intuit)

• Adeo Ressi (Founder Institute)

• Peter Berger II (Silicon Valley Semantic Technology Forum)

• Jeannie Kahwajy (Adviser to Hillary Clinton)

● koncepcja nowego produktu

● bezcenne kontakty

● współpraca przy procesowaniu repozytoriów Cloud (Evernote, Google Docs, Dropbox, BOX.net)

BilansBiuro Topicmarks w San Francisco

a „za ścianą” mamy:

● Twitter

● Mashable

● Wordpress

● Zite

● Socialize

oraz

● Stadion Baseballa

GO GIANTS!!

Nowy Produkt

Nowy Produkt

Nowy Produkt

Bilans

Topicmarks obecnie:

● używany w 160+ krajach

● procesuje ok. 2 miliony dokumentów tygodniowo

● 35.000 użytkowników..

● ..którzy mówią 62 językami

● promowany na Evernote

● 40.000.000 rekordów w indeksie

● operuje na rynku zarzadzania informacjami w cloudzie, szacowanym na $1mld ($5.5b w 2015)

Bilans

Potential

B2B

B2CDeal in place

Bilans

Organizing information on the cloud is growing 74% per year into a $5.5b market

Cloud storage is exploding into a$33b market in 2015

Sources: OECD, Accenture, IDC IT Cloud Services Forecast, team analysis.

Spending on organizing and retrievingresearch is worth $139b in 2015

CAGR CAGR 11%11%CAGR CAGR 11%11% CAGR CAGR

58%58%CAGR CAGR 58%58%

Digitizatio

n of

paper sources

Multiple devices

Remote collaboration

Better backups

Mainstreamingof research

Information

explosion

Independent

contracting

Knowledge-based

competitiveness

CAGR CAGR 74%74%CAGR CAGR 74%74%

People organizing information throughcloud storage will be a $5.5b market in 2015

.PL

Mamy najlepszych programistów na świecie

.. czas na NASZE globalne produkty

Pytania?

Jaromir Działojd@topicmarks.com

twitter: @jaromirdzialo